動画撮影の時、音声の収録はカンタンなことではありません。
撮影時は気がつかず、あとで確認したら、「この人の声だけを消したい」という場合はあるでしょうか。
今回の記事では、複数の人の声が混ざった音声から、特定の人の声だけを消す方法についてご紹介します。
目次
AIで特定の人の声だけを消すのは可能か?
最近では、複数の人が同時に話しても正確な聞き分けをして、話者ごとに集音するというAIによる音源分離技術の研究もあるようです。
メディアの報道によって、以下の大手会社はそんな感じの技術の開発に取り組んでいるようです。
➊.三菱電機
技術名:ディープクラスタリング
特徴:マイク 1 本で録音した複数話者の同時音声の分離・再現
➋.日本電信電話株式会社
技術名:SpeakerBeam
特徴:深層学習の新技術により、騒がしい環境で特定の声のみを抽出可能に
➌.東芝
技術名:分離集音
特徴:同時に話しても声を聞き分ける
➍.Google(グーグル)
技術名:Looking to Listen
特徴:同時に話してる人の声を個別に抜き出す
現時点では、これらの技術は開発段階にあり、一般的に利用できるツールとして提供するってまだまだ先の話ですよね。
非常に面倒で手間がかかるが、「特定の人の声だけ消す」って人力で試みるしかないと思います。
重なっていない音声から特定の人の声だけ消す方法
声が重なっていないのであれば、人の耳で聞きながら、人力で特定の人が話している部分だけ削除するのが手っ取り早いような気がします。
一般的な動画編集ソフトであれば、簡単な音声編集の機能も標準搭載しているので、すぐに作業ができます。
今回は、長時間愛用している「Adobe Premiere Pro」を使って基本的な流れを解説します。
➊.新規プロジェクトを作成して、使用したい動画や音声素材を追加する。
➋.これらの素材をタイムラインにドラッグして挿入します。動画素材の場合、自動的に映像と音源が分離されていきます。
➌.音源のあるレイヤーを選択した状態で、音源を再生しながら特定の人が話している部分を確認して「C」キーを押して切る。
➍.「Delete」キーで不要な部分を削除する。
ただし、この方法は乱暴で、特定の人の声だけではなく、背景雑音(環境音)も一緒に削除されて無音の状態となっているので、違和感が感じられるのでしょうか。
自然な音に聞こえさせるために、削除された箇所に背景雑音を追加する必要があります。
ちなみに、Premiere Proで編集した動画、または編集データをそのままAuditionに読み込ませて、動画制作の要である高度な音声編集をすることができます。無音部分に背景雑音を追加するっていう作業は、Auditionで「選択範囲を自動修復」機能を使えば簡単に出来ます。
【Premiere Pro】特定の音を消す効果的な方法まとめ!AIも対応!重なり合った音声から特定の人の声だけ消す方法
複数人の声が重なる録音から、どのように削除したい人の声を特定するのか、難点です。
基本的に、音は、①伝播、②振幅、③周波数、④音色 という4要素で定まってきます。
環境音やノイズがある音声データの中から人の声だけを抽出するのは、人の声の周波数帯以外の部分をカットすることで実現できます。
だが、複数人の声の中からある人の声を特定するとなると、この4要素がかなり限られてくるので特定することがかなり難しくなります。
「Adobe Audition」や、「iZotope RX」のような高度な音声編集に特化したソフトでも、正確に行うことは非常に困難だと思います。
1. 消したい声が背景音として聞こえる場合
例えば、子供の動画を撮影する際に、子供の声だけではなく、小声で喋っている大人の声も拾って入り込むことがあります。
そんなとき、ノイズになる大人の声を削除するには、あくまでもAdobe Auditionの周波数スペクトル表示を試してみてください。
➊.編集したい音源(動画データも可能)をドラッグ&ドロップで読み込んでから、ダブルクリックで「エディタ」を開く。
➋.下記の赤枠で囲まれているアイコンをクリックすると、音声波形に周波数のスペクトルが追加表示されます。
➌.ツールバーにある長方形選択ツール、なげなわ選択ツールもしくはブラシ選択ツールを使って、下にある赤い模様の「音を可視化したエリア」(周波数のスペクトル表示)で、消したいところを選択すると、要らない音を消すことができます。
ただし、人間が通常の会話で発する声のスペクトルは非常に類似しており、残したい声も削除したい声もすべて溶けていくのが普通です。
そもそも周波数スペクトル表示は、波形を視覚的に編集してビープ音やヒスなどのノイズを除去するためによく使われているが、特定の声を消すにはやはり機能不足です。
音の種類 | 周波数 |
普段の話し声(男性) | 約500Hz、下限は120~200Hz 、上限は破裂音や「さしすせそ」などの摩擦音も含むなら、20,000Hzくらいまで出ている。 |
普段の話し声(女性) | 約1000Hz、下限は200Hz~300Hz 上限は男性と同じで20,000Hzくらい。 |
赤ちゃんの泣き声 | 2000~4000Hz |
2. 複数人の声がかぶる場合
ほぼ同等な音量で完全に混合された音声から、特定の人の声を消す事は不可能です。
混合された音声には複雑な周波数成分や音響環境の影響が含まれているため、「Adobe Audition」や「iZotope RX」も全滅しました。
一部の音声処理技術では、特定の音源を強調するか、他の音源を抑制することができるかもしれないが、それでも完全に特定の声を消すことは難しいです。
また、「アクティブノイズキャンセル」や「ビームフォーミング」などの手法もあるが、限定的な状況でのみ効果を発揮するぐらいのものでしょう。
現時点では、特定の周波数や定位位置を減らす程度が関の山です。録音の時に分けて別々のトラックに録音されてないといけません。
最後に
以上は、動画や音源データから、特定の人の声を消す方法についてのご紹介でした。
正直言って、音声の混合度や環境のノイズなどが複雑であるため、従来の手法ではまったく通用しません!!
一方、最近の深層学習(AI)技術や音声分離アルゴリズムも進化しているが、依然として完全な解決策はまだ存在しません。
収録後の編集処理より、できれば、機材を用意してマルチトラックレコーディングでもするのがかなり楽でしょう。
もちろん、「特定の人の声を消す」の技術は進化し続けており、一般的に利用できるツールとして開発されるのも期待されています。これからも目が離せません。