
大きさも方角も把握「人間の聴覚レベルと同等のコンピュータモデル」
人間の脳は、音の認識だけでなく方向を把握する能力ももっています。
神経学者たちは、人間の脳と同等の聴覚モデルをもつコンピュータモデルを開発しました。
MIT neuroscientists have now developed a computer model that can also perform that complex task.
参照元:https://news.mit.edu/2022/where-sound-come-from-model-0127
– マサチューセッツ工科大学 Massachusetts Institute of Technology. January 27, 2022 –
人間の脳は、特定の音を認識するだけでなく、その音がどの方向から来たのかを判断するために細かく調整されています。
右耳と左耳に届く音の違いを比較することで、脳は吠える犬、泣き叫ぶ消防車、近づいてくる車の位置を推定することができる。
MITの神経科学者たちは、この複雑なタスクを実行できるコンピューターモデルを開発しました。
このモデルは、いくつかの畳み込みニューラルネットワークから構成されており、人間と同じようにタスクをこなすだけでなく、人間と同じように苦労することもあるのです。
MITのMcGovern脳研究所のメンバーである脳認知科学准教授のJosh McDermott氏は話します。
「我々は今、実世界で実際に音を特定できるモデルを手に入れました。そして、このモデルを人間の実験参加者のように扱って、過去に人間が実験した大規模な実験セットをシミュレーションしたところ、何度も何度も分かったことは、このモデルが、人間に見られる結果を再現しているということです。」
この新しい研究からの発見は、人間の位置認識能力が、環境特有の課題に適応していることも示唆していると、MITの脳・心・機械センターのメンバーでもあるMcDermott氏は語っています。
McDermottはこの論文の筆頭著者で、本日『Nature Human Behavior』誌に掲載されました。
この論文の筆頭著者は、MITの大学院生であるアンドリュー・フランクルです。
定位感のモデル化
私たちが汽笛などの音を聞いたとき、その音がどの方向から来るかによって、音波は右耳と左耳に届く時間や強さがわずかに異なります。
このわずかな違いを比較して、音の方向を推定するのが中脳の専門領域で、定位とも呼ばれる作業である。
この作業は、周囲に反響があったり、一度にたくさんの音が聞こえたりするような現実的な環境では、著しく難しくなります。
脳が音の定位に使っているのと同じような計算を行えるコンピューターモデルを作ろうと、科学者たちは長い間研究を続けてきました。
しかし、このようなモデルは、雑音がない理想的な環境ではうまく機能することもあるが、雑音や反響のある現実の環境では決してうまくいきません。
そこでMITの研究チームは、より高度な定位検出モデルを開発するために、畳み込みニューラルネットワークに着目しました。
この種のコンピュータモデリングは、人間の視覚系のモデリングに広く用いられており、最近では、McDermott氏ら科学者が聴覚にも適用し始めています。
畳み込みニューラルネットワークは、さまざまなアーキテクチャで設計できるため、MITの研究チームは、定位に最適なものを見つけるために、スーパーコンピューターを用いて約1,500種類のモデルを訓練し、テストすることができました。
その結果、局在認識に最も適していると思われる10個のモデルが見つかり、研究者たちはそれをさらに訓練して、その後のすべての研究に使用しました。
このモデルを訓練するために、研究者たちは、部屋の大きさや部屋の壁の反射特性を制御できる仮想世界を作成した。モデルに入力される音は、すべてこの仮想空間のどこかで発生したものです。
人間の声、動物の声、車のエンジン音などの機械音、雷などの自然音など、400以上の学習用サウンドが用意されました。
また、人間の耳と同じ情報を使って、モデルをスタートさせることも確認しました。
外耳(耳介)には音を反射させるヒダがたくさんあり、耳に入ってくる周波数を変化させますが、この反射は音がどこから入ってくるかによって変化します。
研究者たちは、この効果をシミュレーションするため、コンピューターモデルに取り込む前に、それぞれの音に専用の数学的関数を実行させました。
フランシェル氏は話します。
「これによって、人間が持っているのと同じような情報をモデルに与えることができるのです。」
研究者たちは、モデルを訓練した後、実環境でテストを行いました。
実際の部屋に、耳にマイクをつけたマネキンを置き、さまざまな方向から音を流し、その録音をモデルに送り込んだ。その結果、モデルは人間と同じように音を聞き分けることができました。
フランシェルは続けます。
「モデルは仮想世界で訓練されたものですが、評価したところ、実世界の音を認識することができました。」
類似のパターン
そこで研究者たちは、これまでにも人間の定位能力を研究するために用いられてきた一連のテストを、このモデルにも適用しました。
人間の脳は、右耳と左耳への到達時間の違いを分析するほか、それぞれの耳に到達する音の強さの違いも位置判断の基準にしているそうです。
これまでの研究で、この2つの戦略の成功率は、入ってくる音の周波数によって異なることが分かっています。
今回の研究で、MITの研究チームは、モデルがこれと同じパターンの周波数に対する感度を示すことを発見しました。
McDermott氏は話します。
「このモデルは、人がするのと同じように、周波数に依存する形で、両耳のタイミングとレベルの違いを利用しているようです。」
研究者らはまた、定位作業をより難しくするために、同時に再生する複数の音源を追加したところ、同じ状況下における人間の失敗パターンに近い形で、コンピュータモデルの性能が低下することを示しました。
フランシェル氏は話します。
「音源をどんどん増やしていくと、人間の音源の数を正確に判断する能力と、それらの音源を定位させる能力が、特定のパターンで低下していくのです。人間は、一度に約3つの音源を定位させるのが限界のようで、モデルで同じテストを行ったところ、本当に似たような行動パターンが見られました。」
研究者達は、モデルを訓練するために仮想世界を使ったので、モデルが様々なタイプの不自然な条件下で定位することを学習した時に何が起こるかを探ることも出来ました。
研究者たちは、反響のない仮想世界で1セットのモデルを訓練し、もう1セットは、一度に複数の音が聞こえることがない世界で訓練しました。
さらに、自然界に存在する音ではなく、狭い周波数帯域の音だけを聞かせたモデルもあります。
これらの非自然的な世界で訓練したモデルを、同じ行動テストで評価したところ、モデルは人間の行動から逸脱し、その逸脱の仕方は訓練した環境の種類によって異なっていました。
これらの結果は、人間の脳の定位能力が、人間が進化してきた環境に適応しているという考えを支持するものであると研究者は述べています。
研究者らは現在、この種のモデリングを、ピッチ知覚や音声認識など、聴覚の他の側面にも適用しています。
また、人が注意を払ったり記憶したりできることの限界など、他の認知現象の理解にも利用できると、McDermott氏は考えているそうです。
この研究は、全米科学財団と全米聴覚障害者研究所から資金提供を受けています。