声を出さなくても、脳で発声をイメージするだけで会話できる――。近い将来、そんな技術が現実のものとなりそうです。
私たち人間が声を出す時には、脳の中の発声を司る領域「ブローカ野」が、喉、唇、舌など(まとめて声道と呼ぶ)の周囲にある100近くもの筋肉に働きかけてこれらを複雑に制御する調音運動を行うことで、肺から押し出された空気の振動が音声となって聞こえています。
カリフォルニア大学サンフランシスコ校の神経外科医らの研究グループは、発声時にブローカ野(運動性言語中枢)が発する、どのように声道を動かすかを伝える信号を読み取り、それをコンピュータ上の“仮想声道”上で再生することで、不明瞭ではあるものの実際の発声に似た合成音声を生成することに成功しました。脳卒中やパーキンソン病などの神経変性疾患のために発話能力を失った人たちが“声”を取り戻す可能性のある研究として注目されています。
動画:Synthetic speech generated from brain recordings(YouTube)
https://www.youtube.com/watch?v=3pv0vT82Cys[リンク]
それまでの研究で、脳からの信号は音響特性を意味するものではなく声道の動きを意味するらしいことが分かっていました。今回の実験では、頭蓋内に直接電極を埋め込んだ5人の被験者に文章を発話してもらい、その時、脳が発する信号――声道のどの部分の筋肉をどのように動かすか――を詳細に測定。発声時に生成された脳活動のパターンを、ニューラルネットワークを利用した機械学習アルゴリズムを用いて仮想声道の動きに変換し、被験者の声を真似するようにシンセサイザーで再生しました。
この合成音声の聴き取りテストを行ったところ、回答者は25の回答候補の単語の内から69%の単語を正確に識別し、文章を完全に正しく聴き取ることのできた正答率は43%でした。さらに選択肢の単語を50語に増やしてみたところ、単語レベルの正答率は47%に低下し、文章全体では21%を正しく聴き取ることができました。また、被験者が文章を黙読した時にも、被験者の声に近い合成音声を得ることができたということです。
上の動画を聴いてみても分かる通り、現時点ではまだ不明瞭な発声ですが、今後精度を高めていけば、現在可能な他の手段よりも劇的に早く正確な意思の疎通が期待できそうです。研究者の1人は「腕や脚を動かすことのできない人たちが自分の脳でロボットの手足を制御することができるようになってきたように、いつの日か、言語障害を持つ人たちが、この脳で制御する人工声道を使って再び会話できるようになることを願っています」と展望を語りました。
画像とソース引用:『YouTube』及びUCSFニュースリリースより
http://ucsf.edu/news/2019/04/414296/synthetic-speech-generated-brain-recordings[リンク]