注目の研究テーマ

生活に浸透する【音声認識技術】。音声認識の活用で、世の中はどう変わる? ユニバーサルな社会のために。

人が発した音声をコンピューターで解析して、文字などに変換する「音声認識技術」。スマートフォンの音声アシスタントをはじめ、今や日常生活やビジネスシーンのさまざまなところで活用されています。認識精度をより向上させて、他の技術を組み合わせることで、その活用範囲はさらに広がっていくことが期待されています。今回は「音声認識技術」の基本や実際の活用例などを見ていきます。

「音声認識技術」の活用例

「音声認識技術」とは、簡単にいうと人間が発した音声を文字(テキストデータ)に変換する技術のことです。実際に文字として記録に残すケースがあるほか、スマートフォンやコンピューターなどの機械に対して発話して何らかの作業を行わせるケースもよくあります。

具体的にはどのような例があるでしょうか。

機械に話しかけて何らかの作業をさせる音声認識サービスの例

「音声認識技術」によって実現したサービスの一つが、「機械に話しかけて作業をさせる」というものです。ボタン操作や文字入力などを必要とせず、音声だけで操作ができるので、便利な点が評価されています。

具体的なサービスの例としては、iPhoneの「Siri」やAndroidに搭載されている「Googleアシスタント」などの音声アシスタントが挙げられます。「Siri」や「Googleアシスタント」は、音声の内容を理解して、指定された用語を検索したり、天気や時間を伝えたり、さらには簡単な会話を行うこともできます。

音声アシスタントを搭載したスマートスピーカーも、多くの人が利用している「音声認識技術」の一つです。スマートスピーカーを通じて、好きな音楽をかけたり部屋の照明を点灯・消灯したりなど、さまざまな家電製品を操作することができます。

また、発した音声を別の国の言葉に即座に変換する翻訳・通訳機能も「音声認識技術」を使った代表的なサービスと言えます。翻訳・通訳機能を搭載した専用機器のほか、スマートフォンにインストールして使うアプリもあります。

・多言語音声翻訳アプリ VoiceTra(ボイストラ)
https://voicetra.nict.go.jp/

国立研究開発法人情報通信研究機構(NICT)が開発した、スマートフォン向けの音声翻訳アプリ。個人の旅行者の試用を想定して作られた研究用アプリで、31言語に対応している。

その他、車に搭載されているカーナビも、ほとんどの製品で人の言葉(音声)による操作が可能です。

「音声認識技術」で自動的に音声を文字化するサービスの例

一方、人が発した言葉を認識して自動的に文字化するサービスは、どちらかというとビジネスシーンで使われることが多い傾向にあります。人が音声を聞いて文字に書き起こすのと比べると、時間も人手も削減できるので業務の効率化が図れるため、導入が進んでいます。当然ながら、人手不足の解消にも貢献します。

例えば、会議などの議事録の作成です。国会や地方自治体の会議をはじめ、一般の会社の会議でも議事録を残す必要があるケースは少なくありません。「音声認識技術」を取り入れた議事録作成のソフトウエアやサービスを導入すると、会議の音声を自動的に文字にすることができます。

コールセンター業務でも、「音声認識技術」を利用したサービスの導入が進んでいます。コールセンターでは、顧客からの問い合わせ内容を記録として残す必要があるケースが多いので、電話の音声内容を自動的に文字化できるニーズは高いのです。

また、「音声認識技術」によって、テレビ番組や動画コンテンツに自動的に字幕を付けるサービスも実用化されています。特に最近は、生放送や生配信番組の音声も即座に文字化できるようになってきていて、利便性が向上しています。

現状では、音声認識の精度は100%ではありません。音声を正確に文字化するには、議事録でも字幕でも最終的には人が聞き直すなどして再度チェックする必要があります。それでも、ある程度は自動的に文字化されるので、人が音声を聞いてゼロから文字にするよりも大幅な省力化が可能です。

「音声認識技術」の仕組み

そもそも、コンピューターは人が発する音声をどのように認識しているのでしょうか。

人間の場合は、人が発する言葉をそのまま理解することができます。しかしコンピューターは、発した音声のままでは認識できません。そこで、音声を解析してその特徴を数値化した上で、言葉に当てはめる方法が採られています。

なお「音声認識技術」は、厳密には音声を解析して文字化するところまでを指します。冒頭で紹介したさまざまなサービスの例は、「音声合成技術」や「自動翻訳技術」など、「音声認識技術」と別の技術を組み合わせることで実現しています。

コンピューターが音声を認識する基本的な流れ

「音声認識技術」の研究は1960年代頃から本格的に進められるようになり、1990年頃までには音声や単語に関わる統計データから音声を認識する方法が確立しました。基本的には、次のような工程を経て認識されます。

①【音響分析】 
音声から、周波数や音の大きさなどのさまざまな特徴を抽出し、コンピューターが認識しやすいデータにする。

②【音響モデル】 
特微量と音素(最小の音の単位)の組み合わせを統計に示したモデルに照らし合わせて、ある音が「あ」なのか「い」なのか、一つずつ音素を特定する。

③【発音辞書】 
単語と発音がセットで登録されたデータベース。「音響モデル」によって特定された音素と照らし合わせて、単語の候補を提示し推定。例)「hashi」なら…「橋」「箸」「端」など

④【言語モデル】 
名詞や助詞など単語間の出現度合いが登録されたデータベース。ある単語の次に来る単語を確率から判断して、文章化。例えば、「chikaku no hashi no ue」であれば、「地殻の箸の上」ではなく「近くの橋の上」と判断する。

2011年になると、ディープラーニング(深層学習)※によって「②音響モデル」の精度が大きく向上するという研究成果が発表されました。現在では、「音響モデル」にディープラーニングを適用した「音声認識技術」が主流となっています。

※ディープラーニング…AI(人工知能)が、人の手を介さずに自ら学習を深めていく手法のこと。

最新の音声認識技術、「End-to-Endモデル」とは?

2016年頃からはさらに新しい音声認識の技術が開発され注目されています。それが「End-to-Endモデル」です。

「End-to-Endモデル」は、一言でいうと「②音響モデル・③発音辞書・④言語モデル」のプロセスを一つにまとめたもので、音響分析によって音声の特微量を抽出した後はダイレクトに文字や単語を出力できるのが特徴です。いわば、人間の脳の処理系統に近い仕組みということができます。

「End-to-Endモデル」は、シンプルな構造ながら、認識精度が高いというのがメリットです。ただ一方で、認識結果を出すまでに時間がかかるといったデメリットもあり、現在も研究が進められています。

参考)AI音声認識とは?仕組み・活用方法を分かりやすく解説 NTT東日本
https://business.ntt-east.co.jp/content/cloudsolution/column-253.html

「音声認識技術」のこれから

「音声認識技術」については、前述の「End-to-Endモデル」も含めて、認識精度の向上や新たな機能の追加など現在も企業や大学などで研究・開発が進められています。

例えば精度に関しては、静かな場所でゆっくり明瞭に話した音声なら、現在でも高い認識率を実現しています。しかし、騒音のある場所での会話やささやき声、複数で同時に話した場合などは必ずしも正確に音声を認識できるわけではないからです。

また、「音声認識技術」によって会話や動画の情報などが素早く正確に文字化されることは、聴覚障がい者と健常者とのスムーズなコミュニケーションに役立ちます。ユニバーサルな社会を実現するためにも「音声認識技術」は必要とされているのです。

「音声認識技術」の製品・サービスは、今後も拡大が予測される

研究が盛んに行われる背景には、「音声認識技術」への高いニーズもあります。各種調査では、「音声認識技術」を用いた製品・システムの市場は、国内外を問わず今後もますます規模が拡大すると予測しています。

一例を挙げると、海外の調査機関による予測では、世界の音声・音声認識市場の規模は2020年時点で約144億1000万ドル(約1兆8733億円/1ドル=130円で計算)あり、2027年までに17.2%以上の成長が見込まれています。また国内の音声認識市場については、現時点で100億~300億円程度の規模があるというデータがあります。

国が特に期待している、多言語翻訳分野の技術開発

文部科学省が発行する『令和2年版 情報通信白書』(令和3年版からは『科学技術・イノベーション白書』)では、多言語翻訳という面から今後の「音声認識技術」の発展に注目しています。

同白書では、2040年の社会のイメージとして「あらゆる言語をリアルタイムで翻訳・通訳できるシステム」の存在を挙げています。技術的には2027年に実現、また2029年には社会実装もされるという予測を立てています。

「音声認識技術」を活用した最新のサービスの例

ここでは、これまで難しいとされてきた複数の話者がいる場合の「音声認識技術」の実用化例を紹介します。

コミュニケーションアプリで知られる「LINE」が、2022年5月に発表したのが、話者を特定できる音声認識アプリ「CLOVA Note β(クローバ・ノート)」です。特別な設定などは不要で、そのまま会話をするだけで話者を分離して音声をテキスト化することが可能です。

・AI音声認識アプリ CLOVA Note
https://linecorp.com/ja/pr/news/ja/2022/4152

自社で開発した「CLOVA Speech(音声認識)」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリ。話者を分離して音声を認識、表示できる。

「音声認識技術」を学べる大学の学部、学科

「音声認識技術」は、主に工学部の情報工学科や情報通信学科などで学ぶことができます。大学によっては、メディア学部などメディア関係の学部・学科でも研究対象としています。

「音声認識技術」を研究テーマの一つに掲げて専門的に取り組んでいる研究室も数多くあります。その一つが京都大学の「音声メディア研究室」で、「音声認識技術」に関する研究を長年続けています。例えば、衆議院では2011年に「音声認識技術」を用いたシステムを初めて導入しましたが、その際に使われたのは同研究室の河原達也教授らによるものでした。

・京都大学 音声メディア研究室
http://sap.ist.i.kyoto-u.ac.jp/