Chromeブラウザで音声認識精度を検証する

Chromeブラウザで音声認識精度を検証する

「気軽に使えるChromeブラウザの音声検索。果たしてその実力は?」

前回は「単語認識」に焦点を当て、例としてグーグルが提供する音声検索サービスを紹介した。今回は実際にChromeブラウザからその音声認識の精度を検証してみたい。

まず、Chromeブラウザがインストールされていない場合は、Google Chromeのサイトからダウンロードできるので、インストールする。

■Chromeブラウザで音声認識技術を体験する

Chromeブラウザでは音声認識によるテキスト変換技術を簡単に体験することができる。ただ単に音声入力を体験したいという場合は、現在HTML5 Presentationの音声入力のデモページから試すことができるので、ぜひ体験してみてほしい。

Chromeブラウザからこのページにアクセスすると、テキストボックスにマイクアイコンが表示されている。使い方は簡単で、右側のマイクアイコンをクリックし、「お話しください」となったらマイクに話し掛けるだけ。タイピングしなくても、マイクに話し掛けるだけで文字を入力できる。

■Chromeブラウザで音声検索を利用できるようにするには

なお、上のページは音声入力を紹介するデモページ。Chromeブラウザで音声検索を利用したい場合は、プラグインを追加する必要がある。ここでは「Speak to Search 」を紹介するが、他にも「Voice Search」(検索エンジンを切り替える機能が付いている)や、「Speechify」(Twitterへの音声入力も可能)も便利で、よく使われているようだ。

Speak to Search

機能を追加したい場合は、右上の「CHROMEに追加」をクリックすると、Chromeブラウザの拡張機能として追加することができる(すでに追加されている場合は「CHROMEに追加済み」となっている)。

CHROMEに追加

インストールしたら、検索窓にマイクアイコンが表示されるようになる。Google検索のページにアクセスし、マイクアイコンをクリックして話し掛けてみよう。

■実際にChromeブラウザで音声認識の精度を検証する

では、その音声認識精度の実力はいかほどか、実際に試してみたい。

まず、「東京」、「今日のニュース」、「音声認識」など、一般的な単語はクリアに発音しさえすれば、ほぼ正確に認識された。また、「猫 里親」、「東電 値上げ」など、スペースを入れたい場合も区切って話せばOK。単語レベルは難なくテキスト変換された。

ただし、例えば「蛙」を検索したい場合、「蛙」または「カエル」と変換されてほしいが、「かえる」としゃべっても基本は「帰る」と認識されてしまう。イントネーションに注意しても日本語はやはり同音異義語の認識が難しく、単語レベルだと推測も厳しい。単語で認識させる場合は「カエル 両生類」のように連想しやすい言葉で伝えるように工夫したいところだ。

次に、長文はどうだろう。検索で長文を入力することはあまりないだろうし、入力可能時間自体も長くないが、認識精度ということで検証してみる。

試しに「全国の天気予報を一気に見ることができるサイト」、「アンドロイド(Android)にインストールしたいアプリをまとめたサイト」などと言ってみたが、まずはうまく認識してくれた。ただ、やはり早口だったり詰まってしまうと認識は厳しいようだ。少し早口になってしまうと「androidにインストールしたアプリをまとめたい」と解釈されてしまった。また、「android インストール アプリ」と解釈されたり、認識できなかったりする場合もある。

androidにインストールしたアプリをまとめたい

だが、必要な単語を拾ってくれるし、テキストの変換もほぼ問題ない。なかなかの認識レベルだ。音声検索として使うには、十分実用的なレベルに達していると言っていいだろう。

■音声認識技術について、今後の課題を考える

このChromeブラウザでの音声認識は、サーバーを介して行われる不特定話者認識であり、サーバーに蓄積されている膨大な音声認識データ(言語モデルや辞書)によって高い認識精度を実現できている。

その例として、「貫地谷しほり(“しおり”と発音しても正しく変換される)」、「イチロー(カタカナで変換される)」など、有名な人の名前や一般的な単語はほぼ正しく認識できる。ただ、やはり一般的ではないだろう言葉は認識が難しく、例えば「情シス」、「災対サイト」などは何度言ってもちゃんと変換されなかった。発音の良し悪しもあるだろうが、一般的ではない略語や専門的な内容の認識には辞書の充実などが必要で、今後の充実を期待したいところだ。

また、単語認識では同音異義語の認識が一番難しいと感じたが、やはり長文だとその内容や単語どうしのつながりなどで推測して変換してくれる。よって、文章認識においてはそれほど問題ではないだろう。どちらかというと、認識率が格段にアップしたとはいえ、クリアに話すという発音の精度を求められる点が音声認識にとってはまだ課題かもしれない。

なお、マイクの質でも認識率に結構差が出るので、認識率が悪い場合はマイクに問題がないかを疑ってみてもよいだろう。マイクについてもまた取り上げてみたいと思うが、次回は「文章認識」、「会話認識」について触れ、音声認識によるテキスト変換技術について、もう少し見ていきたいと思う。