2014.07.06 日曜日 14:54:10

開発に利用できる音声認識APIのまとめ

mic

現在、iPhoneのみとなりますが、音声を認識してある動作をさせるアプリの開発を進めています。個人で利用するAppStoreでの配信を目的とはしていますが、この音声認識の部分はある程度精度は必要となります。ただ、この部分をオリジナルで作り込もうとすると、時間がかかりすぎるということで、APIなどが無いか探してみました。

xcodeで使える無料で利用できる音声認識API

OpenEars – iPhone Voice Recognition and Text-To-Speech

フレームワークを追加して、ヘッダで呼び出せ利用できる音声認識/音声合成のライブラリです。今のところは精度も高く、一番良いかなと思うのですが、日本語の認識がローマ字ベースなので、日本語を認識させるときには工夫が必要みたいです。
具体的な使い方などは「Xcode – フリーの iOS 向け音声認識/音声合成ライブラリ『OpenEars』の使い方 – Qiita」が詳しい

KingOfBrian/VocalKit · GitHub

オープンソースのAPI。辞書登録にコツがいるみたい。元のベースはPocket Sphinxのラッパーとのことですが、現行のxcode5では動きませんでした。それほど多くの言葉を認識させないのであれば、良いなと思ったのですが、残念です。
具体的な使い方などは「VocalKitについて」が詳しい

大語彙連続音声認識エンジン Julius

こちらもオープンソースの汎用大語彙連続音声認識エンジンです. 数万語彙の連続音声認識が行えるとのこと、FLCLjp/iPhone-julius · GitHubSOTA » OS X Lion(Xcode 4.3.2)にJuliusをインストールにxcode4での実装結果はありましたが、xcode5で動くがどうかはまだ試してないです。

現状有力候補はOpenEarsだが

現状、xcode5にも馴染んでくれて、挙動に問題がないOpenEarsでの開発をすすめていますが、認識はするのですが、逆に曖昧な部分も、登録してある言葉で認識してしまうため、一工夫を行う準備をしています。一筋縄では行かないから、あまり音声コマンドのアプリってまだないのかなとも思います。作ってみて実感したのはsiriってそうかがんえるとすごい精度だなとも思います。

この音声認識はいずれOpenframeworksとも組み合わせてインタラクティブな仕掛けにも取り入れて行きたいと思います。

おまけメモ:Androidで使える無料で利用できる音声認識API[調査中]

RecognizerIntent | Android Developers

SpeechRecognizer | Android Developers

© 2014 iDEACLOUD inc. All Rights Reserved.