エンジニアの藤岡 ( @foka ) です。
声を使って遊べるデジタル花火を作ってみました。
このデジタル花火では、Kerasを利用して自分の音声を機械学習で学習させ、リアルタイムで音声認識を処理してインタラクションしています。
自前の音声認識のメリット
昨今、既存の音声認識は精度がかなり上がってきており、通常用途では自前で音声認識を用意するメリットはあまりありません。
それでも、自前で行う音声認識には以下のようなメリットがあり、体験コンテンツ応用としては一考の価値があります。
- ネットワーク不要
- リアルタイム処理可能で応答速度が早い
- 機材構成の自由度が上がる
- 特殊な擬音のような辞書登録されてない声でも対応できる
- 学習の仕方を工夫すれば、声以外の様々な音にも対応可能
自前の音声認識のデメリット
一方で、もちろん自前で音声認識を用意するデメリットもあります。
- 精度向上に苦労する
- 辞書登録されてるような言葉の場合、確実に既存の音声認識サービスの方が精度が良い
- 収音環境のノイズに弱い
ただ、最近はRTX Voiceを始めとする既成のノイズ処理もかなり良くなってきています。
声の場合に限れば、多少のノイズ環境でも実用を検討できる状況になってきました。
まとめ
ワンテンポ応答が送れても問題ない、正確性が必要とされる、などのコンテンツでは、引き続き既存の音声認識サービスを最初に検討すべきでしょう。
認識音性が限定的で即時応答が必要な場合や、特殊な音を使うことによって体験を作り上げたい場合は、自前で音声認識の仕組みから用意することを検討しても良いかと思います。
例えば、自前のリアルタイム音声認識の具体的な応用例として、声を使ったシューティングゲームも作ってみました。
これはLeapMotionを組み合わせて、指鉄砲でバンバンと遊ぶゲームの試作です。
こういう応用が効くのが面白いところです。
機械学習エンジニア募集中!
1→10は、AI技術・機械学習技術をXRなどの技術と組み合わせ、AI体験へと昇華させることを得意としています。
近年では認識技術、AIエージェントやそのアーキテクチャの開発に注力しています。他にも GANやword2vec、Transformerなどの表現に関わる要素技術も積極的に研究しています。
弊社のAIに関する取り組みの詳細は、こちらのサイトをご覧ください。
ご興味のある方は、Wantedlyからご応募ください。ご応募、お待ちしています!