Web Speech APIを使い、ブラウザ上で音声認識を行って、ただ字幕を表示させるだけのサンプルを作った。
作ったものはこちら
使い方はREADMEに書いてあるとおりで、ローカルサーバを起動する必要がある。
(本当はバイナリ叩くだけで、これをやれるようにしたいので、別途それ用のものを作るかも。とりあえずこれは、サンプル的な立ち位置です。)
またqueryパラメータで音声認識の設定を少しだけいじれるようにした。
lang
とrealtime
という2つのパラメータを認識できるようになっており、lang
で認識する言語、realtime=true
とすることで、リアルタイムに認識を行うようになる。
具体的には下記のような感じ。
http://localhost:8000/ # => デフォルト設定。設定されているブラウザの言語で音声認識を行う。 http://localhost:8000/?lang=en # => 英語で認識を行う。ここを lang=ja にすると日本語で認識を行う。 http://localhost:8000/?realtime=true # => リアルタイムに認識を行う。 http://localhost:8000/?lang=en&realtime=true # => 言語は英語の状態でリアルタイムに認識を行う。
あ、あとPC版のChromeでしか動作確認していません。
実際にブラウザ上で動作させているデモを下に貼る。
Web Speech APIの概要
概要を知るためにまずはコチラのページを読んだ。
(さらっとしか読んでいないので、また後でちゃんと読もうかと思っている)
参考にさせていただいたページ
実際に実装する際には下記のページを参考にさせていただいた。