ブラウザ上で音声認識を行って、ただ字幕を表示させるだけのサンプルを作った。

Web Speech APIを使い、ブラウザ上で音声認識を行って、ただ字幕を表示させるだけのサンプルを作った。

作ったものはこちら

使い方はREADMEに書いてあるとおりで、ローカルサーバを起動する必要がある。
(本当はバイナリ叩くだけで、これをやれるようにしたいので、別途それ用のものを作るかも。とりあえずこれは、サンプル的な立ち位置です。)

またqueryパラメータで音声認識の設定を少しだけいじれるようにした。
langとrealtimeという２つのパラメータを認識できるようになっており、langで認識する言語、realtime=trueとすることで、リアルタイムに認識を行うようになる。

具体的には下記のような感じ。

http://localhost:8000/ # => デフォルト設定。設定されているブラウザの言語で音声認識を行う。
http://localhost:8000/?lang=en # => 英語で認識を行う。ここを lang=ja にすると日本語で認識を行う。
http://localhost:8000/?realtime=true # => リアルタイムに認識を行う。
http://localhost:8000/?lang=en&realtime=true # => 言語は英語の状態でリアルタイムに認識を行う。

あ、あとPC版のChromeでしか動作確認していません。

実際にブラウザ上で動作させているデモを下に貼る。

f:id:shinshin86:20201005104111g:plain