at backyard

Color my life with the chaos of trouble.

ブラウザ上で音声認識を行って、ただ字幕を表示させるだけのサンプルを作った。

Web Speech APIを使い、ブラウザ上で音声認識を行って、ただ字幕を表示させるだけのサンプルを作った。

作ったものはこちら

github.com

使い方はREADMEに書いてあるとおりで、ローカルサーバを起動する必要がある。
(本当はバイナリ叩くだけで、これをやれるようにしたいので、別途それ用のものを作るかも。とりあえずこれは、サンプル的な立ち位置です。)

またqueryパラメータで音声認識の設定を少しだけいじれるようにした。
langrealtimeという2つのパラメータを認識できるようになっており、langで認識する言語、realtime=trueとすることで、リアルタイムに認識を行うようになる。

具体的には下記のような感じ。

http://localhost:8000/ # => デフォルト設定。設定されているブラウザの言語で音声認識を行う。
http://localhost:8000/?lang=en # => 英語で認識を行う。ここを lang=ja にすると日本語で認識を行う。
http://localhost:8000/?realtime=true # => リアルタイムに認識を行う。
http://localhost:8000/?lang=en&realtime=true # => 言語は英語の状態でリアルタイムに認識を行う。

あ、あとPC版のChromeでしか動作確認していません。

実際にブラウザ上で動作させているデモを下に貼る。

f:id:shinshin86:20201005104111g:plain

Web Speech APIの概要

概要を知るためにまずはコチラのページを読んだ。
(さらっとしか読んでいないので、また後でちゃんと読もうかと思っている)

developer.mozilla.org

参考にさせていただいたページ

実際に実装する際には下記のページを参考にさせていただいた。

developer.mozilla.org

jellyware.jp