at backyard

Color my life with the chaos of trouble.

音声認識モデルWhisperを利用して文字起こしをしてくれるMacアプリ、MacWhisperを試してみる

少し前にwhisper.cppについて書いた

shinshin86.hateblo.jp

今回はWhisperを利用して文字起こししてくれるMacアプリが出たらしいので、そちらを試してみる。

目次

MacWhisperのダウンロード方法

App Storeのリンクがこちら

Whisper Transcription

Whisper Transcription

  • Good Snooze
  • ユーティリティ
  • 無料
apps.apple.com

アプリ自体は無料でインストールできるようだが、課金するとMedium/Largeモデルが使えるようになるらしい。
下記はApp Store内の説明

Pro Unlock Whisper Transcription is free and lets you transcribe audio with the Tiny and Base models. They're fast and very accurate, but for the best results you should consider upgrading to Pro to use the Tiny (English), Medium and Large models, for industry leading transcription quality. Depending on your usecase you might want to use the Large version. You can always upgrade to the Pro version later.

このMacWhisper、おそらくインストール時にModelも一緒にダウンロードしてセットアップしているかと思われるので、その分容量がすごい...

4.54GBという大きなサイズ...まあこれは仕方ないかと思われる

MacWhisperを使ってみる

起動時はこんな感じ。

whisper.cppとは異なり、wavだけでなくMP3などにも対応しているのは嬉しいところかも

ファイルを選択するか、直接マイクの音声を文字起こし出来るらしいので、今回もWhisper.cppのときと同様Beaglesのblue blueの歌詞の文字起こしを試してみたいと思う。

[Beaglesの宣伝タイム]

SpotifyApple Musicを始め各種サブスクで配信されているので聴いてみてください

open.spotify.com

Beaglesのblue blueの歌詞の文字起こしを試してみる

Beaglesの楽曲ファイルを食わせてみて早速文字起こしをしてみる。

文字起こしの処理スピードはめちゃくちゃ早い。
すぐに終わる。

Twitterにも書いたが、文字起こし後に音声を再生すると文字起こし内容が追従してくれる。

また以下の画像を見ていただくと分かるが、テキストのコピーや、指定した部分へのジャンプも実装されていてここらへんのUIは良い感じ

Reader機能

アプリの画面上部にはいくつかの機能がある。

Reader と呼ばれるボタンを押すと、以下のように文字起こし下内容を確認できる

クリップボードへの貼り付け

またその右隣にある Copy ボタンを押すとクリップボードに文字起こしし内容を貼り付けることが出来る。

エクスポート機能

またエクスポート機能も兼ね備えており、以下のように複数のフォーマットでエクスポートが可能。

以下はcsvでエクスポートしたものをnumbersで表示させたもの。

こんな感じでタイムスタンプと文字起こし内容がcsv化されている。

無料版での課題

さすがアプリだけあって、最低限の便利な機能は実装されている。

ただ無料版だとtiny / baseモデルしか利用できないため、文字起こしの精度は微妙かも。
(といってもBeaglesの楽曲でしかまだ試していない。ただ、以前 whisper.cpp の small モデルで同じ楽曲を試したときは今回よりも認識の精度は上なので、やはり tiny / baseモデルだと少々辛いのかもしれない。)

とは言え、UIで色々と操作できるので文字起こし関連の作業をサクッと行いたいならこういうアプリはありだと思った