無料で簡単!Windows向けWhisperDesktopで動画をテキスト化

世界中で動画や音声コンテンツが豊富にある今、情報を活用するためには、これらを文字に起こすことが重要です。この文字起こしに役立つのがOpen AIのWhisperです。これまでは、Whisperを使うためには複雑な手順を踏む必要がありました。環境設定の変更や追加のインストール作業も必要でした。

しかし、今回はWindowsで簡単に使用できる「WhisperDesktop.exe」を紹介します。このツールを使えば、複雑な設定はほとんど必要ありません。

WhisperDesktop.exeのダウンロード方法

  1. GitHubの以下のページの"Releases"セクションから、最新バージョンの「WhisperDesktop.exe」をダウンロードします。"Releases"セクションはページの右側にあります。

    github.com

  2. Hugging Faceの以下のページからモデルファイルをダウンロードします。中サイズの「ggml-medium.bin」が推奨されています。

    huggingface.co

使用方法

  1. 「WhisperDesktop.exe」を起動します。
  2. ダウンロードしたモデルファイルを選択し、「OK」をクリックします。

    https://github.com/Const-me/Whisper/raw/master/gui-load-model.png

  3. 文字起こしを行いたい言語を「Languages」で設定します。

    https://github.com/Const-me/Whisper/raw/master/gui-transcribe.png

  4. 対象の動画ファイル(または音声ファイル)を選択し、「Transcribe」をクリックします。

AMDのグラフィックスカードを使っている場合でも、特別な設定は必要ありません。私の環境(AMD Radeon RX 6600)で、28分38秒の動画を3分26秒で文字起こしすることができました。

今回は、下書きした文章をChatGPTを使って読みやすく直してみました。