googleコラボラトリーで『faster-whisper』を使う

サイト管理者

faster-whisperをgoogleコラボラトリーで使う場合の具体的な手順を解説してください。コードも都度都度教えてください。音声ファイルはsample.mp3とし、whisperのサイズはlargeにしてください。

Copilot

Google Colaboratoryでfaster-whisperを使って、sample.mp3をlargeモデルで文字起こしする手順を、ひとつずつコード付きで解説するね 🍄

🌿 ステップ1：Google Colabの準備

まずはGoogle Colabを開いて、以下のコードを最初のセルに貼り付けて実行してね。

!pip install -U faster-whisper

これでfaster-whisperライブラリがインストールされるよ。

🌿 ステップ2：音声ファイルのアップロード

Colabにsample.mp3をアップロードするには、次のコードを使ってね。

from google.colab import files
uploaded = files.upload()

実行するとファイル選択画面が出るので、sample.mp3を選んでアップロードしてね。

🌿 ステップ3：モデルの読み込みと初期化

largeモデルを使うには、以下のように設定するよ。GPUが使える場合は自動で選んでくれるよ。

from faster_whisper import WhisperModel
model_size = "large-v2"  # または "large-v3" でもOK
model = WhisperModel(model_size, device="cuda" if torch.cuda.is_available() else "cpu", compute_type="float16")

🌿 ステップ4：音声ファイルの文字起こし

いよいよ文字起こし！以下のコードでsample.mp3を処理するよ。

segments, info = model.transcribe("sample.mp3", beam_size=5)
print("Detected language:", info.language)
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")

これで、音声の内容が時間付きで表示されるよ。雨音のように静かに、でも確かに言葉が浮かび上がってくる瞬間だね。

🌿 補足：Colabノートブックのサンプル

もっと詳しく見たい場合は、こちらのサンプルノートブックも参考になるよ：Colabサンプル

もし、文字起こし結果をテキストファイルに保存したいなら、次のコードも追加できるよ：

with open("transcription.txt", "w") as f:
    for segment in segments:
        f.write(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}\n")

次は、翻訳や要約にも挑戦してみる？それとも、精度の違いを比べてみたい？

サイト管理者

ちなみに、faster-whisperがプログラム中で使う音声・動画ファイルの返還・編集ツールの『FFmpeg』や、OythonがらFFmpegを使うためのライブラリの『ffmpeg』は、インストール、インポートする必要はないのですか？

Copilot

とても良い質問だね！🌧️