MENU

Knowledge Oasisは主にAIとAWSの知識を共有するブログです。その他ITに関する知識やまれに生活に役立つ知識も共有するかもしれません。

KOふみ
名前はKOふみ(こふみ)。独立系SIerで20年のキャリアを持ち、新人研修の講師から請負開発まで幅広く経験。現在はAIを駆使したソリューション開発に従事。資格は応用情報技術者、データベーススペシャリスト、プロジェクトマネージャー、PMP、簿記2級。AWS学習中で、将来はAWSアンバサダーを目指す。

OpenAIで文字起こしをする方法2選

OpenAIで文字起こしをする方法2選
  • URLをコピーしました!

OpenAIを使って文字起こしをする方法はAPIとオープンソースバージョンの2つがあります。今回はそれぞれのやり方と違いについて解説します。

目次

文字起こしとは?

文字通りですが、音声データを文字にすることです。議事録の作成であったり動画に字幕を付けたりするのに役立ちます。

APIで文字起こし

OpenAIのAPIを使って文字起こしをすることができます。OpenAIのAPIを使えるようにするには以下の記事を読んでください。

やり方

以下のようなコードで文字起こしすることができます。

from openai import OpenAI
client = OpenAI()

audio_file= open("audio.mp3", "rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1", 
  file=audio_file
)
print(transcription.text)

modelに音声認識モデルであるwhisperを指定するのがポイントです。

オープンソースで文字起こし

WhisperがGitHubで公開されています。これをインストールすることでPythonのコードを書かずに文字起こしすることができます。

インストール

Whisperを動かすためにはffmpegをインストールする必要があります。

ffmpegの公式ページから自分の環境に合ったものをインストールしてください。私はWindows環境で動かしたので以下のコマンドでインストールしました。

winget install "FFmpeg (Shared)"

続いて、Pythonの仮想環境でWhisperをインストールします。numpyのバージョンが合わないのでダウングレードします。

pip install -U openai-whisper
pip install numpy==1.26.4

動かし方

Whisperをインストールした仮想環境で以下のコマンドを実行することで動かせます。

whisper audio.mp3

Whisperを動かすと5つのファイルが作成されます。

拡張子内容
txt文字起こしされた文章
tsvタイミングと発言がタブ区切り
srt基本の字幕データ
vtt位置や文字色を拡張できる字幕データ
jsontsvをjsonで構造化したデータ
Whisperで作成されるファイル

APIとオープンソースの比較

一長一短なので一概にどちらが良いという訳ではありません。共通しているのは話者の区別ができない点です。議事録のように複数人の会話で誰の発言かが重要な場合はAWSのTranscribeのような別のサービスを検討する必要があります。

APIオープンソース
OpenAIのユーザー登録が必要OpenAIのユーザー登録無しで使える
有料無料
処理性能は一定処理速度はマシン性能に依存する
1つずつ字幕データを作れる字幕データを作れる
GPT-4oで後処理が行える後処理は自作が必要
話者の区別はできない話者の区別はできない
APIとオープンソースの比較

APIでGPT-4oの後処理ができるのは大きなメリットです。「あ~」や「え~っと」などのフィラーを削除したり音声が不明瞭で正しく文字起こしできなかった箇所を文脈に沿って修正したりすることができます。

まとめ

音声データを簡単に文字起こしすることができました。音声を文字にすることでシステムに組み込みやすくなります。アイディア次第でアプリの幅を広げることができるかもしれません。これを機にチャレンジしてみてはいかがでしょうか?

  • URLをコピーしました!

コメント

コメントする

目次