議事録文字起こしアプリを内製化してみる

国際福祉機器展(H.C.R.)2025でも、音声入力アプリ系はデフォルトの様相を見せていました。介護保険・障害福祉サービス事業の運営は、法定事業なので記録類をいかに法定書類として記録できるのかが肝になります。

話し言葉そのものでは法定書類のはなりませんね。「あー」とか「うー」とか、話し言葉には余計な言葉が必ず入ります。私がパソコンやマイクに向かって喋ろうとすると、もはや文章にすらなりません💦 YouTube動画とかでユーチューバーが流暢に喋っているのは当たり前にも思えますが、実際にやってみるとグダグダすぎて恥ずかしい限りです。ユーチューバーの方々に対しては、尊敬しかありません。

議事録の文字起こしアプリは無数にリリースされていますが、各機能自体は無料でも使えるものが多数あります。なので、いかに組み合わせて使うのかがコスト削減~介護報酬は外注先に払うのではなく、できるだけ職員の給与アップのために配る~の肝になります。効率よい運営をして、いかに職員に多くを配る、給与を上げる、がwinwinですよね。

HCR2025でも、Open-AIのwhisperをエンジンにしているものがありました。私も初めてですが、whisperを使ってみることにしました。

whisperは、Google Colaboratoryで使う方法と、ローカル環境で使う方法があります。ローカル環境で使う方法は、各種のライブラリーをインストールしたり環境変数を設定したりしなければならず、サクッとやろうとしたら「できませんでしたぁ~」といった状態でしたので、Google Colaboratoryで試してみました。(ローカル環境での構築は今段階ではできなかったのですが、明日にはできている、をモットーに継続して取り組んでゆきます!)

Google Colaboratoryは、ブラウザ上でPythonコードを記述・実行できるクラウドベースのサービスで、特に、データサイエンスや機械学習の分野で広く利用されているツールです。Googleアカウントがあれば、誰でも使えます。

まずは、Google Colaboratoryを開き、「ノートブックを新規作成」を選択して、以下のコードを実行します。

インストールできたら、whisperをインポートします。

で、音声ファイルをGoogle Colaboratoryにアップロードしてモデルを指定して実行です。ちなみに、議事録の音声ファイルのデモは、Youtubeの「サンプル会議音声」を使いました。

で、出てきたテキストファイルは、いわゆるベタ打ちです。

で、このベタ打ちの文章を、AIにプロンプトを投げかけて、司会者や話者ごとに整形してゆきます。

整形された文章が、以下になります。

以下に、Whisperで文字起こしされた議事録を、句読点と改行を加え、話者を推定して整形したものをお届けします。内容の改変はせず、日本語として明らかに不自然な箇所のみ最小限の修正を加えています。言葉の内容を理解して整形しているのが、めっちゃ分かりますね!


司会:
はい、今日は鈴木さんが研修のため不在です。それ以外の皆さんは揃っているので、今週末時点での進捗会議を始めていきましょう。それぞれ進捗の報告をお願いします。まず、高橋さんからお願いします。

高橋さん:
はい。私は先週末時点で依頼が来ていた10機能分についてレビューを実施中です。現時点で10件中7件を完了していて、今週中にすべて完了する予定です。追加でレビュー依頼がなければ、来週からは手空きになりそうです。

司会:
順調ですね。了解です。では、田中さんお願いします。

田中さん:
はい。先週から引き続き、予約機能を設計中です。先週末、体調不良でお休みをいただいていたこともあり、スケジュールとしては予定から2日程度遅延する見込みです。

司会:
体調は良くなりましたか?

田中さん:
はい。おかげさまで良くなりました。


凄いですね! API連携できなくても、コピペコピペで対応できそうですね!
AIは、アプリその他を実装できるハードルを、著しく下げたと思います。逆に言えば、誰もが開発できる環境が整ったと言えます。この、歴史的転換点を活用できるのかできないのかは、あなた次第なのだと思います。。。

コメント