えっ?スプレッドシートでGPT関数を!?できらあっ!
ChatGPTの後、GoogleスプレッドシートにGPT関数という機能拡張が登場しました。これは、OpenAIのAPIを認証させることで、GPT-3をスプレッドシートの関数として使えるようにするものです。あらかじめGPT関数を並べておき、指定したセルに文章を入力すると、次々と読ませることができます。ひとつ前の実験のように、ひとつの段落を読ませて整えてもらう方法は便利でしたが、1回ずつコピペして反応を待つ必要がありました。GPT関数ならば、ラフに書いたレビューを段落に分けて、一気に貼り付けて次々と整えてくれます。これは画期的でした。
ただし、OpenAIのAPIには利用制限があります。はじめに登録してから「3ヶ月かつ18ドル分」のトークンが与えられ、これを体験版として利用できます。1月の後半から、この企画を含めて色々試していたのですが、既に筆者は12ドル分以上を消費しており、いつまでもスプレッドシートでGPT関数に頼る訳にもいかなくなってしまいました。
ただしこれはあくまでもGPT-3のAPIを直接利用する場合の制限であり、ChatGPTについては今のところ(2023年2月12日時点では)こうした利用制限はありません。大量のアクセスにより一時的に利用できなかったり、処理が遅くなったりということはありますが、その点を許容できる場合にはChatGPTは引き続き無料で利用できます。
スプレッドシートとGPT関数の連携は魅力的なものでしたが、API 制限という問題が立ちはだかりました。もちろん、便利なものならばしっかりコストを支払って利用する価値があります。とは言え、原稿を作成しようとするときの負担を大きく軽減できているのかは、まだ疑問が残ります。
そのようにして、この企画はしばらく道を閉ざすこととなってしまいました。
そうだ、喋った感想をまとめてもらおう!
そんな折、ある会議の録音を文字起こしする必要がありました。日頃から文字起こし作業が大変だと考えていましたので、OpenAIが作った文字起こし用の音声認識モデル「Whisper」を使ってみました。Whisperはオープンソースで、GitHubにソースコードがあります。
ChatGPTやGPT-3などとは異なり、自分の環境に導入して実行する必要があります。そこで、Google Colaboratoryというサービスを使えば、計算処理のリソースを簡単に用意できます。ここで詳しい手順は解説しませんが、Colaboratoryで新しいページを作ると、Pythonが動くLinuxに近い環境がすぐにブラウザ上で用意されるのです。
GitHubから自分のColaboratoryページ上でWhisperをインストールすれば、音声データを読み込ませるだけで文字起こししてくれます。Colaboratoryの無料範囲で利用できる環境だと、10分の音声を3分程度で、かなり精度の高い文字起こしをしてくれます。ただ、AIによる文字起こしとは言え、正確なデータとするためには人間による見直しが必要です。結局は、何度も音声を聞き直す作業が必要になることは変わりません。
そこで思いつきました。得られた文字起こしデータを1段落ずつChatGPTに渡せば、さらに読みやすい文章へ整えてくれるのではないかと!!
この方法の場合、(プロンプトにもよりますが)ChatGPTは筆者の入力をもとに作るので、嘘や間違いはあまり心配する必要がありません。ただ、意図と違う表現になることがあるのでチェックは必要です。実はこの記事も、まず音声でラフに喋ってからWhisperとChatGPT(及び後述のBing)で整理したものなんですよ!! ……結局かなり加筆訂正はすることになりましたが。
文字起こしはインタビューから記事を作るときに必要な作業ですが、とても時間と労力がかかります。1時間程度のインタビューを文字にするだけでも、何回も聞き直したり、聞き取れない部分を確認したりしなければなりません。要約するだけでも大変です。仕事としても作業感が強く、苦手な人も多いのではないかと思います。しかし、WisperといったAIの力を使えば、少ない時間でかなり正確に文字起こしをしてくれます。完璧な反訳ではありませんが、簡単に土台を用意できる方法として有効かもしれません。