PodcastをAIで文字起こしする - karaage. [からあげ]

PodcastをAIで文字起こしするサービス

　なんと、我らがはてな創業者の近藤さんが、PodcastをAIで文字起こしをするサービスをしているそうです。

　私も結構、Podcastをはじめとした音声配信を聴くのですが、音声配信、ざっと内容を知りたいときや2回目振り返るときに文字があると良いなと思うことが多いので、AIで文字起こしは凄く良いなと思います。

　調べてみたら、例えば「ドングリFM」は文字起こしされていました。

　「やったー！」と勢いにのって、大好きな「コテンラジオ」をみてみたら…

　文字起こしされてないーー！！ショック…

無いのなら自分でつくろうホトトギス

　無いなら自分でつくるしかないということで、Google Colabで動くNotebookを作ってみました。コーディングは不要で使えます。ある程度慣れている人なら、なんとなく使えると思います。

　文字起こしはOpen AIのWhisperで、文字起こしの文章を修正するのに、Open AIのChatGPTを使っています。Google、Open AIさまさまですね。ChatGPT APIの使用にはOpen AIのシークレットキーが必要な点に注意ください。

　技術的にもう少し詳しいことは、以下記事に書きましたので興味ある方は参照ください。

まとめ

　PodcastをAIでいい感じに文字起こしをしてみました。多少時間はかかりますが、待っていればいい感じの文字起こしができるのはありがたいですね。

　そのうち（1〜2年もしないうち）に、AIの性能が上がってクリック一発で文字起こしが一瞬で出てくるようになるとは思いますが、それまで待てないので自分のために作ってみました。こういった複数のAIを組み合わせて何かタスクを実現するというものが、当面はタケノコのようにニョキニョキ出てくるんじゃないかなと思っています。そのうち全部1つのAIができるようになっちゃうのか、こういったテクニックが当分は必要になるのかはよくわからないですね。

　一番のネックになるのは権利の問題かもしれませんね。技術的にはこの記事で紹介したように、割と誰でもAIで簡単に文字起こしできてしまうので、Podcastをしている人は、自ら「LISTEN」のような文字起こしサービスを使って、積極的に文字起こしした情報をオフィシャルでオープンにした方が色々メリットあるのではないかなと思います。

　同じオーディオの文字起こしのために、個々人がコンピュータリソースを使うのもエコじゃないですしね（オフィシャルが公開すれば1度で済む）。といいつつ、自分も過去音声配信したっきり放置しているわけなのですが…文字起こしして再利用しようかな（笑）

　あと、文字起こしや要約されたものを急いで読むのでなく、ゆったり音声配信を聞く余裕を持った方が良いのではと言われたら「そのとおりかもしれないな」とは思います。まあ、その音声配信も倍速で聴いたりしているわけなのですが…