画像生成AI(Stable Diffusion)と音声認識AI(Whisper)を組み合わせたエンターテイメント

Stable Diffusionで遊ぶ

 Stable Diffusion関連の話題はつきませんね。日進月歩で新たなテクニックや技術が出てきますが、私はハイクオリティな絵を描くのは諦めて、早々におもしろアプリをつくる方法に舵を切っています。

 とりあえず、高精度な音声認識技術(Whisper)とStable Diffusionを組み合わせて、召喚獣を呼び出す詠唱ごっこをしたりしています。Whisperの使い方は以下記事参照ください。

 使用感は以下みたいな感じです。

 カラオケのMVを自動生成したら楽しそうだなと思ってたのですが、残念ながらその試みはうまくいきませんでした。メロディがあるとなかなかうまく認識してくれないのと、メロディなくても、歌詞って一文だけでは意味が通らないものが結構あったりするので、どうしても認識率が低めになってしまうんですよね。

 冷静に考えたら

「アスファルトタイヤを切りつけながら暗闇走り抜ける」

「眠れない午前二時 苛立ちがドアをたたく」

 とかよく意味分からないですもんね。主語もよく分からないですし。

AIパワポカラオケ

 カラオケ繋がりで、shi3zさんの活用法。

 AIが自動生成したお題と画像(パワポスライド)を元に、即興でプレゼンする。そしてその音声を認識して、さらにスライド(画像)を生成するというとんでもなく贅沢で知的な遊びです。

 さすがshi3zさんAIの使いこなしに長けていますね。

 ちなみに、AIパワポカラオケの音声認識にもWhisperが使われているそうです。

まとめ

 画像生成AI(Stable Diffusion)と音声認識AI(Whisper)の組み合わせの可能性に関して紹介しました。Whisper、簡単に導入できますし、ローカルでも動くから非常に使いやすいのですよね。オプションで英訳もできるので、Stable Diffusionとの相性もバッチリです。

 しかし、音声認識技術、OSSのものは以前は全然使い物にならなかったのですが、Whisperはかなり性能高そうです。これだけの精度で手軽に音声認識すると、色々可能性が広がりそうですね。

 Stable Diffusionなどの画像生成AI技術、やけに人との対立、競争を煽るようなニュースや記事を見かけますが、強力な技術ほど、楽しく使ってAIと競争でなく共創するのが個人的には良いのではないかなと思います。別に対立しても(少なくとも多くの一般人にとっては)得はないですからね。楽しまなければ損かなと。

 というわけで、自分もおもしろAIアプリ鋭意作成中です。何かできたら、そのうちブログ等で公開していこうかと思います。

関連記事