基盤モデルでAIルンバを動かす方法

基盤モデル×Robotics Advent Calendar 2022の7日目の記事です。

基盤モデルとは

　最近話題の基盤モデルとはなんのことか。要は大量のデータを学習したデカい凄いモデルのことです（乱暴）。詳細は基盤モデル×Robotics Advent Calendar 2022の1日目の以下記事を参照ください。

　そのデカいモデルとロボットを組み合わせてうまいことやろうというのが基盤モデル×Robotics Advent Calendar 2022のテーマですが、当然基盤モデルを使ったロボット制御は、最先端の研究でなかなか簡単にできるものではありません。

　そんな無茶を、実用性は置いておいてとりあえず動くところまで実機でやってみたので、事例として紹介したいと思います。

基盤モデルでAIルンバを動かす

　今回は基盤モデルとして画像生成AIとして話題のStable Diffusionを使います。最終的にはからあげとレモンを見分ける画像認識のAIをルンバに搭載します。やったことの流れは以下になります。

Stable Diffusionで教師データを生成
AIの教師あり学習
AIモデルの軽量化
AIルンバに搭載

　図示すると以下のような感じです。

　ポイントとしては、基盤モデルとしては、驚異的に小さいとはいえ4GB以上あるStable Diffusionを使って、教師データを生成することでAIルンバに搭載するシングルボードコンピュータ（今回は、Raspberry Pi 3/4を使用）で動くAIモデルを作り出すことです。アノテーションも不要となります。

　やっていることとしてはモデルの小型化なのでAIモデルの蒸留に近い気がしますが、理論的なことはよくわからないのでとりあえず置いておきます。利点としては、Stable Diffusionが動くスペックのPCがあれば（Google Colabでも可）実現できるところですね。とにかく私はAIでルンバを動かしたいのです。

　具体的な手順を順に紹介していきます。

Stable Diffusionで教師データを生成

　Stable Diffusionを用いて、教師データを生成します。今回は、GUIがついたAutomatic1111版を使います。セットアップ方法は以下記事参照ください。

　今回は、教師あり学習として「karaage」「lemon」「etc」という3のクラス分類をします。データの生成は簡単で「karaage」「lemon」をプロンプトとして入力して大量に画像を生成するだけです。今回は、1クラスあたり300枚程度の画像を生成しました。「etc」に関しては、その他としてプロンプトを空欄にして生成しました。

　大量に生成される、からあげ画像

　生成した画像は、それぞれ「karaage」「lemon」「etc」というフォルダ（ディレクトリ）に格納します。

　画像生成AIから教師データを作り出す試みには先行研究*1があります。GANで生成した画像をCLIPでラベル付けをしているようですが、Stable DiffusionのようなText-to-Imageだと、入力したプロンプトがそのまま教師データのラベルになるので、アノテーションの手間がほとんどゼロになり良いですね。

AIの教師あり学習

　続いては、生成したデータに対して、単純な教師あり学習を行います。ここは特に新しいところはないので省略します。もし詳しく知りたい人は、宣伝になりますが拙作「からあげ先生のとにかく楽しいAI自作教室」を参考にしていただけましたら幸いです。

　書籍では、じゃんけんの「グー」「チョキ」「パー」の3クラス分類をしますが、今回はこれをそのまま「karaage」「lemon」「etc」に置き換えます。

　コードに関しては、書籍のサポートサイトのGoogle ColabのNotebookも用意してあります。じゃんけんの例ですが、ディレクトリ名を置き換えればそのまま適用できます。

　今回は、MNISTによく使われる小さいCNNと、EfficientNetの両方で試しましたが、両方とも検証データの精度は90%は軽く超えてきました（小さいCNNの方は、Data Augmentationをしています）。

　今回は、小さいCNNモデルを用います。これで4GBのStable Diffusionのモデルから、用途に特化した約90MBのAIモデルを生成できます。

　本来はテストデータでも検証をしたいところですが、今回は仕事でも研究でもないので省略します。私はただAIでルンバを動かしたいのです。

AIモデルの軽量化

　このままでもRaspberry Pi（ラズパイ）で動きますが、速度的に少しつらいので軽量化します。エッジコンピューティングとよばれる分野ですね。こちらに関しても、詳細は割愛しますので、興味ある方は、書籍を参考にしていただけましたら幸いです。

　軽量化の手法は色々ありますが、今回はTensorFlow Liteモデルに軽量化します。ノートブックは以下参照ください。

　この軽量化で90MBのAIモデルが30MBになります。

　ラズパイ4で0.032s（約30fps）で動きます。

Stable Diffusionで生成した画像とプロンプトだけを教師データとして準備。
小さいAIモデルを学習、量子化してラズパイで動かしてみた #stablediffusion #RaspberryPi pic.twitter.com/l3tHQCnOj4
— からあげ (@karaage0703) November 16, 2022