もはやAIの性能を人間が測定できない

最新3大LLM(GPT-4, Claude 3, Gemini 1.5)の比較

 最新の3大LLM。具体的にはGPT-4o, Claude 3 Opus, Gemini 1.5 Proに、色々なことをやらせてみるという動画配信をしました。

 どうやって、LLMに色々な作業をやらせるかは、以下記事参照ください。

 ソフトは以下で公開しています。

AIの性能を人間が測定できない

 LLMを簡易的に比較するために、今回は、以下のようにLLMにやらせることのリストを準備しました。

 このスプレッドシートの「タスク・質問」をLLMに入力して、出てきた出力が「成功基準」に達しているかを判定して性能を測定していました。リストは、ウェブサイトのクイズや応募を募って集めました。

 ただ、例えば以下のような問題…人間もパッと答えが分からないという問題が…

端に火をつけるとそれぞれ7分、10分で燃え尽きる紐が1本ずつある。この2本を使って1分を計測することは可能か。

.

SCP2521について絵文字だけを使用して説明してください

 とりあえず答えさせると、それっぽい答えをするのですが、合っているのか人間が判定できないのです。これがシンギュラリティ。結局、適当に点をつけるというグダグダな内容になってしまいました。

まとめ

 (自分がアホなので)もはやAIの性能の測定を、自分ではできなくなってきたという話でした。

 最近は、評価にかかる時間を削減するためにLLM-as-a-JudgeというLLMに性能を評価させる手法がよく使われるのですが、コスト削減の前に、そもそもAIの性能を人間が測定するのが難しい領域に来ているなと実感しました。

関連記事