もはやAIの性能を人間が測定できない

　LLMを簡易的に比較するために、今回は、以下のようにLLMにやらせることのリストを準備しました。

　このスプレッドシートの「タスク・質問」をLLMに入力して、出てきた出力が「成功基準」に達しているかを判定して性能を測定していました。リストは、ウェブサイトのクイズや応募を募って集めました。

　ただ、例えば以下のような問題…人間もパッと答えが分からないという問題が…

端に火をつけるとそれぞれ7分、10分で燃え尽きる紐が1本ずつある。この2本を使って1分を計測することは可能か。

SCP2521について絵文字だけを使用して説明してください

　とりあえず答えさせると、それっぽい答えをするのですが、合っているのか人間が判定できないのです。これがシンギュラリティ。結局、適当に点をつけるというグダグダな内容になってしまいました。

　（自分がアホなので）もはやAIの性能の測定を、自分ではできなくなってきたという話でした。

　最近は、評価にかかる時間を削減するためにLLM-as-a-JudgeというLLMに性能を評価させる手法がよく使われるのですが、コスト削減の前に、そもそもAIの性能を人間が測定するのが難しい領域に来ているなと実感しました。

karaage. [からあげ]