AIの「ひらめき」を数独で磨く？最新ベンチマーク「Sudoku-Bench」とは

2025年6月2日

本記事は、Sakana AIが2025年5月26日に公開した「AIの創造的な推論力を測る：Sudoku-Benchリーダーボード公開」の内容を要約したものです。

近年、AIの進化は目覚ましいものがあります。特に大規模言語モデル（LLM）と呼ばれるAIは、まるで人間のように自然な文章を作ったり、私たちの質問に的確に答えたりするようになりました。これらのAIはたくさんのデータを詰め込むことで賢くなったのに対し、最近では「リーズニング能力」と呼ばれる、物事を論理的に考え、推論する力がAIの性能を測る重要なポイントになってきています。これはクイズやパズルを解くときに私たちが使う思考力に近いかもしれません。現在のAIは与えられた情報を基に論理的に順序立てて考えるのは得意になってきましたが、人間が持つような多段階で創造的な推論能力、つまり「ひらめき」や「直感」のような力はまだ十分に持っていません。
この「ひらめき」を含む高度な推論能力を測定し、その能力向上を促進するために開発されたのが、Sakana AIが2025年3月に発表したベンチマーク「Sudoku-Bench」です。

Sudoku-Benchとは？

Sudoku-Benchは、伝統的な数独パズルと、そこから派生した「現代数独」（従来のルールに加え、新しい形式やバリエーションを持つ数独）の問題で構成されています。ベンチマークには、4×4の簡単な盤面から9×9の最難関の現代数独まで幅広い難易度のパズルが収録されています。ベンチマークの作成にあたっては、様々な協力が得られています。株式会社ニコリより熟練のパズル作家による手作りの数独パズルが100問提供されました。手作りパズルは多様な思考ステップを要する「面白さ」と、豊かな発想力が求められる問題で構成されているのが特徴です。さらに、登録者数60万人以上を誇る最大級のYouTubeパズル解説チャンネル「Cracking The Cryptic」とも提携しています。同チャンネルの数千時間にも及ぶ世界チャンピオンシップレベルの解説動画から、AIが人間の高度な推論を学ぶための貴重な教材となる書き起こしと、解答中の操作データが取得されました。

最先端AIも苦戦！「数独」の壁

そして今回、最先端のAIモデルたちがこのSudoku-Benchに挑戦しました。その結果はどうだったのでしょう？なんと、有力なリーズニングモデルでさえ、全問題セットに対する正答率はわずか15％に留まりました。特に難易度の高い9×9マスの現代数独では、高性能なモデルである「o3 mini high」でも正答率が2.9％という、非常に低い結果だったのです。この結果は、今のAIがまだ人間の創造的な推論能力に遠く及ばないことをはっきりと示しています。

AIに足りない「ブレイクインポイント」の発見

なぜAIは数独が苦手なのでしょうか？ AIは新しい独自のルールを理解する能力は示すものの、解答に至る最終段階でつまずく傾向があります。多くのステップを経て局所的に整合性の取れた数字を配置し、完成に近い解答を生成できても、最終局面で誤りを犯すケースが少なくありません。一方、人間は特定のメソッドを用いた探索的な推論（リーズニング）を行います。安易な仮定を避け、問題ごとの条件を徹底的に分析することで、「ブレイクインポイント」と呼ばれる解決の糸口となる重要な着想を見つけ出します。このブレイクインポイントは、パズル作家が意図的に設定することも多く、発見できれば一気に解答への道が開けるように設計されています。このような創造的な推論は、一度「ブレイクインポイント」を発見すれば理解しやすく、ひらめきの喜びも伴います。この発見こそがリーズニングの核心であり、現在の最先端AIモデルに欠けている能力です。

Sudoku-BenchがAIの未来に貢献すること

Sudoku-Benchは今後、AIの発展にどのように貢献していくのでしょうか。

AIの課題を明確に示す: Sudoku-Benchは、現在のAIが持つ「創造的な推論能力」における限界、特にブレイクインポイントを発見できないという弱点を明確に示しました。これは、AI研究者がこれから取り組むべき具体的な課題を浮き彫りにしたと言えます。
創造的な戦略獲得を促進する: Sudoku-Benchに収録された、ブレイクインポイントを含む挑戦的なパズルは、AIモデルのより深く、創造的なリーズニング戦略の獲得を促進することが期待されています。
学習のための理想的なデータ: 世界トップクラスの解説動画「Cracking The Cryptic」から得られた、人間の専門家がパズルを解く思考プロセスや具体的な操作のデータは、AIが人間の高度な推論を学ぶための貴重な教材となります。これらのデータはSudoku-Benchと併せて公開されており、AIのリーズニングモデル訓練に理想的だと考えられています。
AI能力向上の足がかり: NVIDIAのCEOであるジェンスン・ファン氏も、「AIのリーズニング能力を高める上で、数独のようなパズルが役立つだろう」とコメントしており、Sudoku-BenchがAIのリーズニング能力を新たな段階へと引き上げる「足がかり」となることが期待されています。

つまり、Sudoku-Benchは単なるパズルのベンチマークではなく、現在のAIの限界を示しつつ、人間のような「ひらめき」や「創造性」を伴う推論能力を獲得するための、挑戦状であり、同時に重要な学習リソースでもあるのです。 AIが数独のブレイクインポイントを見つけられるようになった時、それはAIが人間のような創造的な思考にまた一歩近づいたサインかもしれませんね。今後のAIの進化から目が離せません。

気になる方はSakana AIの公式サイトもチェックしてみてください！

Sakana AIブログ：AIの創造的な推論力を測る：Sudoku-Benchリーダーボード公開