AIの次なるフロンティア:組合せ最適化に挑む「アルゴリズムエンジニアリング」と新ベンチマーク『ALE-Bench』

AIの進化は目覚ましいものがありますが、次にAIに何を期待すべきでしょうか?
今回は最新のAIが挑む「アルゴリズムエンジニアリング」という、より複雑で現実世界に直結する課題と、それを評価するための新しい取り組みについてご紹介します。

目次

AIが挑む、新たなフロンティア「アルゴリズムエンジニアリング」

私たちが日常的に利用している物流システム、工場での生産計画、電力供給の安定化など、社会の基盤を支える多くの仕組みの裏側には「組合せ最適化問題」という数学的な課題が存在します。これは、与えられた制約の中で最適な組合せを見つけ出す問題で、その性質は多岐にわたり、一つ一つに人間が多大な時間と労力を費やして最適なアルゴリズムを構築する必要があります。
これまでのAIの能力を測るベンチマークは、短時間で正解か不正解かを判断するタイプのプログラミング課題が主流でした。しかし、これらのベンチマークではAIの性能が人間のトップ層に迫り、飽和しつつあります。そこで注目されているのが、長期的な思考、継続的な試行錯誤、そして知見の蓄積を必要とする「アルゴリズムエンジニアリング」の領域です。これは、単にコードを生成するだけでなく、与えられた問題に対して最適なアルゴリズムを見つけ、繰り返し改良していく能力を問うものです。

新たなベンチマーク「ALE-Bench」とは?

このようなAIの高度な推論能力を客観的に評価するために、Sakana AIは、世界最大級のプログラミングコンテスト運営会社であるAtCoder株式会社(以下、AtCoder社)と共同で、新しいベンチマーク「ALE-Bench(ALgorithm Engineering Benchmark)」を開発しました。
ALE-Benchは、AtCoder社が過去に主催した「AtCoder Heuristic Contest (AHC)」の課題を基に構築されています。AHCの課題は、物流の最適化や工場生産計画など、現実社会の産業課題に直結する複雑な最適化問題が中心です。これらの問題は計算論的に難しく、厳密な最適解を求めることが不可能なため、参加者は数週間かけてプログラムを繰り返し改良し、より良い「近似解」のスコアを競い合います。ALE-Benchは、AIシステムが人間と同様にこれらのコンテストに参加する状況をシミュレートできるように設計されています。AIエージェントは、問題文を閲覧し、サンドボックス内でコードを実行してスコアのフィードバックを得たり、コードの挙動を可視化ツールで確認したりしながら、試行錯誤を繰り返すことができます。これにより、AIのアルゴリズムエンジニアリングにおける実用的な影響を定量化し、熟練した人間の専門家と比較することが可能になります。

アルゴリズムエンジニアリングに特化したAIエージェント「ALE-Agent」

Sakana AIは、ALE-Benchのような課題に特化したAIエージェント「ALE-Agent」も開発しました。このエージェントは、最先端のLLM(大規模言語モデル)であるGemini 2.5 Proを基盤としています。ALE-Agentの主な特徴は以下の2点です。

  • ドメイン知識の注入: 「焼きなまし法」や「ビームサーチ」といったアルゴリズムエンジニアリングで頻繁に用いられる標準的な手法やテクニックに関する専門知識を、LLMへのプロンプトとして明示的に与えています。
  • 多様性志向の探索: 複数の回答候補を同時に生成・改良する「ビームサーチ」に似た探索手法を取り入れ、局所的な最適解に早期に収束してしまうことを防ぎ、より多様で有望な解決策を探します。

ALE-Agentの驚くべき成果と見えてきた課題

ALE-Agentは、ALE-Benchでの評価において、他のLLMと比較して大幅に高い性能を発揮し、人間参加者の上位6.8%に相当する結果を達成しました。
さらに、AtCoder社の許可を得て、実際のコンテストに「fishylene」というアカウントでリアルタイム参加しました。その結果、AHC046では154位(上位16%)、AHC047ではなんと21位(上位2%)という好成績を収め、1000人以上の人間参加者の中で高い実力を示しました。
なぜAIはこのようなパフォーマンスを発揮できたのでしょうか?その一因は、人間とAIの「問題の解き方」の違いにあります。人間が限られた時間の中で十数回のコード修正を行うのに対し、AIは高速かつ並列に、数百から時には千を超える回答を生成し、試行錯誤を重ねることができます。また、AIは「焼きなまし法」など、AHCで頻繁に用いられる特定のアルゴリズムにおいて特に高い習熟度を示しました。
しかし、課題も残されています。ALE-Agentは数時間程度の短いコンテストや特定のアルゴリズムが有効な問題では強みを発揮する一方で、数週間におよぶ長期コンテストや特定のアルゴリズムに縛られない自由な発想が求められる問題では、苦戦する傾向が見られました。また、生成したプログラムの挙動を詳細に分析し、実験的な試行錯誤を通じてアルゴリズムを構築する能力は、まだ人間の熟練者には及ばない点も明らかになりました。

今後の展望

今回の研究は、AIがアルゴリズムエンジニアリングという複雑な領域において、すでに高いレベルに到達していることを示しています。特に物流やエネルギーのスケジュール最適化といった産業応用への貢献は、大きな期待が寄せられます。
今後の研究では、熟練した人間のテクニックやツールをさらにAIに取り入れたり、実行結果のフィードバックを強化して、より確実な改善を促したりする方向性が考えられます。また、AIエージェント自身が自らを改良していくような、より高度な技術開発も視野に入っています。
AtCoder社は、AIのアルゴリズム開発能力の現状を知るために今回の共同研究とAIエージェントのコンテスト参加を許可し、この結果を踏まえて今後のコンテストにおけるAI利用の新ルールを策定しました。これは、進化するAIと人間が共存し、共に学び、高め合っていくための重要な一歩となるでしょう。
AIが人間のトップレベルを凌駕し、新たなアルゴリズムの発見を自動化する未来は、私たちの社会に大きなパラダイムシフトをもたらす可能性を秘めています。今後のAIの進化にぜひご注目ください。

※本記事の内容は、Sakana AI社が2025年6月17日にブログ掲載した「実用的なアルゴリズムエンジニアリングの自動化へ:ALE-BenchおよびALE-Agentの開発」に基づいて構成・要約しています。

Sakana AI ブログ :「実用的なアルゴリズムエンジニアリングの自動化へ:ALE-BenchおよびALE-Agentの開発

目次