LLMは企業の不正を見抜ける? 日本の金融版AI評価「EDINET-Bench」が公開!

皆さん、こんにちは!
最近話題の「大規模言語モデル(LLM)」が、私たちの様々な仕事や生活を変えていくかもしれないと言われていますね。そんな中で「AIが企業の決算書を読んで、不正会計を見抜いたり将来の業績を予測したりできるのか?」という疑問を持ったことはありませんか?
金融分析は非常に複雑で、高度な専門知識が必要とされる分野です。これまでもLLMを金融分野に応用しようという研究は進められてきましたが、既存のAI評価データセット(ベンチマーク)の多くは簡単な情報抽出や質問応答といったタスクに焦点を当てたものが中心でした。また、欧米や中国の市場を中心としたものが多く、日本独自の金融データに基づいた、より実践的なタスクでの評価は進んでいませんでした。
こうした背景を受け、Sakana AIは「EDINET-Bench」という新しい日本語金融ベンチマークを開発し、オープンソースとして公開しました。これは、日本の企業が提出する「有価証券報告書」という公開情報を活用して作られています。EDINET-Benchを使うことで、LLMが会計不正の検知や業績予測といった、より高度で専門的な金融タスクにどこまで対応できるのかを評価できます。

目次

EDINET-Benchってどんなもの? 挑戦的な3つのタスク

EDINET-Benchには、特に難易度の高い3つの金融タスクが含まれています。

  1. 会計不正検知: 上場企業には年一回の有価証券報告書提出が義務付けられており、監査も受けますが、残念ながら不正会計は発生しています。このタスクは、有価証券報告書の情報から、その企業が不正会計を行っているかどうかを予測する二者択一(バイナリ分類)のタスクです。不正の兆候は隠されていることが多く、見抜くのが難しいとされています。
  2. 業績予想: 現在の有価証券報告書の情報だけを見て、次の年度の「親会社株主に帰属する当期純利益」が増加するか、減少するかを予測する二者択一のタスクです。これはプロの金融アナリストにとっても難しいタスクとされて言われています。
  3. 業種予測: 有価証券報告書に含まれる財務情報などから、その企業がどの業種に属するかを予測するタスクです。EDINETが提供するTOPIX-33という33分類を、より分かりやすい16のカテゴリーに集約して使用しています。

これらのタスクのためのデータは、金融庁のEDINETというシステムから過去10年分の有価証券報告書(約41,000件)をダウンロードし、自動的にラベル付けして構築されています。特に会計不正検知では、訂正報告書の内容をLLMを使って分析し、不正に関連するかどうかを判断して不正事例を特定しています。EDINET-Benchの大きな特徴は、データセットの構築が自動化されているため、将来の新しい報告書を取り込んで継続的にベンチマークを更新・拡張できる点です。

最先端LLMでも苦戦! 見えてきた課題と可能性

Sakana AIは、このEDINET-Benchを使ってGPT-4oやClaude 3.5/3.7 Sonnetといった最先端のLLMの性能を評価しました。その結果、驚くべきことに会計不正検知や業績予想といった難しいタスクでは、最先端のLLMでも古典的な機械学習モデルである「ロジスティック回帰」と同程度の性能に留まることが分かりました。これはLLMがまだこれらの複雑な金融分析タスクにおいて実用レベルには達していないことを示唆しています。 特に、単に有価証券報告書の情報だけをLLMに与えるという今回の評価設定では、不正検知や業績予想のタスクは本質的に難しいという限界があることも指摘されています。実際の監査では、会計士は報告書だけでなく企業の内部情報など、より幅広い情報源を利用するからです。
一方で可能性も見えてきました。会計不正検知タスクでは、貸借対照表(BS)や損益計算書(PL)といった数値データだけでなく、有価証券報告書に含まれる「テキスト情報」(会社の事業内容の説明など)をLLMに入力として含めると、不正検知の性能が向上する傾向が見られました。これは、LLMがテキスト情報を有効活用できる可能性を示しています。ただし、テキスト情報に含まれる「監査人の名前」などを判断根拠にするなど、公平性の観点から検討が必要な挙動も観察されたとのことです。
業種予測タスクについては、LLMはランダムに予測するよりもはるかに高い精度を示し、入力情報が増えるほど性能が向上しました。これは、業種予測が他の2つと比べて比較的容易であり、財務諸表の特徴が業種によって異なることをLLMが捉えられているためと考えられます。
また、今回のベンチマークに使用された報告書がインターネット上で公開されているため、評価対象のLLMが訓練データとして既にその内容を学習してしまっている「汚染」の可能性も懸念されます。簡単な検証ではその明確な証拠は見られませんでしたが、EDINET-Benchの自動更新機能を使えば、将来の新しい報告書でベンチマークを常に最新に保つことで、この汚染の問題を軽減できると考えられています。

日本の金融AIの発展のために

EDINET-Benchの公開は日本の金融分野におけるLLMの研究開発を加速させる大きな一歩となります。今回の評価結果は現在のLLMが単一の有価証券報告書だけでは高度な金融タスクで十分な性能を発揮できていないことを示しましたが、情報の与え方や活用方法を工夫することで性能向上の可能性があることも示唆しています。
EDINET-Benchとその構築ツール「edinet2dataset」や評価用コードはすべて公開されており、誰でも自由に日本の金融データを用いたLLMの研究に取り組むことができます。 ただし、このベンチマークは研究目的のために作られたものであり、データには実際の企業の情報が含まれています。そのため、このデータを使って特定の企業の評判を傷つけるなどの悪用は絶対に避けるべきです。
今回の研究で得られた知見をもとに、Sakana AIは金融タスクに特化したLLMの開発など、日本の金融分野でのAI活用に向けた研究開発を進めていくとのことです。EDINET-Benchが今後の日本の金融AI分野の発展に貢献することが期待されます。

※本記事はSakanaAIの発表内容に基づき作成しており、一部の専門用語は一般的な理解を助けるために補足説明を加えています。

Sakana AI ブログ:「EDINET-Bench: 有価証券報告書を用いた日本語金融ベンチマークの公開

目次