logo
Search
AI

AIベンチマーク読み方ガイド|SWE-bench・GPQA・ARC-AGIの意味と活用法

#LLM #Benchmark
Feb 7th 2026 Feb 7th 2026
AIベンチマーク読み方ガイド|SWE-bench・GPQA・ARC-AGIの意味と活用法

AIベンチマーク読み方ガイド:スコアの意味と実践的な活用法

Claude Opus 4.6とGPT-5.3-Codexが同日リリースされた2026年2月、AIモデルの選択肢はかつてないほど増えています。「SWE-bench 80%」「ARC-AGI 68%」といった数字が飛び交いますが、それぞれ何を測っていて、自分のタスクにどう関係するのか。この記事では、主要ベンチマークの読み方と、コーディング業務への活かし方を解説します。


この記事の対象読者

  • AIコーディングツール(Claude Code、Cursor、GitHub Copilot等)を使っている開発者
  • モデル選定の判断材料としてベンチマークを読みたい人
  • 「ベンチマークのスコアが高い=自分の用途に最適」なのか疑問に思っている人

なぜベンチマークを理解すべきか

AIモデルの性能比較は「なんとなく新しいモデルが良い」では判断できなくなっています。

  • モデルごとに得意分野が異なる: コード実装に強いモデルと、設計・推論に強いモデルは別
  • コストとのトレードオフ: 最高性能モデルが常に最適ではない。タスクに応じた使い分けが合理的
  • ベンチマークにも限界がある: スコアの高さが実務性能を保証するわけではない

ベンチマークを「鵜呑みにする」のではなく「読み方を理解して判断材料にする」のが目的です。


ベンチマーク5カテゴリの全体像

主要なAIベンチマークは、大きく5つのカテゴリに分類できます。

カテゴリ 測定対象 代表的なベンチマーク
コーディング コード生成・修正能力 SWE-bench, Terminal-Bench, Aider
推論 論理的思考・分析能力 GPQA Diamond, ARC-AGI, MATH
知識・指示追従 広い知識と指示遵守 MMLU, IFEval
長文脈 長い入力の処理能力 RULER, NIAH, MRCR
エージェント 環境操作・タスク遂行 TAU-bench, WebArena, OSWorld

以下、開発者にとって特に重要なベンチマークを解説します。


コーディング系ベンチマーク

SWE-bench:最も信頼できるコーディング指標

何を測るか: 実際のGitHubリポジトリのissueを読み、修正パッチを自動生成する能力。

実在するOSSプロジェクトのissueとPull Requestのペアを使い、モデルにissueの説明だけを渡してコードの修正を生成させます。生成されたパッチがテストスイートを通過すれば「解決」と判定されます。

バリエーション:

  • Verified(500問): 人間が検証した信頼性の高いサブセット
  • Full(2,294問): 全問セット。ノイズが多い
  • Pro: Scale AIが管理する、より厳密な評価

読み方のポイント: SWE-bench Verifiedのスコアが高いモデルは、実務でのバグ修正・機能追加に強い傾向があります。ただし、テスト通過のみで判定されるため、コードの品質(可読性・保守性)は評価されません。

Terminal-Bench 2.0:エージェント的コーディング能力

何を測るか: サンドボックス化されたターミナル環境で、89種類の実務的タスク(モデルトレーニング、システム管理、データ処理等)を遂行する能力。

SWE-benchが「コード修正」に特化しているのに対し、Terminal-Benchは「ターミナルを操作して問題を解決する」総合力を測ります。AIコーディングエージェント(Claude Code、Codex CLI等)の実力を反映しやすい指標です。

Aider Polyglot:多言語コード編集

何を測るか: C++、Go、Java、JavaScript、Python、Rustの6言語でコードを編集する能力。

1回目の失敗時にテスト結果をフィードバックして2回目を試行する設計で、実際のコーディングアシスタントの使い方に近い評価です。

HumanEval / MBPP:飽和した初期指標

Python関数の生成(HumanEval: 164問)と基本的なPython問題(MBPP: 974問)を測定しますが、現在のフロンティアモデルはいずれも95%以上に達しており、差別化指標としての価値は低下しています。


推論系ベンチマーク

GPQA Diamond:大学院レベルの推論力

何を測るか: 物理・化学・生物の大学院レベル問題で、Google検索しても答えが見つからないような難問への回答能力。専門家でも正解率65%程度の難易度です。

設計やアーキテクチャの判断には深い推論力が求められます。GPQAのスコアが高いモデルは、技術的なトレードオフ分析や複雑なシステム設計に強い傾向があります。

ARC-AGI 2:抽象推論の指標

何を測るか: 視覚的なグリッドパターンの変換規則を推論する問題。学習データにない新規パターンへの汎化能力を測定します。

「AGIに最も近いベンチマーク」とも呼ばれ、データ汚染が困難な設計です。パターン認識と抽象的な推論が必要なため、設計力・問題構造の把握力の代理指標として有用です。


知識・長文脈系ベンチマーク

MMLU / IFEval:知識と指示追従

  • MMLU: 57科目の多肢選択問題。フロンティアモデルは90%+で飽和傾向
  • IFEval: 「JSONで出力せよ」「300語以内で」等の形式制約を守れるかを測定。エージェントとしての正確性に直結

RULER / MRCR:長文脈の実力

RULERは4K〜128K+トークンの段階的評価で、検索・追跡・集約・QAの4種タスクを含みます。

MRCR v2はOpus 4.6のリリースで注目された新指標で、1Mトークンの文脈中に埋め込まれた8つの「針」を同時に見つける能力を測ります。Opus 4.6は76%、Sonnet 4.5は18.5%と大差がつきました。


2026年2月 最新モデルスコア比較

公式発表とリーダーボードから収集した最新スコアです。

ベンチマーク Opus 4.6 Codex 5.3 Sonnet 4.5 GPT-5.2 Gemini 2.5 Pro
SWE-bench Verified 80.8% - 77.2% 80.0% 63.8%
Terminal-Bench 2.0 69.9% 75.1% 46.5% 64.9% 32.6%
GPQA Diamond 91.3% - 83.4% 93.2% 84.0%
ARC-AGI 2 68.8% - - 54.2% -
OSWorld-Verified - 64.7% 61.4% - -
MRCR v2 (1M) 76% - 18.5% - -

注意点:

  • Codex 5.3 はコーディング特化モデルのため、汎用ベンチマークのスコアは限定的
  • GPT-5.2 は「Pro」「Thinking」等のバリアントでスコアが異なる
  • - はデータ未公開または未測定

各モデルの強み

  • Claude Opus 4.6: 推論(ARC-AGI 68.8%)と長文脈(MRCR 76%)で圧倒。設計・レビュー・大規模コードベース理解向き
  • GPT-5.3-Codex: Terminal-Bench(75.1%)で最強。実装・デバッグ向き
  • Claude Sonnet 4.5: SWE-bench(77.2%)でコスパ良好。定型的なコーディングタスク向き
  • GPT-5.2: GPQA Diamond(93.2%)で知識・推論が最強。分析・ドキュメント向き
  • Gemini 2.5 Pro: 長文脈処理が得意。コードベース全体の分析向き

実践:タスク別のベンチマーク活用法

開発業務のタスクごとに、どのベンチマークを参考にすべきかの対応表です。

タスク 参考ベンチマーク 理由
コード実装 SWE-bench, Terminal-Bench コード生成・修正能力を直接測定
デバッグ Terminal-Bench, SWE-bench ターミナル操作でのバグ特定・修正
コードレビュー GPQA Diamond 深い推論でコード品質を判断
テスト作成 SWE-bench テスト通過が評価基準のため相関あり
設計・アーキテクチャ ARC-AGI, GPQA Diamond 抽象推論とトレードオフ分析
ドキュメント作成 MMLU, IFEval 広い知識 + 指示形式の遵守
リファクタリング Aider Polyglot 多言語対応のコード構造改善
大規模コードベース理解 RULER, MRCR 長文脈の情報統合

使い分けの例

AIコーディングエージェントでモデルを使い分ける場合:

タスクの性質を判断
├── 実装・修正・デバッグ → Codex系(Terminal-Bench最強)
├── 設計・計画・推論   → Opus系(ARC-AGI・GPQA最強)
├── レビュー・分析     → Opus系(深い推論が必要)
├── 大規模コードベース → Opus系(1M tokens + 長文脈性能)
├── 軽量タスク・大量処理 → Sonnet / Haiku(コスパ重視)
└── 最新情報リサーチ   → Gemini系(Google検索統合)

このハイブリッド戦略は、RedditのClaude Codeコミュニティでも「Opus=設計、Codex=実装」として実践されているアプローチです。


ベンチマークの限界:スコアを鵜呑みにしない

1. データ汚染

学習データにベンチマーク問題が含まれている可能性があります。HumanEvalやMBPPは特にリスクが高い一方、LiveCodeBench(継続更新)やARC-AGI(新規パターン生成)は汚染に強い設計です。

2. 飽和した指標

HumanEval(95%+)、GSM8K(95%+)、MMLU(90%+)はフロンティアモデル間で差がつきません。これらのスコアだけで判断するのは危険です。

3. 実務とのギャップ

ベンチマークは「短いプロンプト・明確な正解・自動判定」の世界です。実務は「曖昧な要件・大規模コードベース・非機能要件」の世界。スコア上位のモデルが実務で苦戦するケースは頻繁に報告されています。

4. 評価条件の差異

同じベンチマークでも、エージェントフレームワーク、プロンプト戦略、リトライ回数で結果が大きく変わります。公式発表値とリーダーボード値が異なることもあります(例: Opus 4.6のTerminal-Bench 65.4% vs 69.9%)。


まとめ

AIベンチマークは「モデルの能力の断面」を測る道具です。読み方のポイントをまとめます。

  1. 単一指標で判断しない: コーディング能力はSWE-bench、推論力はGPQA、長文脈はRULER。複数指標を組み合わせる
  2. タスクに合った指標を見る: 実装ならTerminal-Bench、設計ならARC-AGI。目的と指標のマッピングを意識する
  3. 飽和した指標に注意: HumanEval、GSM8K、MMLUはフロンティアモデルで差がつかない
  4. コストも判断軸に入れる: 最高性能モデルが常に最適ではない。タスクの重要度に応じて使い分ける
  5. 実務テストを忘れない: ベンチマークはあくまで参考値。自分の業務で試して判断する

AIモデルの進化は速く、今日のスコアは半年後に陳腐化します。ベンチマークの「読み方」を身につけておけば、新モデルが出るたびに適切な判断ができるようになります。


参考リンク

Comments