English | 日本語
ClawArena は、AIコーディングエージェントのためのベンチマーク評価プラットフォームです。推論の実行、結果のスコアリング、異なるエージェントフレームワーク間のパフォーマンス比較を、同一のリアルなマルチセッションシナリオ上で行うための統一パイプラインを提供します。
- 8ドメインにまたがる64シナリオ — Tech/HR、病院、NGO、臨床、コンテンツクリエイター、金融、人事、キャンパス
- 1,879の評価ラウンド — 多肢選択式の推論と実行ベースのチェックを組み合わせて実施
- マルチセッションコンテキスト — エージェントはワークスペースファイル、複数チャネルにまたがるチャット履歴、評価中に届く動的な更新を横断的に推論する必要があります
- フレームワーク非依存 — アダプターを介して任意のエージェントを接続可能。5つのフレームワークを標準でサポート
- MetaClaw 連携 — メモリ、スキル、強化学習で強化されたエージェントを評価
bash scripts/setup.shClawArena および対応する全フレームワークCLI(Claude Code、PicoClaw、Nanobot)を一括でインストールします。手動セットアップや MetaClaw のインストールについてはインストールガイドを参照してください。
まず scripts/env_example.sh を参照して環境変数を設定し、以下を実行します:
python scripts/test_run.pyscripts/test_run.py を編集して、フレームワーク、並列数、タイムアウト、出力パスを設定できます。
CLIを直接使用する場合
# データ整合性の検証
clawarena check --data data/clawarena/tests.json
# 単一フレームワークの推論を実行
clawarena infer --data data/clawarena/tests.json --framework openclaw --out results/
# 結果のスコアリング
clawarena score --infer-dir results/
# レポートの生成
clawarena report --score-dir results/ --out report/
# フルパイプライン(推論 + スコアリング + レポート + 比較)
clawarena run --data data/clawarena/tests.json --frameworks openclaw,claude-code --out output/全コマンドとフラグについては CLI リファレンス を参照してください。
| フレームワーク | タイプ | 言語 | 備考 |
|---|---|---|---|
| OpenClaw | CLI エージェント | Node.js | — |
| MetaClaw | LLM プロキシ | Python | OpenClaw および Nanobot 内でのみサポート |
| Claude Code | CLI エージェント | Node.js | Claude Code Router によるアシスト |
| PicoClaw | CLI エージェント | Go | — |
| Nanobot | CLI エージェント | Python | — |
新しいフレームワークはプラグインシステムを通じて、コアコードを変更せずに追加できます。
各シナリオには以下が含まれます:
- ワークスペースファイル — エージェントが読み取り可能なドキュメント、スプレッドシート、コード
- セッション履歴 — マルチチャネルのチャットログ(IM、メール、Slack など)
- 評価問題 —
multi_choice(推論)とexec_check(実行検証) - 動的更新 — ラウンド間に注入される新しいセッションやファイル
2つの問題タイプ:
| タイプ | テスト対象 | 方法 |
|---|---|---|
multi_choice |
エージェントの推論力と理解力 | 応答から \bbox{A,B,...} を抽出し、正解に対する IoU/F1 を算出 |
exec_check |
エージェントの操作とファイル出力 | シェルコマンドを実行して終了コードと stdout を検証 |
完全なデータ構築仕様 — 6層シナリオ設計、合成ガイドライン、注意点ドキュメントを含む — を docs/data-spec/ でオープンソース公開しています。
フォーマット仕様の詳細はデータ構造を参照してください。
ClawArena は MetaClaw を透過プロキシレイヤーとしてサポートし、メモリ、スキル、強化学習で強化されたエージェントを評価できます。対応フレームワーク:OpenClaw および Nanobot。
tests.json に metaclaw フィールドを追加します:
{
"metaclaw": {
"enabled": true,
"managed": true,
"config_path": "metaclaw/memory.yaml",
"memory_trigger": { "every_n_rounds": 6, "on_last_round": true }
}
}マネージド/アンマネージドモード、トリガー設定、YAML テンプレートについては MetaClaw ガイド を参照してください。
コアコードを変更せずに新しいフレームワークアダプターを追加できます:
clawarena infer --data tests.json --framework my_agent --out results/ --plugin my_agent.pyアダプターインターフェースとエンジンラウンドフックについてはプラグインガイドを参照してください。
| ドキュメント | 説明 |
|---|---|
| インストール | ClawArena、フレームワーク、MetaClaw のセットアップガイド |
| CLI リファレンス | 全コマンド、フラグ、環境変数 |
| データ構造 | データセットフォーマット、問題タイプ、マニフェストスキーマ |
| プロバイダーガイド | LLM プロバイダー設定と優先チェーン |
| MetaClaw ガイド | MetaClaw 連携モードとトリガーフック |
| プラグインガイド | 外部フレームワークアダプターの作成と登録 |
ClawArena
├── src/clawarena/
│ ├── cli.py # CLI エントリーポイント
│ ├── core/ # パイプライン: infer, scoring, report, compare, check, run, clean, stats
│ ├── engines/ # エージェント実行エンジン(フレームワークごと)
│ ├── data_handlers/ # データ読み込み、検証、作業コピー管理(フレームワークごと)
│ ├── adapters/ # フレームワークアダプター構成 + レジストリ
│ ├── qtypes/ # 問題タイプ: multi_choice, exec_check
│ ├── metaclaw/ # MetaClaw プロキシライフサイクルとトリガーフック
│ └── plugins/ # 外部アダプター読み込み (--plugin)
├── data/clawarena/ # データセット: 64シナリオ、1879問題
├── docs/ # ドキュメント
│ └── data-spec/ # 6層データ構築仕様
├── scripts/ # セットアップ、テストランナー、比較ユーティリティ
├── helpers/ # フレームワーク固有のヘルパーフック
└── tests/ # テストスイート(229テスト)
pip install -e ".[dev]"
pytestClawArena は以下のオープンソースエージェントフレームワークを基盤とし、評価対象としています:
- OpenClaw — 主要な評価対象 CLI エージェント
- MetaClaw — メモリ、スキル、強化学習でエージェントを強化するメタ学習プロキシ
- Claude Code — Anthropic のエージェント型コーディングツール
- PicoClaw — 軽量な Go ベースの CLI エージェント
- Nanobot — Anthropic API をサポートする Python ネイティブ CLI エージェント
- Claude Code Router — Claude Code のリクエストを異なるモデルにルーティング
@article{ji2026clawarena,
title={ClawArena: A Multi-Framework Benchmark for Evaluating AI Coding Agents on Realistic Multi-Session Scenarios},
author={Ji, Haonian and Xiong, Kaiwen and Han, Siwei and Xia, Peng and Qiu, Shi and Zhou, Yiyang and Liu, Jiaqi and Li, Jinlong and Li, Bingzhou and Zheng, Zeyu and Xie, Cihang and Yao, Huaxiu},
journal={arXiv preprint arXiv:2604.04202},
year={2026}
}本プロジェクトは MIT ライセンス の下で公開されています。








