Skip to content

Latest commit

 

History

History
287 lines (203 loc) · 12.2 KB

File metadata and controls

287 lines (203 loc) · 12.2 KB

English | 日本語

ClawArena

進化する情報環境におけるAIエージェントのベンチマーク評価


ClawArena 概要

License MIT Python ≥3.10 64 Scenarios 1879 Questions

概要リーダーボードクイックスタート対応フレームワークデータと評価ケーススタディMetaClaw 連携ドキュメント引用ライセンス


🔭 概要

ClawArena は、AIコーディングエージェントのためのベンチマーク評価プラットフォームです。推論の実行、結果のスコアリング、異なるエージェントフレームワーク間のパフォーマンス比較を、同一のリアルなマルチセッションシナリオ上で行うための統一パイプラインを提供します。

  • 8ドメインにまたがる64シナリオ — Tech/HR、病院、NGO、臨床、コンテンツクリエイター、金融、人事、キャンパス
  • 1,879の評価ラウンド — 多肢選択式の推論と実行ベースのチェックを組み合わせて実施
  • マルチセッションコンテキスト — エージェントはワークスペースファイル、複数チャネルにまたがるチャット履歴、評価中に届く動的な更新を横断的に推論する必要があります
  • フレームワーク非依存 — アダプターを介して任意のエージェントを接続可能。5つのフレームワークを標準でサポート
  • MetaClaw 連携 — メモリ、スキル、強化学習で強化されたエージェントを評価
ClawArena データセット

📈 リーダーボード

ClawArena リーダーボード

🚀 クイックスタート

1. インストール

bash scripts/setup.sh

ClawArena および対応する全フレームワークCLI(Claude Code、PicoClaw、Nanobot)を一括でインストールします。手動セットアップや MetaClaw のインストールについてはインストールガイドを参照してください。

2. ベンチマークの実行

まず scripts/env_example.sh を参照して環境変数を設定し、以下を実行します:

python scripts/test_run.py

scripts/test_run.py を編集して、フレームワーク、並列数、タイムアウト、出力パスを設定できます。

CLIを直接使用する場合
# データ整合性の検証
clawarena check --data data/clawarena/tests.json

# 単一フレームワークの推論を実行
clawarena infer --data data/clawarena/tests.json --framework openclaw --out results/

# 結果のスコアリング
clawarena score --infer-dir results/

# レポートの生成
clawarena report --score-dir results/ --out report/

# フルパイプライン(推論 + スコアリング + レポート + 比較)
clawarena run --data data/clawarena/tests.json --frameworks openclaw,claude-code --out output/

全コマンドとフラグについては CLI リファレンス を参照してください。


🤖 対応フレームワーク

フレームワーク タイプ 言語 備考
OpenClaw CLI エージェント Node.js
MetaClaw LLM プロキシ Python OpenClaw および Nanobot 内でのみサポート
Claude Code CLI エージェント Node.js Claude Code Router によるアシスト
PicoClaw CLI エージェント Go
Nanobot CLI エージェント Python

新しいフレームワークはプラグインシステムを通じて、コアコードを変更せずに追加できます。


📊 データと評価

各シナリオには以下が含まれます:

  • ワークスペースファイル — エージェントが読み取り可能なドキュメント、スプレッドシート、コード
  • セッション履歴 — マルチチャネルのチャットログ(IM、メール、Slack など)
  • 評価問題multi_choice(推論)と exec_check(実行検証)
  • 動的更新 — ラウンド間に注入される新しいセッションやファイル

2つの問題タイプ:

タイプ テスト対象 方法
multi_choice エージェントの推論力と理解力 応答から \bbox{A,B,...} を抽出し、正解に対する IoU/F1 を算出
exec_check エージェントの操作とファイル出力 シェルコマンドを実行して終了コードと stdout を検証
データ構築パイプライン(クリックで展開)
ClawArena 構築パイプライン

全64シナリオの構築に使用された6層仕様システムの詳細は Data Spec を参照してください。

完全なデータ構築仕様 — 6層シナリオ設計、合成ガイドライン、注意点ドキュメントを含む — を docs/data-spec/ でオープンソース公開しています。

フォーマット仕様の詳細はデータ構造を参照してください。


🔍 ケーススタディ

ケース 1-2: マルチソース矛盾推論と動的信念修正
ケース 1-2
ケース 3-4: 自己診断精度と暗黙的嗜好コンプライアンス監査
ケース 3-4
ケース 5-6: 実行検証済みバグ修正と統計手法の矛盾
ケース 5-6
ケース 7-8: 規範遡及バイアスと全次元統合
ケース 7-8

🦞 MetaClaw 連携

ClawArena は MetaClaw を透過プロキシレイヤーとしてサポートし、メモリ、スキル、強化学習で強化されたエージェントを評価できます。対応フレームワーク:OpenClaw および Nanobot

tests.jsonmetaclaw フィールドを追加します:

{
  "metaclaw": {
    "enabled": true,
    "managed": true,
    "config_path": "metaclaw/memory.yaml",
    "memory_trigger": { "every_n_rounds": 6, "on_last_round": true }
  }
}

マネージド/アンマネージドモード、トリガー設定、YAML テンプレートについては MetaClaw ガイド を参照してください。


🔌 プラグインシステム

コアコードを変更せずに新しいフレームワークアダプターを追加できます:

clawarena infer --data tests.json --framework my_agent --out results/ --plugin my_agent.py

アダプターインターフェースとエンジンラウンドフックについてはプラグインガイドを参照してください。


📖 ドキュメント

ドキュメント 説明
インストール ClawArena、フレームワーク、MetaClaw のセットアップガイド
CLI リファレンス 全コマンド、フラグ、環境変数
データ構造 データセットフォーマット、問題タイプ、マニフェストスキーマ
プロバイダーガイド LLM プロバイダー設定と優先チェーン
MetaClaw ガイド MetaClaw 連携モードとトリガーフック
プラグインガイド 外部フレームワークアダプターの作成と登録

🏗️ プロジェクト構成

ClawArena
├── src/clawarena/
│   ├── cli.py               # CLI エントリーポイント
│   ├── core/                # パイプライン: infer, scoring, report, compare, check, run, clean, stats
│   ├── engines/             # エージェント実行エンジン(フレームワークごと)
│   ├── data_handlers/       # データ読み込み、検証、作業コピー管理(フレームワークごと)
│   ├── adapters/            # フレームワークアダプター構成 + レジストリ
│   ├── qtypes/              # 問題タイプ: multi_choice, exec_check
│   ├── metaclaw/            # MetaClaw プロキシライフサイクルとトリガーフック
│   └── plugins/             # 外部アダプター読み込み (--plugin)
├── data/clawarena/          # データセット: 64シナリオ、1879問題
├── docs/                    # ドキュメント
│   └── data-spec/     # 6層データ構築仕様
├── scripts/                 # セットアップ、テストランナー、比較ユーティリティ
├── helpers/                 # フレームワーク固有のヘルパーフック
└── tests/                   # テストスイート(229テスト)

🛠️ 開発

pip install -e ".[dev]"
pytest

🙏 関連プロジェクト

ClawArena は以下のオープンソースエージェントフレームワークを基盤とし、評価対象としています:

  • OpenClaw — 主要な評価対象 CLI エージェント
  • MetaClaw — メモリ、スキル、強化学習でエージェントを強化するメタ学習プロキシ
  • Claude Code — Anthropic のエージェント型コーディングツール
  • PicoClaw — 軽量な Go ベースの CLI エージェント
  • Nanobot — Anthropic API をサポートする Python ネイティブ CLI エージェント
  • Claude Code Router — Claude Code のリクエストを異なるモデルにルーティング

📚 引用

@article{ji2026clawarena,
  title={ClawArena: A Multi-Framework Benchmark for Evaluating AI Coding Agents on Realistic Multi-Session Scenarios},
  author={Ji, Haonian and Xiong, Kaiwen and Han, Siwei and Xia, Peng and Qiu, Shi and Zhou, Yiyang and Liu, Jiaqi and Li, Jinlong and Li, Bingzhou and Zheng, Zeyu and Xie, Cihang and Yao, Huaxiu},
  journal={arXiv preprint arXiv:2604.04202},
  year={2026}
}

📄 ライセンス

本プロジェクトは MIT ライセンス の下で公開されています。