ClawArena/docs/README_ja.md at main · aiming-lab/ClawArena

English | 日本語

進化する情報環境におけるAIエージェントのベンチマーク評価

概要 • リーダーボード • クイックスタート • 対応フレームワーク • データと評価 • ケーススタディ • MetaClaw 連携 • ドキュメント • 引用 • ライセンス

🔭 概要

ClawArena は、AIコーディングエージェントのためのベンチマーク評価プラットフォームです。推論の実行、結果のスコアリング、異なるエージェントフレームワーク間のパフォーマンス比較を、同一のリアルなマルチセッションシナリオ上で行うための統一パイプラインを提供します。

8ドメインにまたがる64シナリオ — Tech/HR、病院、NGO、臨床、コンテンツクリエイター、金融、人事、キャンパス
1,879の評価ラウンド — 多肢選択式の推論と実行ベースのチェックを組み合わせて実施
マルチセッションコンテキスト — エージェントはワークスペースファイル、複数チャネルにまたがるチャット履歴、評価中に届く動的な更新を横断的に推論する必要があります
フレームワーク非依存 — アダプターを介して任意のエージェントを接続可能。5つのフレームワークを標準でサポート
MetaClaw 連携 — メモリ、スキル、強化学習で強化されたエージェントを評価

📈 リーダーボード

🚀 クイックスタート

1. インストール

bash scripts/setup.sh

ClawArena および対応する全フレームワークCLI（Claude Code、PicoClaw、Nanobot）を一括でインストールします。手動セットアップや MetaClaw のインストールについてはインストールガイドを参照してください。

2. ベンチマークの実行

まず scripts/env_example.sh を参照して環境変数を設定し、以下を実行します：

python scripts/test_run.py

scripts/test_run.py を編集して、フレームワーク、並列数、タイムアウト、出力パスを設定できます。

CLIを直接使用する場合

# データ整合性の検証
clawarena check --data data/clawarena/tests.json

# 単一フレームワークの推論を実行
clawarena infer --data data/clawarena/tests.json --framework openclaw --out results/

# 結果のスコアリング
clawarena score --infer-dir results/

# レポートの生成
clawarena report --score-dir results/ --out report/

# フルパイプライン（推論 + スコアリング + レポート + 比較）
clawarena run --data data/clawarena/tests.json --frameworks openclaw,claude-code --out output/

全コマンドとフラグについては CLI リファレンスを参照してください。

🤖 対応フレームワーク

フレームワーク	タイプ	言語	備考
OpenClaw	CLI エージェント	Node.js	—
MetaClaw	LLM プロキシ	Python	OpenClaw および Nanobot 内でのみサポート
Claude Code	CLI エージェント	Node.js	Claude Code Router によるアシスト
PicoClaw	CLI エージェント	Go	—
Nanobot	CLI エージェント	Python	—

新しいフレームワークはプラグインシステムを通じて、コアコードを変更せずに追加できます。

📊 データと評価

各シナリオには以下が含まれます：

ワークスペースファイル — エージェントが読み取り可能なドキュメント、スプレッドシート、コード
セッション履歴 — マルチチャネルのチャットログ（IM、メール、Slack など）
評価問題 — multi_choice（推論）と exec_check（実行検証）
動的更新 — ラウンド間に注入される新しいセッションやファイル

2つの問題タイプ：

タイプ	テスト対象	方法
`multi_choice`	エージェントの推論力と理解力	応答から `\bbox{A,B,...}` を抽出し、正解に対する IoU/F1 を算出
`exec_check`	エージェントの操作とファイル出力	シェルコマンドを実行して終了コードと stdout を検証

データ構築パイプライン（クリックで展開）

全64シナリオの構築に使用された6層仕様システムの詳細は Data Spec を参照してください。

完全なデータ構築仕様 — 6層シナリオ設計、合成ガイドライン、注意点ドキュメントを含む — を docs/data-spec/ でオープンソース公開しています。

フォーマット仕様の詳細はデータ構造を参照してください。

🔍 ケーススタディ

ケース 1-2: マルチソース矛盾推論と動的信念修正

ケース 3-4: 自己診断精度と暗黙的嗜好コンプライアンス監査

ケース 5-6: 実行検証済みバグ修正と統計手法の矛盾

ケース 7-8: 規範遡及バイアスと全次元統合

🦞 MetaClaw 連携

ClawArena は MetaClaw を透過プロキシレイヤーとしてサポートし、メモリ、スキル、強化学習で強化されたエージェントを評価できます。対応フレームワーク：OpenClaw および Nanobot。

tests.json に metaclaw フィールドを追加します：

{
  "metaclaw": {
    "enabled": true,
    "managed": true,
    "config_path": "metaclaw/memory.yaml",
    "memory_trigger": { "every_n_rounds": 6, "on_last_round": true }
  }
}

マネージド/アンマネージドモード、トリガー設定、YAML テンプレートについては MetaClaw ガイドを参照してください。

🔌 プラグインシステム

コアコードを変更せずに新しいフレームワークアダプターを追加できます：

clawarena infer --data tests.json --framework my_agent --out results/ --plugin my_agent.py

アダプターインターフェースとエンジンラウンドフックについてはプラグインガイドを参照してください。

📖 ドキュメント

ドキュメント	説明
インストール	ClawArena、フレームワーク、MetaClaw のセットアップガイド
CLI リファレンス	全コマンド、フラグ、環境変数
データ構造	データセットフォーマット、問題タイプ、マニフェストスキーマ
プロバイダーガイド	LLM プロバイダー設定と優先チェーン
MetaClaw ガイド	MetaClaw 連携モードとトリガーフック
プラグインガイド	外部フレームワークアダプターの作成と登録

🏗️ プロジェクト構成

ClawArena
├── src/clawarena/
│   ├── cli.py               # CLI エントリーポイント
│   ├── core/                # パイプライン: infer, scoring, report, compare, check, run, clean, stats
│   ├── engines/             # エージェント実行エンジン（フレームワークごと）
│   ├── data_handlers/       # データ読み込み、検証、作業コピー管理（フレームワークごと）
│   ├── adapters/            # フレームワークアダプター構成 + レジストリ
│   ├── qtypes/              # 問題タイプ: multi_choice, exec_check
│   ├── metaclaw/            # MetaClaw プロキシライフサイクルとトリガーフック
│   └── plugins/             # 外部アダプター読み込み (--plugin)
├── data/clawarena/          # データセット: 64シナリオ、1879問題
├── docs/                    # ドキュメント
│   └── data-spec/     # 6層データ構築仕様
├── scripts/                 # セットアップ、テストランナー、比較ユーティリティ
├── helpers/                 # フレームワーク固有のヘルパーフック
└── tests/                   # テストスイート（229テスト）

🛠️ 開発

pip install -e ".[dev]"
pytest

🙏 関連プロジェクト

ClawArena は以下のオープンソースエージェントフレームワークを基盤とし、評価対象としています：

OpenClaw — 主要な評価対象 CLI エージェント
MetaClaw — メモリ、スキル、強化学習でエージェントを強化するメタ学習プロキシ
Claude Code — Anthropic のエージェント型コーディングツール
PicoClaw — 軽量な Go ベースの CLI エージェント
Nanobot — Anthropic API をサポートする Python ネイティブ CLI エージェント
Claude Code Router — Claude Code のリクエストを異なるモデルにルーティング

📚 引用

@article{ji2026clawarena,
  title={ClawArena: A Multi-Framework Benchmark for Evaluating AI Coding Agents on Realistic Multi-Session Scenarios},
  author={Ji, Haonian and Xiong, Kaiwen and Han, Siwei and Xia, Peng and Qiu, Shi and Zhou, Yiyang and Liu, Jiaqi and Li, Jinlong and Li, Bingzhou and Zheng, Zeyu and Xie, Cihang and Yao, Huaxiu},
  journal={arXiv preprint arXiv:2604.04202},
  year={2026}
}

📄 ライセンス

本プロジェクトは MIT ライセンスの下で公開されています。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

進化する情報環境におけるAIエージェントのベンチマーク評価

🔭 概要

📈 リーダーボード

🚀 クイックスタート

1. インストール

2. ベンチマークの実行

🤖 対応フレームワーク

📊 データと評価

🔍 ケーススタディ

🦞 MetaClaw 連携

🔌 プラグインシステム

📖 ドキュメント

🏗️ プロジェクト構成

🛠️ 開発

🙏 関連プロジェクト

📚 引用

📄 ライセンス

FilesExpand file tree

README_ja.md

Latest commit

History

README_ja.md

File metadata and controls

進化する情報環境におけるAIエージェントのベンチマーク評価

🔭 概要

📈 リーダーボード

🚀 クイックスタート

1. インストール

2. ベンチマークの実行

🤖 対応フレームワーク

📊 データと評価

🔍 ケーススタディ

🦞 MetaClaw 連携

🔌 プラグインシステム

📖 ドキュメント

🏗️ プロジェクト構成

🛠️ 開発

🙏 関連プロジェクト

📚 引用

📄 ライセンス