English | Francais | Espanol | Deutsch
Uebersicht | Rangliste | Schnellstart | Unterstuetzte Frameworks | Daten & Evaluation | Fallstudien | MetaClaw-Integration | Plugin-System | Dokumentation | Projektstruktur | Entwicklung | Verwandte Projekte | Zitation | Lizenz
ClawArena ist eine Benchmark-Evaluationsplattform fuer KI-Coding-Agenten. Sie bietet eine einheitliche Pipeline zum Ausfuehren von Inferenz, Bewerten von Ergebnissen und Vergleichen der Leistung verschiedener Agenten-Frameworks auf demselben Satz realistischer Multi-Session-Szenarien.
- 64 Szenarien in 8 Domaenen — Technik/HR, Krankenhaus, NGO, Klinik, Content Creator, Finanzen, HR, Campus
- 1.879 Evaluationsrunden mit einer Mischung aus Multiple-Choice-Reasoning und ausfuehrungsbasierten Pruefungen
- Multi-Session-Kontext — Agenten muessen ueber Workspace-Dateien, Chat-Verlaeufe ueber mehrere Kanaele und dynamische Updates nachdenken, die waehrend der Evaluation eintreffen
- Framework-agnostisch — beliebige Agenten ueber Adapter einbinden; 5 Frameworks werden nativ unterstuetzt
- MetaClaw-Integration — Evaluierung von Agenten, die mit Gedaechtnis, Faehigkeiten und Reinforcement Learning erweitert wurden
bash scripts/setup.shDies installiert ClawArena und alle unterstuetzten Framework-CLIs (Claude Code, PicoClaw, Nanobot) mit einem einzigen Befehl. Siehe Installationsanleitung fuer manuelle Installation und MetaClaw-Installation.
Konsultieren Sie zuerst scripts/env_example.sh zur Konfiguration der Umgebungsvariablen und fuehren Sie dann aus:
python scripts/test_run.pyBearbeiten Sie scripts/test_run.py um Frameworks, Parallelitaet, Timeout und Ausgabepfad zu konfigurieren.
Oder verwenden Sie das CLI direkt
# Datenintegritaet validieren
clawarena check --data data/clawarena/tests.json
# Inferenz fuer ein einzelnes Framework ausfuehren
clawarena infer --data data/clawarena/tests.json --framework openclaw --out results/
# Ergebnisse bewerten
clawarena score --infer-dir results/
# Bericht generieren
clawarena report --score-dir results/ --out report/
# Vollstaendige Pipeline (Inferenz + Bewertung + Bericht + Vergleich)
clawarena run --data data/clawarena/tests.json --frameworks openclaw,claude-code --out output/Siehe CLI-Referenz fuer alle Befehle und Optionen.
| Framework | Typ | Sprache | Hinweise |
|---|---|---|---|
| OpenClaw | CLI-Agent | Node.js | — |
| MetaClaw | LLM-Proxy | Python | Nur in OpenClaw und Nanobot unterstuetzt |
| Claude Code | CLI-Agent | Node.js | Unterstuetzt durch Claude Code Router |
| PicoClaw | CLI-Agent | Go | — |
| Nanobot | CLI-Agent | Python | — |
Neue Frameworks koennen ueber das Plugin-System hinzugefuegt werden, ohne den Kerncode zu aendern.
Jedes Szenario enthaelt:
- Workspace-Dateien — Dokumente, Tabellenkalkulationen, Code, den der Agent lesen kann
- Sitzungsverlaeufe — Mehrkanalige Chat-Protokolle (Instant Messaging, E-Mail, Slack usw.)
- Evaluationsfragen —
multi_choice(Reasoning) undexec_check(Ausfuehrungsverifikation) - Dynamische Aktualisierungen — neue Sitzungen und Dateien, die zwischen den Runden eingefuegt werden
Zwei Fragetypen:
| Typ | Testet | Wie |
|---|---|---|
multi_choice |
Reasoning und Verstaendnis des Agenten | Extraktion von \bbox{A,B,...} aus der Antwort, Berechnung von IoU/F1 gegen die Ground Truth |
exec_check |
Aktionen und Dateiausgabe des Agenten | Ausfuehrung von Shell-Befehlen zur Ueberpruefung von Exit-Code und stdout |
Datenkonstruktions-Pipeline (zum Erweitern klicken)
Siehe Data Spec fuer das vollstaendige Sechs-Schichten-Spezifikationssystem, das zur Konstruktion aller 64 Szenarien verwendet wurde.
Wir haben die vollstaendigen Datenkonstruktionsspezifikationen als Open Source veroeffentlicht — einschliesslich des Sechs-Schichten-Szenariodesigns, der Syntheserichtlinien und der Fehlerdokumentation — in docs/data-spec/.
Siehe Datenstruktur fuer die vollstaendige Formatspezifikation.
ClawArena unterstuetzt MetaClaw als transparente Proxy-Schicht zur Evaluierung von Agenten, die mit Gedaechtnis, Faehigkeiten und Reinforcement Learning erweitert wurden. Unterstuetzte Frameworks: OpenClaw und Nanobot.
Fuegen Sie ein metaclaw-Feld zu tests.json hinzu:
{
"metaclaw": {
"enabled": true,
"managed": true,
"config_path": "metaclaw/memory.yaml",
"memory_trigger": { "every_n_rounds": 6, "on_last_round": true }
}
}Siehe MetaClaw-Anleitung fuer verwaltete/nicht verwaltete Modi, Trigger-Konfiguration und YAML-Vorlagen.
Fuegen Sie neue Framework-Adapter hinzu, ohne den Kerncode zu aendern:
clawarena infer --data tests.json --framework my_agent --out results/ --plugin my_agent.pySiehe Plugin-Anleitung fuer die Adapter-Schnittstelle und Engine-Runden-Hooks.
| Dokument | Beschreibung |
|---|---|
| Installation | Installationsanleitung fuer ClawArena, Frameworks und MetaClaw |
| CLI-Referenz | Alle Befehle, Optionen und Umgebungsvariablen |
| Datenstruktur | Datensatzformat, Fragetypen, Manifest-Schema |
| Anbieter-Anleitung | LLM-Anbieter-Konfiguration und Prioritaetskette |
| MetaClaw-Anleitung | MetaClaw-Integrationsmodi und Trigger-Hooks |
| Plugin-Anleitung | Schreiben und Registrieren externer Framework-Adapter |
ClawArena
├── src/clawarena/
│ ├── cli.py # CLI-Einstiegspunkt
│ ├── core/ # Pipeline: Inferenz, Bewertung, Bericht, Vergleich, Pruefung, Ausfuehrung, Bereinigung, Statistiken
│ ├── engines/ # Agenten-Ausfuehrungsengines (pro Framework)
│ ├── data_handlers/ # Datenladen, Validierung, Arbeitskopieverwaltung (pro Framework)
│ ├── adapters/ # Framework-Adapter-Komposition und -Registrierung
│ ├── qtypes/ # Fragetypen: multi_choice, exec_check
│ ├── metaclaw/ # MetaClaw-Proxy-Lebenszyklus und Trigger-Hooks
│ └── plugins/ # Laden externer Adapter (--plugin)
├── data/clawarena/ # Datensatz: 64 Szenarien, 1879 Fragen
├── docs/ # Dokumentation
│ └── data-spec/ # Sechs-Schichten-Datenkonstruktionsspezifikation
├── scripts/ # Installation, Testrunner, Vergleichsdienstprogramme
├── helpers/ # Framework-spezifische Hilfs-Hooks
└── tests/ # Testsuite (229 Tests)
pip install -e ".[dev]"
pytestClawArena baut auf den folgenden Open-Source-Agenten-Frameworks auf und evaluiert diese:
- OpenClaw — der primaer evaluierte CLI-Agent.
- MetaClaw — Meta-Learning-Proxy, der Agenten mit Gedaechtnis, Faehigkeiten und Reinforcement Learning erweitert.
- Claude Code — Anthropics agentisches Coding-Tool.
- PicoClaw — leichtgewichtiger Go-basierter CLI-Agent.
- Nanobot — nativer Python-CLI-Agent mit Anthropic-API-Unterstuetzung.
- Claude Code Router — Weiterleitung von Claude-Code-Anfragen an verschiedene Modelle.
@article{ji2026clawarena,
title={ClawArena: A Multi-Framework Benchmark for Evaluating AI Coding Agents on Realistic Multi-Session Scenarios},
author={Ji, Haonian and Xiong, Kaiwen and Han, Siwei and Xia, Peng and Qiu, Shi and Zhou, Yiyang and Liu, Jiaqi and Li, Jinlong and Li, Bingzhou and Zheng, Zeyu and Xie, Cihang and Yao, Huaxiu},
journal={arXiv preprint arXiv:2604.04202},
year={2026}
}Dieses Projekt steht unter der MIT-Lizenz.






