claude-code-ultimate-guide/docs/resource-evaluations/agents-md-empirical-study-2602-11988.md
Florian BRUNIAUX 97f9167a61 docs: add Kairn memory MCP + resource evaluations + guide updates
- guide/ultimate-guide.md §10.2: Add Kairn (knowledge graph memory with biological decay)
  - Typed relationships (depends-on, resolves, causes), 18 MCP tools
  - Updated comparison table: Serena / grepai / doobidoo / Kairn
  - Added decision routing for long-term memory + causality tracking
- guide/ultimate-guide.md §5.1: Add real-world CLAUDE.md migration example (Avo, 600-line → 15 path-scoped files)
- guide/ai-ecosystem.md: Minor update
- machine-readable/reference.yaml: Add Kairn entries
- examples/config/mcp.json: Add Kairn MCP config
- docs/resource-evaluations/: Add 2 new evaluations (context-evaluator-packmind, kairn-memory-mcp)
- docs/resource-evaluations/agents-md-empirical-study: Add community reception section
- docs/resource-evaluations/2026-02-23-agentsview: Minor fix

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-02-25 17:39:20 +01:00

142 lines
No EOL
7.1 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
# Resource Evaluation: "Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?"
**Source**: https://arxiv.org/abs/2602.11988
**Authors**: Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev (ETH Zürich)
**Date**: February 13, 2026
**Type**: Peer-reviewed academic paper (arXiv cs.SE)
**Evaluated**: 2026-02-19
---
## 📄 Résumé du contenu
- **Question de recherche** : Les fichiers de contexte de type AGENTS.md améliorent-ils réellement les performances des coding agents ?
- **Résultat principal** : Les fichiers developer-written améliorent légèrement le taux de succès (+4%), mais LLM-generated les dégradent (-3%) — dans tous les cas, le coût d'inférence augmente de 20-23%
- **AGENTbench** : Nouveau benchmark introduit, 138 instances, 12 repositories avec des context files écrits par des développeurs (bug fixes + feature additions)
- **Mécanisme identifié** : Les agents suivent fidèlement toutes les instructions du context file, même celles non pertinentes à la tâche → surcharge cognitive, exploration plus large, chaînes de raisonnement plus longues
- **Recommandation centrale** : Inclure UNIQUEMENT les commandes build/test + tooling spécifique ; exclure style guides, descriptions d'architecture, et documentation générale
---
## 🎯 Score de pertinence
| Score | Signification |
|-------|---------------|
| 5 | Essentiel - Gap majeur dans le guide |
| **4** | **Très pertinent - Amélioration significative** |
| 3 | Pertinent - Complément utile |
| 2 | Marginal - Info secondaire |
| 1 | Hors scope - Non pertinent |
**Score: 4/5**
**Justification**: Le guide recommande déjà un CLAUDE.md concis (<200 lignes), mais sans validation empirique. Ce paper fournit exactement cette validation + une nuance critique absente : même un context file "optimal" ajoute 20-23% de coût sans ROI proportionnel. La tension entre "générer son CLAUDE.md avec Claude" et "-3% pour LLM-generated" est directement actionnable.
---
## ⚖️ Comparatif
| Aspect | Ce paper | Notre guide |
|--------|----------|-------------|
| CLAUDE.md concis recommandé | Validé empiriquement | Déjà présent (opinion) |
| Impact sur taux de succès agent | +4% (dev) / -3% (LLM) | Absent |
| Cost penalty des context files | +20-23% dans tous les cas | Absent |
| LLM-generated context file = risque | Prouvé empiriquement | Non mentionné |
| Recommandation: build/test commands only | Recommandation précise | Vague ("essentiel") |
| Distinction minimal vs comprehensive | Empiriquement justifiée | Présente mais non chiffrée |
---
## 📍 Recommandations d'intégration
**Trois points d'intégration, par priorité:**
### 1. Section "CLAUDE.md Best Practices" (guide/ultimate-guide.md, ligne ~13395)
**Priorité: Haute**
Ajouter un encadré "Research note" après la liste des best practices existantes :
```markdown
> **Research Note (Feb 2026)**: ETH Zürich a publié la première évaluation empirique des fichiers de contexte agent (AGENTS.md/CLAUDE.md). Résultats clés sur 138 benchmarks, 12 repos :
> - Developer-written : **+4% success rate** vs baseline (pas de context file)
> - LLM-generated : **-3% success rate** (agents suivent toutes les instructions, même hors-sujet)
> - Dans tous les cas : **+20-23% inference cost**
>
> **Implication** : Incluez UNIQUEMENT les commandes build/test et le tooling spécifique. Style guides et descriptions d'architecture → docs séparés.
> Source: [Gloaguen et al., 2026](https://arxiv.org/abs/2602.11988)
```
### 2. Section token cost / token efficiency (ligne ~13382)
**Priorité: Moyenne**
Ajouter dans la table Token Cost Estimation : "CLAUDE.md avec infos non-essentielles +20-23% inference cost (Gloaguen et al., 2026)"
### 3. Toute section conseillant de générer CLAUDE.md avec Claude
**Priorité: Haute**
Ajouter une mise en garde :
```markdown
> ⚠️ **Attention**: Les context files générés par LLM réduisent les performances des agents (-3% vs baseline). Révisez et épurez tout CLAUDE.md généré automatiquement avant de le committer.
```
---
## 🔥 Challenge (agent de révision)
**Score ajusté**: 4/5 (confirmé)
**Points manqués dans l'évaluation initiale** :
- Le ROI net de +4% (developer-written) ne compense pas toujours le +20-23% cost le guide ne documente pas ce trade-off nulle part
- Les agents testés n'incluent pas Claude Haiku (utilisé pour les sub-agents) ni Opus limitation à mentionner lors de l'intégration
- La section SWE-bench Lite n'est pas mentionnée (comparison baseline avec AGENTbench)
**Tension identifiée** : Si le guide mentionne d'autres études valorisant les context files, ne pas mentionner celle-ci crée un biais de sélection. Priorité d'intégration confirmée.
**Risques de non-intégration** :
- Les conseils "lean CLAUDE.md" restent des opinions sans backing empirique
- Crédibilité du guide fragilisée face aux concurrents citant ce paper
- Les utilisateurs générant leur CLAUDE.md avec Claude (pratique répandue) ne sont pas alertés du risque -3%
---
## ✅ Fact-Check
| Affirmation | Vérifiée | Source |
|-------------|----------|--------|
| Auteurs : ETH Zürich | | arXiv abstract |
| Date de publication : 13 février 2026 | | arXiv metadata |
| +4% dev-written / -3% LLM-generated | | Perplexity search + arXiv HTML |
| +20-23% inference cost | | arXiv abstract ("over 20%") + HTML full text |
| AGENTbench : 138 instances, 12 repos | | Perplexity + arXiv HTML |
| Agents testés : Claude Code, Codex, Qwen Code | | Partiellement noms de modèles exacts non vérifiables via Perplexity |
| Recommandation : build/test commands only | | arXiv HTML + blog d'analyse (jangwook.net) |
**Corrections** : Les noms de modèles spécifiques (ex. "GPT-5.2", "Qwen3-30b-coder") ont été évités potentielle hallucination du fetcher PDF. Le paper confirme "4 coding agents" sans préciser les versions exactes dans les sources vérifiées.
---
## 🎯 Décision finale
- **Score final**: 4/5
- **Action**: Intégrer (3 points d'intégration prioritarisés)
- **Confiance**: Haute (données clés vérifiées via Perplexity + arXiv HTML)
**Next step**: Ajouter le "Research Note" callout dans `guide/ultimate-guide.md` ligne ~13395 et la mise en garde sur LLM-generated context files.
---
---
## 📣 Réception communautaire
La communauté a simplifié les résultats en "delete your CLAUDE.md" (cf. [Charly Wargnier, LinkedIn](https://www.linkedin.com/posts/charlywargnier_everyone-is-screaming-delete-your-claudemd-activity-7431988275193622528-pfBW)).
**Nuance importante à intégrer dans le guide** : la commande `/init` génère un context file LLM-generated c'est ce type de fichier qui dégrade les performances (-3%). Les fichiers écrits manuellement restent bénéfiques (+4%).
D'autres posts (ex: [Daniel Vikulov, LinkedIn](https://www.linkedin.com/)) paraphrasent fidèlement l'étude sans valeur ajoutée ne pas les citer comme sources indépendantes.
---
*Évaluation effectuée le 2026-02-19 | Méthode: WebFetch + Perplexity + grepai_search + agent challenge*