docs: add Profile-Based Module Assembly pattern (Section 3.5)

- Section 3.5 "Team Configuration at Scale" in ultimate-guide.md:
  profiles YAML + shared modules + skeleton + assembler script;
  59% context token reduction measured on 5-dev production team;
  includes CI drift detection, 5-step replication guide, trade-offs
- New workflow: guide/workflows/team-ai-instructions.md (6 phases,
  scaling thresholds, troubleshooting table)
- New templates: examples/team-config/ (profile-template.yaml,
  claude-skeleton.md, sync-script.ts)
- reference.yaml: 9 new entries for team_ai_instructions_*
- README: templates count 161 → 164, date Feb 19 → Feb 20
- CHANGELOG [Unreleased]: resource evaluations (AGENTS.md ETH Zürich
  4/5, Sylvain Chabaud 3/5), spec-first Task Granularity section,
  methodologies ATDD expansion

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
Florian BRUNIAUX 2026-02-20 15:04:29 +01:00
parent 146d15e958
commit 6d847d24de
14 changed files with 1528 additions and 14 deletions

View file

@ -0,0 +1,147 @@
# Resource Evaluation: Allan Hill - "The Real Secret to Agentic Development is Small PRDs and Vertical Slices"
**Source**: https://www.linkedin.com/pulse/real-secret-agentic-development-small-prds-vertical-slices-allan-hill-puihc/
**LinkedIn post**: https://www.linkedin.com/posts/allanhillgeek_ai-is-the-easy-part-decomposition-is-the-activity-7430210715606556672-HHa6/
**Author**: Allan Hill (@allanhillgeek), Fractional CTO
**Type**: LinkedIn Pulse article (opinion + architecture walkthrough)
**Published**: ~Early 2026 (exact date not shown)
**Evaluation Date**: 2026-02-19
**Evaluator**: Claude Sonnet 4.6
**Challenger**: general-purpose agent (ac79d16)
**Score**: **3/5** (Pertinent — intégration ciblée, pas fichier dédié)
---
## 📄 Summary
Allan Hill describes a production agentic development pipeline built around the thesis that decomposition discipline matters more than AI sophistication:
- **Core thesis**: "AI is the easy part. Decomposition is the hard part." — The bottleneck in agentic development is breaking work into AI-digestible units before handing to agents, not prompt optimization
- **Key unit of work**: Vertical Slice — thin, end-to-end feature through all stack layers for one complete user behavior (e.g. "password reset via email"); ideal for agents because clear boundaries → reviewable PR
- **3-phase pipeline**: Phase 0 (PM agents produce Small PRDs with 6-dimension quality review) → Phase 1 (Orchestrator decomposes PRD into ordered independent slices, human Slack approval required) → Phase 2 (per-slice: Gherkin scenarios → ATDD → implementation → PR)
- **Infrastructure**: Multipass VMs (1 per ticket), Node.js dispatcher polling GitHub API every 60s, deterministic CI (ESLint/Playwright/SonarQube) + AI CI (5 parallel review agents via GitHub Actions)
- **Open challenges acknowledged**: resume state fragility, Boy Scout Rule vs PR scope balance, review agent false positive tuning
---
## 🎯 Score: 3/5 — Pertinent, intégration ciblée
### Justification
**Arguments for 3 (not 4):**
- Pipeline too tightly coupled to specific stack (Multipass/GCP/Jira/Slack) → ~80% must be rewritten for generic use; low reuse
- No production metrics: no cycle time data, defect rates, throughput — it's architectural storytelling, not validated case study
- Core concepts (vertical slices, decomposition-first) originate in Agile literature (Dan North BDD 2003, David Hussman) — this is Agile applied to AI agents, not novel theory
- Open challenges are unresolved (resume state fragility, false positive tuning) — documenting unstable practices as reference is risky
- Claude Code is not explicitly mentioned; author uses "agents" generically — mapping to the guide is indirect
**Arguments against 5 (confirmed gaps are real but not critical):**
- Gap "task decomposition" is legitimate but partially addressable by existing `spec-first.md`
- The 6-dimension PRD review checklist is extractable and generic — the single most actionable content in the article
- ATDD is genuinely absent from the guide (only TDD covered)
---
## ⚖️ Gap Analysis vs. Claude Code Ultimate Guide
| Aspect | This resource | Guide (grep-verified) |
|--------|--------------|----------------------|
| Vertical slice as AI work unit | ✅ Core framework | ❌ Zero mentions |
| Small PRD with 6 quality dimensions | ✅ Actionable checklist | ❌ Absent |
| ATDD (Acceptance Test-Driven Dev) | ✅ Phase 2 core pattern | ❌ Only TDD covered |
| Task decomposition discipline | ✅ Main thesis | ❌ Not addressed |
| Human approval gates in pipeline | ✅ Slack approval at Phase 1 | ⚠️ Mentioned conceptually |
| AI review agents in CI/CD | ✅ 5 parallel agents pattern | ❌ Not documented |
| Orchestrator → slice decomposition | ✅ Explicit | ⚠️ Orchestration exists, not pipeline |
| VM per ticket isolation | ✅ Multipass pattern | ❌ Absent |
| Spec before code | ↔️ Related different scope | ✅ `spec-first.md` (CLAUDE.md spec) |
| Multi-agent orchestration | ↔️ Implicit | ✅ `workflows/agent-teams.md` |
---
## 📍 Recommendations
**Priority: Medium — integrate 2 specific patterns, not the full pipeline**
### Integration 1: `guide/workflows/spec-first.md` — Add "Task Granularity" section
Extract the 6-dimension PRD quality checklist as a generic pre-coding checklist:
```markdown
## PRD Quality Checklist (before handing to agents)
Before assigning work to an agent, verify the task definition covers:
1. **Problem Clarity** — Is the problem statement unambiguous?
2. **Testable Acceptance Criteria** — Can completion be verified automatically?
3. **Scope Boundaries** — What is explicitly OUT of scope?
4. **Observable Done Definition** — What does "done" look like to an end user?
5. **Requirements Clarity** — No ambiguous terms, no implementation details
6. **Terminology Consistency** — Same terms used throughout (not "user" and "account" interchangeably)
```
**Location**: After the "The Pattern" section in `spec-first.md` (~line 60)
**Effort**: Low (20-30 lines)
### Integration 2: `guide/methodologies.md` — Add ATDD section
ATDD is genuinely absent. Add a section explaining how ATDD extends TDD for agent workflows:
- Gherkin scenarios as the contract between PM intent and implementation
- Write Gherkin first → agent writes failing tests → implementation
**Location**: After TDD section in `guide/methodologies.md`
**Effort**: Medium (50-80 lines)
### What NOT to do
❌ Do NOT create `guide/workflows/agentic-pipeline.md` — pipeline is too stack-specific, author's challenges are unresolved, and it would document an unstable pattern as authoritative. Wait for a second independent source before creating a dedicated workflow guide.
---
## 🔥 Challenge Verdict
**Challenger (ac79d16) conclusions:**
- **Score 3/5 confirmed** — "storytelling architecturel, pas case study validé"
- **Most actionable content**: 6-dimension PRD checklist — treat as standalone checklist, not full pipeline
- **Best integration path**: Existing files (`spec-first.md` + `methodologies.md`), not new file
- **Key oversight in initial eval**: Article doesn't mention Claude Code specifically — the mapping is indirect
**Points raised not in initial analysis:**
- Human Slack approval gate is under-analyzed as human-in-the-loop pattern
- Stack dependency (Jira + GitHub + Slack + GCP) makes direct reuse impractical
- "Vertical slices" concept is Agile (2003) not AI-native — risk of documenting old concept as new insight
---
## ✅ Fact-Check
| Claim | Verified | Source |
|-------|----------|--------|
| Author = Allan Hill, Fractional CTO | ✅ | LinkedIn profile (browser extraction) |
| Article accessible without auth | ✅ | WebFetch succeeded on Pulse URL |
| 3-phase pipeline structure | ✅ | Direct article extraction |
| 6 PRD review dimensions (Problem Clarity, Testable Criteria, Scope Boundaries, Observable Done, Requirements Clarity, Terminology Consistency) | ✅ | Direct article extraction |
| ATDD approach (Gherkin → failing tests → implementation) | ✅ | Direct article extraction |
| 5 parallel AI review agents in CI | ✅ | Direct article extraction |
| Multipass VMs + Node.js dispatcher | ✅ | Direct article extraction |
| Open challenges: resume state fragility | ✅ | Author explicitly lists it |
| "Vertical slices" from Agile literature (Dan North 2003) | ✅ | Perplexity context — established pattern |
| Claude Code mentioned specifically | ❌ | Article uses generic "agents" — Claude Code NOT mentioned |
| Production metrics (cycle time, defect rates) | ❌ | Not present in article |
**No hallucinations.** Score downgraded from initial "inspiration-level 3/5" to confirmed "targeted-integration 3/5" based on full content.
---
## 🎯 Final Decision
- **Score**: **3/5** — Pertinent, intégration ciblée
- **Action**: Intégrer 2 éléments spécifiques dans fichiers existants (PRD checklist + ATDD)
- **Do NOT create**: New `agentic-pipeline.md` file
- **Confidence**: High (full article read, challenge performed, fact-checked)
- **Trigger for re-evaluation**: Second independent source documenting vertical slice pattern for Claude Code specifically → would justify 4/5 + dedicated workflow file
**Related evaluations:**
- `addy-osmani-good-spec.md` (4/5) — overlapping territory (spec quality, PRD structure)
- `spec-first.md` in guide — primary integration target
- `guide/methodologies.md` — secondary integration target (ATDD)

View file

@ -0,0 +1,130 @@
---
# Resource Evaluation: "Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?"
**Source**: https://arxiv.org/abs/2602.11988
**Authors**: Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev (ETH Zürich)
**Date**: February 13, 2026
**Type**: Peer-reviewed academic paper (arXiv cs.SE)
**Evaluated**: 2026-02-19
---
## 📄 Résumé du contenu
- **Question de recherche** : Les fichiers de contexte de type AGENTS.md améliorent-ils réellement les performances des coding agents ?
- **Résultat principal** : Les fichiers developer-written améliorent légèrement le taux de succès (+4%), mais LLM-generated les dégradent (-3%) — dans tous les cas, le coût d'inférence augmente de 20-23%
- **AGENTbench** : Nouveau benchmark introduit, 138 instances, 12 repositories avec des context files écrits par des développeurs (bug fixes + feature additions)
- **Mécanisme identifié** : Les agents suivent fidèlement toutes les instructions du context file, même celles non pertinentes à la tâche → surcharge cognitive, exploration plus large, chaînes de raisonnement plus longues
- **Recommandation centrale** : Inclure UNIQUEMENT les commandes build/test + tooling spécifique ; exclure style guides, descriptions d'architecture, et documentation générale
---
## 🎯 Score de pertinence
| Score | Signification |
|-------|---------------|
| 5 | Essentiel - Gap majeur dans le guide |
| **4** | **Très pertinent - Amélioration significative** |
| 3 | Pertinent - Complément utile |
| 2 | Marginal - Info secondaire |
| 1 | Hors scope - Non pertinent |
**Score: 4/5**
**Justification**: Le guide recommande déjà un CLAUDE.md concis (<200 lignes), mais sans validation empirique. Ce paper fournit exactement cette validation + une nuance critique absente : même un context file "optimal" ajoute 20-23% de coût sans ROI proportionnel. La tension entre "générer son CLAUDE.md avec Claude" et "-3% pour LLM-generated" est directement actionnable.
---
## ⚖️ Comparatif
| Aspect | Ce paper | Notre guide |
|--------|----------|-------------|
| CLAUDE.md concis recommandé | ✅ Validé empiriquement | ✅ Déjà présent (opinion) |
| Impact sur taux de succès agent | ✅ +4% (dev) / -3% (LLM) | ❌ Absent |
| Cost penalty des context files | ✅ +20-23% dans tous les cas | ❌ Absent |
| LLM-generated context file = risque | ✅ Prouvé empiriquement | ❌ Non mentionné |
| Recommandation: build/test commands only | ✅ Recommandation précise | ⚠️ Vague ("essentiel") |
| Distinction minimal vs comprehensive | ✅ Empiriquement justifiée | ⚠️ Présente mais non chiffrée |
---
## 📍 Recommandations d'intégration
**Trois points d'intégration, par priorité:**
### 1. Section "CLAUDE.md Best Practices" (guide/ultimate-guide.md, ligne ~13395)
**Priorité: Haute**
Ajouter un encadré "Research note" après la liste des best practices existantes :
```markdown
> **Research Note (Feb 2026)**: ETH Zürich a publié la première évaluation empirique des fichiers de contexte agent (AGENTS.md/CLAUDE.md). Résultats clés sur 138 benchmarks, 12 repos :
> - Developer-written : **+4% success rate** vs baseline (pas de context file)
> - LLM-generated : **-3% success rate** (agents suivent toutes les instructions, même hors-sujet)
> - Dans tous les cas : **+20-23% inference cost**
>
> **Implication** : Incluez UNIQUEMENT les commandes build/test et le tooling spécifique. Style guides et descriptions d'architecture → docs séparés.
> Source: [Gloaguen et al., 2026](https://arxiv.org/abs/2602.11988)
```
### 2. Section token cost / token efficiency (ligne ~13382)
**Priorité: Moyenne**
Ajouter dans la table Token Cost Estimation : "CLAUDE.md avec infos non-essentielles → +20-23% inference cost (Gloaguen et al., 2026)"
### 3. Toute section conseillant de générer CLAUDE.md avec Claude
**Priorité: Haute**
Ajouter une mise en garde :
```markdown
> ⚠️ **Attention**: Les context files générés par LLM réduisent les performances des agents (-3% vs baseline). Révisez et épurez tout CLAUDE.md généré automatiquement avant de le committer.
```
---
## 🔥 Challenge (agent de révision)
**Score ajusté**: 4/5 (confirmé)
**Points manqués dans l'évaluation initiale** :
- Le ROI net de +4% (developer-written) ne compense pas toujours le +20-23% cost — le guide ne documente pas ce trade-off nulle part
- Les agents testés n'incluent pas Claude Haiku (utilisé pour les sub-agents) ni Opus — limitation à mentionner lors de l'intégration
- La section SWE-bench Lite n'est pas mentionnée (comparison baseline avec AGENTbench)
**Tension identifiée** : Si le guide mentionne d'autres études valorisant les context files, ne pas mentionner celle-ci crée un biais de sélection. Priorité d'intégration confirmée.
**Risques de non-intégration** :
- Les conseils "lean CLAUDE.md" restent des opinions sans backing empirique
- Crédibilité du guide fragilisée face aux concurrents citant ce paper
- Les utilisateurs générant leur CLAUDE.md avec Claude (pratique répandue) ne sont pas alertés du risque -3%
---
## ✅ Fact-Check
| Affirmation | Vérifiée | Source |
|-------------|----------|--------|
| Auteurs : ETH Zürich | ✅ | arXiv abstract |
| Date de publication : 13 février 2026 | ✅ | arXiv metadata |
| +4% dev-written / -3% LLM-generated | ✅ | Perplexity search + arXiv HTML |
| +20-23% inference cost | ✅ | arXiv abstract ("over 20%") + HTML full text |
| AGENTbench : 138 instances, 12 repos | ✅ | Perplexity + arXiv HTML |
| Agents testés : Claude Code, Codex, Qwen Code | ⚠️ | Partiellement — noms de modèles exacts non vérifiables via Perplexity |
| Recommandation : build/test commands only | ✅ | arXiv HTML + blog d'analyse (jangwook.net) |
**Corrections** : Les noms de modèles spécifiques (ex. "GPT-5.2", "Qwen3-30b-coder") ont été évités — potentielle hallucination du fetcher PDF. Le paper confirme "4 coding agents" sans préciser les versions exactes dans les sources vérifiées.
---
## 🎯 Décision finale
- **Score final**: 4/5
- **Action**: Intégrer (3 points d'intégration prioritarisés)
- **Confiance**: Haute (données clés vérifiées via Perplexity + arXiv HTML)
**Next step**: Ajouter le "Research Note" callout dans `guide/ultimate-guide.md` ligne ~13395 et la mise en garde sur LLM-generated context files.
---
*Évaluation effectuée le 2026-02-19 | Méthode: WebFetch + Perplexity + grepai_search + agent challenge*

View file

@ -0,0 +1,144 @@
# Resource Evaluation: Spec-to-Code Factory
**Resource**: https://github.com/SylvainChabaud/spec-to-code-factory
**LinkedIn**: https://www.linkedin.com/posts/sylvain-chabaud-831415aa_ia-claudecode-ai-activity-7430257228928163840-jOxD
**Author**: Sylvain Chabaud (Ingénieur & formateur — WEB, Système embarqué)
**Published**: 2026-01 (repo ~4 weeks old at evaluation time)
**Evaluation Date**: 2026-02-19
**Evaluator**: Claude Code Ultimate Guide Team
**Score**: **3/5** (Pertinent — Mention ciblée)
---
## Summary
Pipeline multi-agents open-source entièrement construit sur Claude Code, qui transforme un `requirements.md` en projet livrable via 4 phases séquentielles et 6 gates de validation outillées.
**Points clés :**
- Méthodologie **BREAK → MODEL → ACT → DEBRIEF** avec 6 gates (Gate 0-5)
- Deux invariants absolus vérifiés automatiquement : "No Spec, No Code" et "No Task, No Commit"
- Chaîne de traçabilité complète : `COMMIT → TASK → US → EPIC → BRIEF`
- Budget token transparent par phase : ~900K total (BREAK 70K, MODEL 100K, PLAN 120K, BUILD 500K+, DEBRIEF 80K)
- Repo clonable : implémentation référence concrète (pas juste une documentation)
**Limites notables :**
- Jeune (22 commits, 8 stars) — pas encore validé en production à large échelle
- JavaScript uniquement (Clean Architecture React)
- Overhead massif (~900K tokens/projet) — adapté aux projets greenfield importants
---
## Scoring Breakdown
### 1. Relevance to Claude Code (5/5)
**Entièrement construit sur Claude Code** : Skills orchestrant les phases, hooks validant les invariants, agents spécialisés par rôle
**Patterns directs** : Utilise skills + hooks + agents exactement comme le guide les documente
**Implémentation référence** : Repo clonable illustrant les concepts du guide en situation réelle
### 2. Technical Accuracy (4/5)
**Phases vérifiées** : BREAK→MODEL→ACT→DEBRIEF confirmées dans le README
**Gates vérifiées** : Gate 0-5 via scripts Node.js (requirements, structure, secrets/PII, planning, code quality, release)
**Invariants réels** : Enforcement via tools/validate-commit-msg.js — pas juste des suggestions
⚠️ **Maturité limitée** : 4 semaines, architecture encore en évolution
### 3. Novelty/Uniqueness (3/5)
**Enforcement outillé** : Scripts Node.js qui *bloquent* si gates non passées — pattern non documenté dans le guide
**Budget token par phase** : Estimation concrète ~900K avec breakdown — unique dans l'écosystème
**Traceability chain** : TASK→US→EPIC→BRIEF pas explicitement couverte dans le guide
⚠️ **Redondance ~80%** : spec-first.md (830 lignes), methodologies.md (Spec Kit/OpenSpec), agent-teams.md couvrent déjà l'essentiel
### 4. Practicality (3/5)
**Clé en main** : Repo clonable, structure prête
⚠️ **Coût élevé** : ~900K tokens × $0.003 = ~$2.70/projet + maintenance hooks
⚠️ **JavaScript uniquement** : Clean Architecture React — pas polyglot
⚠️ **Complexité setup** : Git hooks + scripts Node.js à configurer
### 5. Source Credibility (3/5)
**Présenté en public** : Talk à l'IA CAFE CLUB (Paris), validé par communauté
⚠️ **Adoption limitée** : 8 stars, 2 forks, 2 contributeurs (auteur + Claude)
⚠️ **Pas encore versionné** : 0 releases officielles
---
## Comparative Analysis
| Aspect | Spec-to-Code Factory | Notre Guide |
|--------|---------------------|-------------|
| **Spec-first workflow** | ✅ BREAK phase | ✅ spec-first.md (830 lignes) |
| **SDD greenfield** | ✅ Implémentation complète | ✅ Spec Kit (methodologies.md:366) |
| **Multi-agent orchestration** | ✅ 6 agents spécialisés | ✅ agent-teams.md |
| **Enforcement via hooks** | ✅ Scripts Node.js bloquants | ⚠️ Patterns seulement |
| **Traceability chain** | ✅ TASK→US→EPIC→BRIEF | ❌ Manquant |
| **Token budget par phase** | ✅ Breakdown transparent | ❌ Manquant |
| **Implémentation référence** | ✅ Repo clonable | ❌ Templates seulement |
| **Brownfield support** | ✅ V2+ mode | ✅ OpenSpec (methodologies.md:375) |
---
## Challenge (technical-writer agent)
**Verdict du challenge** : Score initial 4/5 → ramené à 3/5 justifié
**Principaux arguments du challenge :**
- Redondance à ~80% avec guide existant sous-estimée initialement
- "900K tokens" est un overhead non négligeable, pas un argument de vente
- Repo trop jeune (4 semaines) pour recommandation forte
- Enforcement via Git hooks side-car = gouvernance externe, pas native Claude Code
**Risques de non-intégration** : Faibles. La ressource est utile pour les devs cherchant une implémentation clé-en-main, mais le guide couvre les concepts fondamentaux.
---
## Fact-Check
| Affirmation | Vérifiée | Source |
|-------------|----------|--------|
| BREAK → MODEL → ACT → DEBRIEF (4 phases) | ✅ | GitHub README (WebFetch) |
| 6 gates de validation (Gate 0-5) | ✅ | GitHub README |
| "No Spec, No Code" + "No Task, No Commit" | ✅ | GitHub README + LinkedIn post |
| ~900K tokens total estimé | ✅ | LinkedIn post (screenshot + tableau) |
| 8 stars / 22 commits | ✅ | GitHub (vérifié 2026-02-19) |
| JavaScript 100% | ✅ | GitHub (WebFetch) |
| Enforcement via Node.js scripts | ✅ | tools/validate-commit-msg.js mentionné dans README |
**Corrections apportées** : Aucune. "6 gates" (LinkedIn) correspond aux Gates 0-5 du README — cohérent numériquement.
---
## Decision
- **Score final** : **3/5** (Pertinent — Mention ciblée)
- **Action** : Mention dans `guide/methodologies.md` (tableau SDD Tools) + `guide/workflows/spec-first.md` (See Also)
- **Confiance** : Haute
**Intégration réalisée** :
1. `guide/methodologies.md` ligne ~365 : Ligne ajoutée dans le tableau SDD Tools
2. `guide/workflows/spec-first.md` section "See Also" : Lien + description ajoutés
**Révision recommandée** : Mai 2026 — vérifier adoption (stars, forks, issues), éventuellement upgrader à 4/5 si projet mature.
---
## Sources
**Primary**:
- [GitHub — spec-to-code-factory](https://github.com/SylvainChabaud/spec-to-code-factory)
- [LinkedIn post](https://www.linkedin.com/posts/sylvain-chabaud-831415aa_ia-claudecode-ai-activity-7430257228928163840-jOxD)
**Internal verification**:
- `guide/workflows/spec-first.md` (830 lignes — spec-first existant)
- `guide/methodologies.md` (SDD Tools section, ligne ~356)
- `guide/workflows/agent-teams.md`
**Challenge Agent** : technical-writer via Task tool (Explore subagent)
---
**Evaluation Methodology**: [docs/resource-evaluations/README.md](./README.md)
**Guide Version**: 3.27.8
**Integration Status**: ✅ Mention ciblée (2026-02-19)