docs: external orchestration frameworks, pr-triage skill, GitHub Actions templates

Added:
- guide/third-party-tools.md: External Orchestration Frameworks section
  (Ruflo + Athena Flow) with architectural distinction from multi-instance tools
- examples/skills/pr-triage/: 3-phase PR backlog management skill
  (audit, deep review via parallel agents, validated comment posting)
- examples/github-actions/: claude-code-review.yml + .coderabbit.yaml +
  prompts/code-review.md — AI-powered PR review GitHub Actions workflow
- docs/resource-evaluations/073-athena-flow-workflow-runtime.md (2/5 Watch)
- docs/resource-evaluations/074-ruflo-multi-agent-orchestration.md (3/5 Pertinent)

Updated:
- examples/README.md + examples/github-actions/README.md: new templates indexed
- machine-readable/reference.yaml: new entries for github-actions + pr-triage

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
Florian BRUNIAUX 2026-03-05 09:47:16 +01:00
parent 18a6e0ce5c
commit 0bdb34b2a4
12 changed files with 1079 additions and 4 deletions

View file

@ -0,0 +1,134 @@
# Resource Evaluation #073 — Athena Flow: Hook-Based Workflow Runtime for Claude Code
**Source:** [athenaflow.in](https://athenaflow.in) / [github.com/lespaceman/athena-flow](https://github.com/lespaceman/athena-flow)
**Type:** Open source tool (MIT) — workflow runtime wrapping Claude Code via hooks
**Author:** Nadeem M (@lespaceman)
**Evaluated:** 2026-03-05
**Maturity at evaluation:** Published ~same day (LinkedIn post + GitHub, hours old)
---
## Résumé du contenu
- **Workflow runtime for Claude Code**: wraps it via hooks, routes events through a Unix Domain Socket (NDJSON) to a persistent Node.js runtime
- **Architecture**: Claude Code → hook-forwarder (stdin) → UDS → athena-flow runtime → TUI
- **TUI (terminal UI)**: real-time observability of tools, permissions, results, errors; SQLite session persistence; keyboard-driven with color themes
- **Plugin system**: supports commands, hooks, MCP servers, agents; isolation presets (strict/minimal/permissive)
- **First workflow**: autonomous E2E test builder — navigates app like a human, generates structured test cases, produces Playwright CI-ready TypeScript
- **Claimed**: self-healing selectors at 94% success rate (~3s repair time) — unverified, no benchmark in repo
- **Installation**: `npm install -g athena-flow-cli` (Node.js 20+)
- **Roadmap**: visual regression, API testing, Codex support (agent-agnostic positioning)
- **Comparable project discovered via Perplexity**: [Ruflo](https://github.com/ruvnet/ruflo) — multi-agent orchestration platform for Claude Code, a few weeks older and more mature
---
## Score de pertinence
| Score | Signification |
|-------|---------------|
| 5 | Essentiel — Gap majeur dans le guide |
| 4 | Tres pertinent — Amelioration significative |
| 3 | Pertinent — Complement utile |
| **2** | **Marginal — Watch: trop recent, claims non verifies** |
| 1 | Hors scope — Non pertinent |
**Score final: 2/5 (Watch)**
**Justification:** Le pattern "hook-based workflow runtime" est architecturalement distinct de MCP (qui ajoute des outils), des agents (qui delegent des taches), et des hooks basiques. C'est une categorie nouvelle dans l'ecosysteme Claude Code, pas encore documentee dans le guide. La valeur conceptuelle est reelle. Mais a l'evaluation, le projet a quelques heures d'existence: aucune traction mesurable, le claim "94% self-healing selectors" n'a aucune methodologie publiee dans le repo, et l'audit source npm est absent (risque supply chain non evalue). Score 2 maintenu jusqu'a verification de maturite minimale.
---
## Comparatif
| Aspect | Athena Flow | Notre guide |
|--------|-------------|-------------|
| Hook-based workflow runtime (IPC/UDS) | Nouveau pattern non couvert | Absent de third-party-tools.md |
| TUI observabilite Claude Code | Premiere mention de ce pattern | Absent |
| E2E test builder Playwright | Premier dans cette categorie | Playwright MCP couvert (ligne ~11367), pas de generation autonome |
| Plugin/workflow orchestration via hooks | Nouveau pattern | Plugins documentes, pas d'orchestrateur externe |
| Self-healing selectors | Claim 94% non verifie | N/A |
| Maturite / adoption | Heures d'existence | N/A |
| Audit securite (npm install -g) | Non effectue | Guide recommande audit avant install global |
---
## Recommandations
**Action: Watch — Ne pas integrer maintenant, revisiter dans 3-4 semaines**
Ce qui debloquerait une integration a 3/5:
1. **Source audit**: inspecter `athena-flow-cli` sur npm (meme methodologie que Straude: `npm pack`, lire le code compile, verifier l'architecture declaree)
2. **GitHub metrics**: stars, CI actif, issues ouvertes, derniere release stable
3. **94% claim**: soit retire de la doc, soit documente avec une methodologie reproductible
4. **Ruflo comparaison**: evaluer Ruflo (github.com/ruvnet/ruflo) en parallele — plus mature, meme categorie. L'entree du guide devrait couvrir la *categorie* (hook-based runtime), pas juste un outil
Si integration future: creer une section **"Hook-Based Workflow Runtimes"** dans `guide/third-party-tools.md` — categorie inexistante aujourd'hui qui accueillerait Athena Flow + Ruflo + futurs outils du meme type.
**Ne pas faire:**
- Citer le "94% success rate" sans source verifiable
- Recommander `npm install -g athena-flow-cli` sans audit source prealable (voir section securite du guide)
- Integrer une entree outil unique sans la categorie parente
---
## Challenge (technical-writer)
**Score propose initial:** 3/5
**Score apres challenge:** 2/5 (abaisse)
Points souleves par l'agent:
**Pourquoi 3/5 etait trop genereux:**
- Projet de quelques heures = abandonment risk eleve. Roadmap ambitieuse (visual regression, API testing, Codex) sur base d'un seul workflow livre
- `npm install -g` recommande sans audit source = contradiction avec la section securite du guide (ref: snyk-toxicskills-evaluation.md)
- "94% success rate" sans benchmark = erreur factuelle par association si le chiffre entre dans le guide
- Precedent: Rippletide (eval 072) score 2/5 pour "claims non verifiables, pas de traction" — Athena Flow cumule les deux
**Ce qui justifie de ne pas descendre a 1/5:**
- Pattern architecturale genuinement nouveau dans l'ecosysteme (hooks → IPC → runtime persistant)
- Categorie absente du guide = gap reel si le pattern se generalise
- Ruflo confirme que la categorie existe et a de la demande
**Risque de ne pas integrer:** negligeable a court terme. Moyen terme: si Ruflo + Athena Flow + d'autres outils emergent, le guide sera en retard sur une categorie entiere. Surveiller activement.
---
## Fact-Check
| Affirmation | Verifiee | Source |
|-------------|----------|--------|
| Open source MIT | Claimed, non verifie | LinkedIn post (LICENSE file non inspecte) |
| `npm install -g athena-flow-cli` | Vraisemblable | README (non audite) |
| Architecture hooks → UDS → NDJSON | Vraisemblable | README decrit le data flow explicitement |
| TUI avec SQLite session persistence | Vraisemblable | README (feature list) |
| Playwright output CI-ready | Vraisemblable | README + landing site |
| "94% self-healing selector success rate" | Non verifiable | Claim marketing, aucun benchmark dans repo |
| "~3 secondes repair time" | Non verifiable | Idem |
| Codex support "in progress" | Claim roadmap | LinkedIn post, aucun commit visible |
| Free / $0 | Vraisemblable | Landing site + MIT license |
| Ruflo comme projet comparable | Confirme | Perplexity search (github.com/ruvnet/ruflo) |
**Corrections apportees:** Le claim "94%" n'entre pas dans le guide. La mention MIT est en attente de verification du LICENSE file.
---
## Contexte ecosysteme (Perplexity, 2026-03-05)
Projets similaires identifies dans la meme categorie "hook-based runtime / orchestration wrapper":
| Projet | Description | Maturite |
|--------|-------------|----------|
| **[Ruflo](https://github.com/ruvnet/ruflo)** | Multi-agent orchestration platform for Claude Code, governance layer | Quelques semaines, plus mature |
| **Entire CLI** | Gouvernance sequentielle, approval gates, audit trails (SOC2/HIPAA) | ~1 mois, documente dans le guide |
| **oh-my-pi** | Runtime agent terminal alternatif, decouvre hooks/MCP/rules nativement | Recent |
La categorie emerge. Athena Flow n'est pas isole — c'est un signal de tendance.
---
## Decision finale
- **Score final**: 2/5
- **Action**: Watch — revisiter dans 3-4 semaines avec: audit npm source, GitHub metrics, verification claim 94%
- **Confiance**: Haute sur le score, moyenne sur les facts (projet trop recent pour audit complet)
- **Prochaine action**: Evaluer Ruflo (#074) en parallele pour avoir la comparaison de categorie complete avant toute integration

View file

@ -0,0 +1,139 @@
# Resource Evaluation #074 — Ruflo: Multi-Agent Orchestration Platform for Claude Code
**Source:** [github.com/ruvnet/ruflo](https://github.com/ruvnet/ruflo)
**npm package:** `claude-flow` (ancien nom du projet, npm non encore migre)
**Type:** Open source (MIT) — framework d'orchestration multi-agent pour Claude Code
**Author:** ruvnet
**Evaluated:** 2026-03-05
**Traction:** 18,839 stars, 2,096 forks, 452 PRs, 5,900+ commits
---
## Contexte important
Ruflo etait precedemment connu sous le nom **claude-flow** (github.com/ruvnet/claude-flow). Le rebrand recient est une information structurelle a noter: le package npm reste `claude-flow`, l'URL d'install curl pointe encore sur l'ancien repo. Surveiller la stabilite de la transition.
---
## Resume du contenu
- **Multi-agent orchestration framework**: transforme Claude Code en plateforme multi-agent avec reine + workers hierarchiques, mesh topologies, ou swarms
- **Architecture en couches**: CLI + MCP server → Q-Learning router → Mixture of Experts (8) → 60+ agents specialises (coders, testers, reviewers, architects, security auditors...)
- **42+ skills, 17 hooks** integres
- **RuVector**: composant WebAssembly, HNSW vector search, SONA self-optimization, 9 algorithmes de reinforcement learning
- **SQLite persistence** (AgentDB, WAL mode) + 8 types de memoire incluant partage cross-agent
- **Installation**: `npx ruflo@latest init --wizard` (voie recommandee) ou `curl -fsSL https://cdn.jsdelivr.net/gh/ruvnet/claude-flow@main/scripts/install.sh | bash` (voie a eviter)
- **Claims de performance** (voir section Fact-Check):
- 84.8% SWE-Bench solve rate
- 32.3% reduction de tokens
- 2.8-4.4x speedup en coordination parallele
- 352x WASM transforms vs LLM calls
- 16,400 vector queries/seconde
- SONA self-optimization <0.05ms
---
## Score de pertinence
| Score | Signification |
|-------|---------------|
| 5 | Essentiel — Gap majeur dans le guide |
| 4 | Tres pertinent — Amelioration significative |
| **3** | **Pertinent — Complement utile** |
| 2 | Marginal — Watch: trop recent, claims non verifies |
| 1 | Hors scope — Non pertinent |
**Score final: 3/5**
**Justification:** 18.9k stars est un signal d'adoption reel pour un outil de niche. Le guide couvre l'orchestration multi-agent native (Task tool, TeammateTool) mais pas les frameworks externes qui remplacent/augmentent cette couche. Gap reel, categorie absente de `guide/third-party-tools.md`. Score abaisse de 4 a 3 suite au challenge: curl|bash install depuis CDN non audite, claims de performance non verifiables, rebrand recent = instabilite potentielle.
---
## Comparatif
| Aspect | Ruflo | Notre guide |
|--------|-------|-------------|
| Orchestration multi-agent native | Architecture supplementaire | Couvre Task tool + TeammateTool nativement |
| Framework externe d'orchestration | Nouveau pattern | Absent de third-party-tools.md |
| Hooks integration Claude Code | 17 hooks integres | Section hooks couverte, pas d'orchestrateur externe |
| MCP server integration | Oui, TypeScript | MCP documente extensivement |
| Performance claims verifiables | Non (voir fact-check) | Stats documentees avec sources |
| Audit securite install | Non effectue | Guide recommande audit avant install |
| Adoption / communaute | 18.9k stars, #42 repos AI | Oui pour les outils recommandes |
---
## Recommandations
**Action: Integrer a moyen terme — apres source audit et clarification claims**
**Ou integrer**: `guide/third-party-tools.md` section "Multi-Agent Orchestration" — pas en entree outil seule, mais comme exemple primaire d'une nouvelle sous-categorie **"External Orchestration Frameworks"** distincte des outils multi-instance actuels (Gas Town, multiclaude).
La distinction est importante: Gas Town / multiclaude = lancer plusieurs Claude Code en parallele. Ruflo = remplacer/augmenter l'orchestration interne de Claude Code avec un framework complet. Ce sont deux niveaux architecturaux differents.
**Ce qui doit se passer avant integration:**
1. **Source audit `npx ruflo@latest`** via `npm pack ruflo` — verifier absence de preinstall scripts malveillants, confirmer que le package correspond a ce que le README decrit
2. **Clarifier le rebrand**: confirmer que `ruvnet/ruflo` est bien le repo actif et que claude-flow est archive ou redirige
3. **Baliser tous les claims** comme "claim auteur, non verifie" — aucun chiffre (84.8%, 352x, 16,400/s) ne peut entrer dans le guide sans methodologie publiee
4. **Exclure la voie curl|bash** des recommandations (voir section securite)
**Framing correct pour l'entree guide:**
> Ruflo (anciennement claude-flow) est le framework d'orchestration externe le plus adopte pour Claude Code (18.9k stars). Il ajoute une couche multi-agent complete au-dessus de Claude Code: 60+ agents specialises, routing Q-learning, persistance SQLite. A utiliser quand les capacites natives de Claude Code (Task tool, sous-agents) ne suffisent pas pour un use case.
---
## Challenge (technical-writer)
**Score propose initial:** 4/5
**Score apres challenge:** 3/5 (abaisse)
Points cles de l'agent:
**Pourquoi 4/5 etait trop genereux:**
- 18.9k stars avec 830 en un jour = spike de trending, pas adoption soutenue. Besoin de 3-4 semaines de donnees post-spike pour valider la retention
- Rebrand claude-flow → ruflo = evenement non trivial. L'URL curl|bash pointe encore sur l'ancien repo (`ruvnet/claude-flow`) — inconcistance qui indique une transition en cours
- 84.8% SWE-Bench serait SOTA batant les labs fermees. Claim non credible sans paper + reproductibilite. Les autres chiffres (352x, 32.3%, <0.05ms) ont une precision artificielle sans source
- "Byzantine fault tolerance + CRDT" dans un outil pour dev individuels = "architectural theater" (citation agent) si non documente en profondeur
**Pourquoi 3/5 et pas 2:**
- Gap reel dans le guide: la categorie "external orchestration framework" n'existe pas
- Traction verifiee independamment (Perplexity: trending #42 AI repos, communaute chinoise active)
- TypeScript, MIT, npm disponible = plus auditable qu'un projet sans package manager
**Risques de recommander:**
- Complexite elevee: un user qui saute a 60 agents + Q-learning avant de maitriser le Task tool natif prend le mauvais chemin
- Rebrand instable: les conventions de nommage (claude-flow vs ruflo) peuvent changer encore
- Claims agressifs: 84.8% SWE-Bench si cite sans disclaimer emprunte la credibilite du guide
---
## Fact-Check
| Affirmation | Verifiee | Source |
|-------------|----------|--------|
| 18,839 GitHub stars | Confirme | Perplexity (ranktracking #42 AI repos, 2026-03-05) |
| 2,096 forks, 452 PRs | Confirme | Perplexity cross-reference |
| Trending: +830 stars le 3 mars 2026 | Confirme | GitHub ranking chinois (juejin.cn) |
| MIT license | Vraisemblable | README (non inspecte directement) |
| npm package `claude-flow` | Confirme | npmjs.com/package/claude-flow |
| Architecture 60+ agents, 42+ skills, 17 hooks | Vraisemblable | README (non audite) |
| `npx ruflo@latest` disponible | A verifier | npm registry non confirme |
| 84.8% SWE-Bench solve rate | Non verifiable | Claim sans methodologie ni paper |
| 32.3% token reduction | Non verifiable | Precision artificielle, pas de source |
| 352x WASM vs LLM calls | Non verifiable | Baseline de comparaison inconnue |
| 16,400 vector queries/seconde | Non verifiable | Hardware/dataset non specifies |
| SONA <0.05ms adaptation | Non verifiable | Claim marketing |
| Curl CDN pointe sur ancien repo (claude-flow) | Confirme | URL: `cdn.jsdelivr.net/gh/ruvnet/claude-flow` |
**Corrections apportees:** Aucun des chiffres de performance n'entre dans le guide. Rebrand flagge explicitement.
---
## Decision finale
- **Score final**: 3/5
- **Action**: Integrer dans 2-3 semaines, apres source audit et validation post-rebrand
- **Confiance**: Haute sur le score (traction verifiee, claims non verifiables clairement separes), moyenne sur la stabilite du projet (rebrand en cours)
- **Prochaine action**: `npm pack ruflo` ou `npm pack claude-flow` pour identifier le bon package, inspecter le code compile, confirmer absence de preinstall scripts
- **Entree liee**: eval #073 (Athena Flow) — creer section "Hook-Based Runtimes / External Orchestration" dans third-party-tools.md une fois les deux valides