marketing-shibata50/claude-code-ultimate-guide

Florian BRUNIAUX ef7cdd899e release: v3.24.0 - Agent Evaluation Framework

Major addition: Complete agent evaluation framework with production-ready template.

## Added

- **Resource Evaluation**: nao framework (score 3/5)
  - Identified critical gap: agent evaluation not documented
  - Technical challenge adjusted score 2/5 → 3/5
  - All claims fact-checked (TypeScript 58.9%, Python 38.5%)

- **Guide Section**: Agent Evaluation (guide/agent-evaluation.md, ~3K tokens)
  - Metrics: response quality, tool usage, performance, satisfaction
  - Patterns: logging hooks, unit tests, A/B testing, feedback loops
  - Example: analytics agent with built-in metrics
  - Tools: nao framework reference, Claude Code hooks integration

- **AI Ecosystem**: Section 8.2 Domain-Specific Agent Frameworks
  - nao (Analytics Agents): Database-agnostic, built-in evaluation
  - Transposable patterns: context builder, evaluation hooks, DB integrations

- **Template**: Analytics Agent with Evaluation (5 files, ~1K lines)
  - README: setup, usage, troubleshooting
  - Agent: SQL generator with evaluation criteria, safety rules
  - Hook: automated metrics logging (safety, performance, errors)
  - Script: analysis with stats, safety reports, recommendations
  - Report template: monthly evaluation format

## Changed

- Agent Evaluation Guide: updated template references, verified links
- Landing Site: templates count 110 → 114
- Version: 3.23.5 → 3.24.0

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>

2026-02-10 11:52:13 +01:00

4.5 KiB

Raw Blame History

Guide Documentation

Core documentation for mastering Claude Code.

File	Description	Time
ultimate-guide.md	Complete reference covering all Claude Code features	~3 hours
mcp-servers-ecosystem.md	Community MCP servers: 8 validated servers (Playwright, Semgrep, Kubernetes, etc.) with production configs	25 min
third-party-tools.md	Community tools: GUIs, TUIs, config managers, token trackers, alternative UIs	15 min
claude-code-releases.md	Official release history (condensed)	10 min
known-issues.md	Critical bugs tracker: security issues, token consumption, verified community reports	15 min
cheatsheet.md	1-page printable quick reference	5 min
visual-reference.md	Visual cheatsheet — ASCII diagrams for key concepts	5 min
architecture.md	How Claude Code works internally (master loop, tools, context)	25 min
learning-with-ai.md	Guide for juniors on using AI without losing skills	15 min
adoption-approaches.md	Implementation strategies for teams	15 min
agent-evaluation.md	Agent quality metrics: Measuring custom agent effectiveness with hooks, tests, and feedback loops	20 min
data-privacy.md	Data retention and privacy guide	10 min
observability.md	Session monitoring and cost tracking	15 min
methodologies.md	15 development methodologies reference (TDD, SDD, BDD, etc.)	20 min
security-hardening.md	Security threats, MCP vetting, injection defense	25 min
ai-traceability.md	AI attribution, disclosure policies, git-ai, compliance	20 min
devops-sre.md	FIRE framework for infrastructure diagnosis and incident response	30 min
sandbox-isolation.md	Docker Sandboxes, cloud alternatives, safe autonomy workflows	10 min
ai-ecosystem.md	Complementary AI tools (Perplexity, Gemini, Kimi, NotebookLM, TTS)	30 min
cowork.md	Claude Cowork: Summary (see dedicated repo for full docs)	5 min
workflows/	Practical workflow guides for Claude Code	30 min

Cowork Documentation

For knowledge workers using Claude Cowork (agentic desktop):

Resource	Description
Cowork Hub	Complete Cowork documentation
Getting Started	Setup and first workflow
Capabilities	What Cowork can/cannot do
Security Guide	Safe usage practices
Prompt Library	50+ ready-to-use prompts
Cheatsheet	1-page quick reference

Workflows

Hands-on guides for effective development patterns:

File	Description
workflows/tdd-with-claude.md	Test-Driven Development with Claude
workflows/spec-first.md	Spec-First Development (SDD)
workflows/plan-driven.md	Using /plan mode effectively
workflows/iterative-refinement.md	Iterative improvement loops
workflows/tts-setup.md	Add text-to-speech narration to Claude Code (18 min)
workflows/task-management.md	Multi-session task tracking, TodoWrite migration

4.5 KiB

Raw Blame History

Guide Documentation

Contents

Cowork Documentation

Workflows

Recommended Reading Order

4.5 KiB Raw Blame History

Guide Documentation

Contents

Cowork Documentation

Workflows

Recommended Reading Order

4.5 KiB

Raw Blame History