什么是评估驱动开发（EDD）？

评估驱动开发（EDD）是一种方法论，在编写代码之前定义评估标准，然后使用这些评估来指导每个实现决策。与测试正确性的 TDD 不同，EDD 衡量输出质量——使其非常适合 AI 辅助开发。

everything-claude-code skill 合集是什么？

everything-claude-code 是 affaan-m 构建的 14 个 Claude Skills 的合集，于 2026 年赢得了 Cerebral Valley x Anthropic 黑客松。它包含用于 TDD 工作流、评估框架、验证循环等的 skills——都围绕评估驱动开发原则设计。

如何使用 everything-claude-code skills？

从 Claude Skills Hub 下载 everything-claude-code 合集并安装到您的 ~/.claude/skills/ 目录。开始使用的关键 skills 是 tdd-workflow、eval-harness 和 verification-loop。Claude 会根据您的任务自动加载相关 skill。

Claude Code 黑客松冠军：everything-claude-code 的评估驱动开发

2026 年 2 月，一位名叫 affaan-m 的开发者用一组 Claude Skills 合集赢得了 Cerebral Valley x Anthropic 黑客松，此后该项目在 GitHub 上积累了超过 68,000 颗星。这个项目——everything-claude-code——不仅仅是一套工具。它是围绕**评估驱动开发（EDD）**概念构建的完整 AI 辅助软件开发方法论。

这是该合集如何在 8 小时内构建、它解决什么问题以及您今天如何使用它来更快地构建、减少缺陷的故事。

黑客松：8 小时，$15,000 奖金

结果不言自明：

与传统 AI 辅助工作流相比，功能完成速度提高 65%
第一轮代码审查问题减少 75%
8 小时的构建时间打造了一个生产就绪的开发者工具链

什么是评估驱动开发？

传统的测试驱动开发（TDD）问："这段代码对这些输入是否产生正确的输出？"评估驱动开发问一个不同的问题："这个输出有多好，我如何知道？"

EDD 周期如下：

先定义评估——在写一行代码之前，指定如何在多个维度上衡量成功
按评估实现——使用 Claude 生成代码，由评估标准指导
运行验证循环——自动检查按定义的标准验证
基于证据迭代——每个更改都由评估分数而非直觉来论证

everything-claude-code Skill 合集

该合集发布了 14 个 skills，每个针对 EDD 工作流的特定阶段。以下是影响最大的几个：

`tdd-workflow`——纪律执行者

这个 skill 实现了适应 AI 协作的严格红-绿-重构周期。在 Claude 编写任何实现代码之前，它必须先编写一个失败的测试。

`eval-harness`——衡量重要的事

eval harness skill 生成针对您特定领域的评估框架。对于 REST API，它创建用于响应延迟、模式合规性、错误处理覆盖和安全头的评估。

`verification-loop`——信任但验证

Claude 生成代码后，verification loop skill 在任何输出被标记为完成之前运行结构化检查清单。这是减少 75% 代码审查问题的最大贡献者。

`strategic-compact`——保持在上下文内

长时间的开发会话积累的上下文会降低 Claude 的输出质量。strategic-compact skill 实现了一个结构化的总结协议，保留关键上下文同时丢弃低信号历史。

真实世界影响：数据

EDD 之前（传统 AI 辅助工作流）：

从规格到 PR 就绪的平均时间：中等功能 4.2 小时
首次 PR 通过率：~25%
花在代码审查修复上的时间：总功能时间的 ~40%

使用 everything-claude-code 的 EDD 之后：

从规格到 PR 就绪的平均时间：中等功能 1.5 小时
首次 PR 通过率：~68%
花在代码审查修复上的时间：总功能时间的 ~12%

如何开始

步骤 1：安装合集

# 从 Claude Skills Hub 下载
# 然后安装到全局 skills 目录
cp -r everything-claude-code ~/.claude/skills/

步骤 2：从一个 Skill 开始

不要在第一天就试图全面采用 EDD。在下一个功能中从 tdd-workflow 开始。

步骤 3：在第二个功能上添加评估

一旦 TDD 感觉自然，在第二个功能上引入 eval-harness。

步骤 4：启用验证循环

验证循环在您定义了评估后集成得最顺畅。

步骤 5：为长会话添加 strategic-compact

对于预期运行超过一小时的会话，在开始时启用 strategic-compact。

为什么赢得黑客松

评估驱动开发方法论解决了 AI 辅助开发中的一个基本矛盾：快速行动与正确行动。通过在工作流的每一步都内置验证，EDD 使快速和正确成为同一件事。

更广泛的生态系统

everything-claude-code 合集不是孤立存在的。它被设计为与 Claude 现有的 skill 生态系统互补：

superpowers 合集：提供 EDD 验证循环调用的元 skills（头脑风暴、系统性调试）
skill-creator：用于用领域特定标准扩展 eval harness
mcp-builder：将外部质量工具（SonarQube、Snyk、DataDog）集成到验证循环中

68,000 颗星告诉了一个关于开发者对有原则的 AI 工作流需求的故事。社区渴望的不仅仅是规模化的自动完成——开发者想要产出可靠的、可审查的、可维护代码的系统。

affaan-m 的 everything-claude-code 合集可在 Claude Skills Hub 上获取。源代码在 GitHub。

Claude Code 黑客松冠军：everything-claude-code 的评估驱动开发

黑客松：8 小时，$15,000 奖金

什么是评估驱动开发？