Claude Code 黑客松冠军:everything-claude-code 的评估驱动开发
affaan-m 的 everything-claude-code 合集如何通过评估驱动开发赢得 Cerebral Valley x Anthropic 黑客松——以及如何使用这些 Claude Skills 更快地构建、减少缺陷。

2026 年 2 月,一位名叫 affaan-m 的开发者用一组 Claude Skills 合集赢得了 Cerebral Valley x Anthropic 黑客松,此后该项目在 GitHub 上积累了超过 68,000 颗星。这个项目——everything-claude-code——不仅仅是一套工具。它是围绕**评估驱动开发(EDD)**概念构建的完整 AI 辅助软件开发方法论。
这是该合集如何在 8 小时内构建、它解决什么问题以及您今天如何使用它来更快地构建、减少缺陷的故事。
黑客松:8 小时,$15,000 奖金
结果不言自明:
- 与传统 AI 辅助工作流相比,功能完成速度提高 65%
- 第一轮代码审查问题减少 75%
- 8 小时的构建时间打造了一个生产就绪的开发者工具链
什么是评估驱动开发?
传统的测试驱动开发(TDD)问:"这段代码对这些输入是否产生正确的输出?"评估驱动开发问一个不同的问题:"这个输出有多好,我如何知道?"
EDD 周期如下:
- 先定义评估——在写一行代码之前,指定如何在多个维度上衡量成功
- 按评估实现——使用 Claude 生成代码,由评估标准指导
- 运行验证循环——自动检查按定义的标准验证
- 基于证据迭代——每个更改都由评估分数而非直觉来论证
everything-claude-code Skill 合集
该合集发布了 14 个 skills,每个针对 EDD 工作流的特定阶段。以下是影响最大的几个:
tdd-workflow——纪律执行者
这个 skill 实现了适应 AI 协作的严格红-绿-重构周期。在 Claude 编写任何实现代码之前,它必须先编写一个失败的测试。
eval-harness——衡量重要的事
eval harness skill 生成针对您特定领域的评估框架。对于 REST API,它创建用于响应延迟、模式合规性、错误处理覆盖和安全头的评估。
verification-loop——信任但验证
Claude 生成代码后,verification loop skill 在任何输出被标记为完成之前运行结构化检查清单。这是减少 75% 代码审查问题的最大贡献者。
strategic-compact——保持在上下文内
长时间的开发会话积累的上下文会降低 Claude 的输出质量。strategic-compact skill 实现了一个结构化的总结协议,保留关键上下文同时丢弃低信号历史。
真实世界影响:数据
EDD 之前(传统 AI 辅助工作流):
- 从规格到 PR 就绪的平均时间:中等功能 4.2 小时
- 首次 PR 通过率:~25%
- 花在代码审查修复上的时间:总功能时间的 ~40%
使用 everything-claude-code 的 EDD 之后:
- 从规格到 PR 就绪的平均时间:中等功能 1.5 小时
- 首次 PR 通过率:~68%
- 花在代码审查修复上的时间:总功能时间的 ~12%
如何开始
步骤 1:安装合集
# 从 Claude Skills Hub 下载
# 然后安装到全局 skills 目录
cp -r everything-claude-code ~/.claude/skills/
步骤 2:从一个 Skill 开始
不要在第一天就试图全面采用 EDD。在下一个功能中从 tdd-workflow 开始。
步骤 3:在第二个功能上添加评估
一旦 TDD 感觉自然,在第二个功能上引入 eval-harness。
步骤 4:启用验证循环
验证循环在您定义了评估后集成得最顺畅。
步骤 5:为长会话添加 strategic-compact
对于预期运行超过一小时的会话,在开始时启用 strategic-compact。
为什么赢得黑客松
评估驱动开发方法论解决了 AI 辅助开发中的一个基本矛盾:快速行动与正确行动。通过在工作流的每一步都内置验证,EDD 使快速和正确成为同一件事。
更广泛的生态系统
everything-claude-code 合集不是孤立存在的。它被设计为与 Claude 现有的 skill 生态系统互补:
- superpowers 合集:提供 EDD 验证循环调用的元 skills(头脑风暴、系统性调试)
- skill-creator:用于用领域特定标准扩展 eval harness
- mcp-builder:将外部质量工具(SonarQube、Snyk、DataDog)集成到验证循环中
68,000 颗星告诉了一个关于开发者对有原则的 AI 工作流需求的故事。社区渴望的不仅仅是规模化的自动完成——开发者想要产出可靠的、可审查的、可维护代码的系统。
affaan-m 的 everything-claude-code 合集可在 Claude Skills Hub 上获取。源代码在 GitHub。


