智能体评估框架

多维度评分的 Claude Code 智能体综合评估框架

Home/AI & ML/智能体评估框架

What is it?

多维度 Claude Code 代理评估框架,支持 LLM-as-Judge 模式和研究支持的性能方差分析。

How to use it?

安装技能后,Claude 会在检测到代理评估任务时自动应用此技能,也可直接在提示中引用其名称来调用。

Key Features

  • 多维度代理评估打分
  • LLM-as-Judge 评估模式
  • 研究支持的性能方差分析
  • 自动化评估标准评分
  • 人工评估辅助检查清单
View on GitHub

GitHub Stats

Stars
Forks
Last Update
Author
NeoLabHQ
License
GPL-3.0
Version
1.0.0

Features

Related Skills

More from AI & ML