エージェント評価フレームワーク

多次元スコアリング、LLM-as-Judgeモード、リサーチに裏付けられたパフォーマンス分散分析を備えた包括的なClaude Codeエージェント評価フレームワーク

Home/AI & ML/エージェント評価フレームワーク

What is it?

マルチディメンショナルスコアリング、LLM-as-Judgeモード、リサーチに基づくパフォーマンスバリアンス分析を備えた包括的なClaude Codeエージェント評価フレームワークです。

How to use it?

Claude環境にインストールすると、エージェント評価フレームワーク関連の作業時に自動的にスキルのガイドラインを適用します。

完全なソースとドキュメントはGitHubで利用可能です。

Key Features

  • マルチディメンショナルスコアリング、LLM-as-Judgeモード、リサーチに基づくパフォーマンスバリアンス分析を備えた包括的なClaude Codeエージェント評価フレームワーク
  • Claude開発ワークフローとのシームレスな統合
  • エージェント評価フレームワークの包括的なガイドラインとベストプラクティス
View on GitHub

GitHub Stats

Stars
Forks
Last Update
Author
NeoLabHQ
License
GPL-3.0
Version
1.0.0

Features

Related Skills

More from AI & ML