技能说明

Testing and benchmarking LLM agents including behavioral testing, capability assessment, reliability metrics, and production monitoring—where even top agents achieve less than 50% on real-world benchmarks Use when: agent testing, agent evaluation, benchmark agents, agent reliability, test agent.


中文介绍

测试和基准评估LLM代理,包括行为测试、能力评估、可靠性指标和生产监控——即使顶尖代理在真实世界基准测试中的得分也低于50% 适用于:代理测试、代理评估、代理基准测试、代理可靠性、代理测试

直接复制以下提示词,发送给你的 AI 助手即可完成安装。

帮我下载并安装这个SKILL:https://skillhub.cstcloud.cn/download/agent-evaluation

点击右上角 下载SKILL 按钮

元信息

分类:Test & Security
下载:4
浏览:4
标签:
behavioral testing capability assessment reliability metrics