Implement comprehensive evaluation strategies for LLM applications using automated metrics, human feedback, and benchmarking. Use when testing LLM performance, measuring AI application quality, or ...
通过自动化指标、人工反馈和基准测试,为大语言模型应用实施全面的评估策略,适用于测试大语言模型性能、衡量AI应用质量等场景
直接复制以下提示词,发送给你的 AI 助手即可完成安装。
点击右上角 下载SKILL 按钮