Skill 系列(01):Skill 评测体系——如何量化一个 AI Skill 的质量
2026/6/22 15:11:57 网站建设 项目流程

Skill 评测的两层问题

普通软件测试只有一层:代码跑对了吗?Skill 有两层:

层 1 — Trigger 层:LLM 有没有判断"这句话需要调用这个 Skill"? 层 2 — Execution 层:Skill 内部执行有没有完成任务?

漏掉任何一层,评测都不完整。Skill A 的成功率是 90%,但如果触发率只有 60%,真实体验远比"有点差"糟糕。

测试对象是rnd-technical-writer(技术博客写作 Skill),20 个 Trigger 测试用例 + 两个 Task 完成率任务 + 一组 A/B Prompt 对比,全部数据来自真实运行。


评测框架设计

Trigger 评测

核心指标:

Recall = TP / (TP + FN) ← 该触发的有没有被触发 Precision = TP / (TP + FP) ← 触发的里有多少是对的 F1 = 2 × Recall × Precision / (Recall + Precision)

测试集构成(20 个用例):

TP(真正例,应触发) ×8 ← 明确写文章、教程、深度解析 TN(真负例,不应触发) ×8 ← 知识问答、系列规划、代码帮助 EDGE(边界用例) ×4 ← 语义模糊、中英混合

清晰的 TP/TN 用例谁都能答对,边界用例才能暴露 Skill 描述的歧义。

自动化方式:把 Skill 描述 + 用户输入交给 LLM,让它预测是否触发,返回 JSON:

TRIGGER_EVAL_PROMPT="""You are evaluating whether a user message would trigger a specific AI Skill. Skill specification: {skill_description} User message: "{user_input}" Answer in valid JSON only: { { "prediction": "trigger" or "no_trigger", "reasoning": "one sentence explanation" }}"""

Task 完成率评测

两级检查:

Level 2(结构性):规则检查,不依赖 LLM → 字数是否达标 → 是否包含代码块 → 是否有 H2 章节标题 Level 3(质量,LLM-as-Judge):4 个维度各打 1-5 分 → 技术准确性(权重 35%) → 深度(权重 25%) → 清晰度(权重 20%) → 实用价值(权重 20%)

Judge Prompt 模板:

JUDGE_PROMPT="""You are an expert technical content reviewer. Evaluate the following AI-generated technical article. Scoring dimensions (1–5 each): 1. Technical accuracy 2. Depth 3. Clarity 4. Practical value Respond in valid JSON only: { "technical_accuracy": <1-5>, "depth": <1-5>, "clarity": <1-5>, "practical_value": <1-5>, "summary": "<one sentence assessment

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询