Skill 系列（01）：Skill 评测体系——如何量化一个 AI Skill 的质量-迪斯科星球

Skill 评测的两层问题

普通软件测试只有一层：代码跑对了吗？Skill 有两层：

层 1 — Trigger 层：LLM 有没有判断"这句话需要调用这个 Skill"？ 层 2 — Execution 层：Skill 内部执行有没有完成任务？

漏掉任何一层，评测都不完整。Skill A 的成功率是 90%，但如果触发率只有 60%，真实体验远比"有点差"糟糕。

测试对象是rnd-technical-writer（技术博客写作 Skill），20 个 Trigger 测试用例 + 两个 Task 完成率任务 + 一组 A/B Prompt 对比，全部数据来自真实运行。

评测框架设计

Trigger 评测

核心指标：

Recall = TP / (TP + FN) ← 该触发的有没有被触发 Precision = TP / (TP + FP) ← 触发的里有多少是对的 F1 = 2 × Recall × Precision / (Recall + Precision)

测试集构成（20 个用例）：

TP（真正例，应触发） ×8 ← 明确写文章、教程、深度解析 TN（真负例，不应触发） ×8 ← 知识问答、系列规划、代码帮助 EDGE（边界用例） ×4 ← 语义模糊、中英混合

清晰的 TP/TN 用例谁都能答对，边界用例才能暴露 Skill 描述的歧义。

自动化方式：把 Skill 描述 + 用户输入交给 LLM，让它预测是否触发，返回 JSON：

TRIGGER_EVAL_PROMPT="""You are evaluating whether a user message would trigger a specific AI Skill. Skill specification: {skill_description} User message: "{user_input}" Answer in valid JSON only: { { "prediction": "trigger" or "no_trigger", "reasoning": "one sentence explanation" }}"""

Task 完成率评测

两级检查：

Level 2（结构性）：规则检查，不依赖 LLM → 字数是否达标 → 是否包含代码块 → 是否有 H2 章节标题 Level 3（质量，LLM-as-Judge）：4 个维度各打 1-5 分 → 技术准确性（权重 35%） → 深度（权重 25%） → 清晰度（权重 20%） → 实用价值（权重 20%）

Judge Prompt 模板：

JUDGE_PROMPT="""You are an expert technical content reviewer. Evaluate the following AI-generated technical article. Scoring dimensions (1–5 each): 1. Technical accuracy 2. Depth 3. Clarity 4. Practical value Respond in valid JSON only: { "technical_accuracy": <1-5>, "depth": <1-5>, "clarity": <1-5>, "practical_value": <1-5>, "summary": "<one sentence assessment

企业官网建设流程全解析

Skill 评测的两层问题

评测框架设计

Trigger 评测

Task 完成率评测

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

Skill 评测的两层问题

评测框架设计

Trigger 评测

Task 完成率评测

热门文章

文章分类

标签云

相关文章

中小企业Excel+AI困局：数据不敢上云、表格一多就崩，怎么办？

重新定义Android应用生态：AuroraStore的技术革命与隐私解放

OpenCore Legacy Patcher终极指南：五步让老旧Mac焕然新生

需要专业的网站建设服务？