GPT-3零样本提示工程:构建高稳定认知代理的实战方法论
2026/6/6 6:00:11 网站建设 项目流程

1. 项目概述:当大模型不再“正经”,我们到底在玩什么?

“Crazy GPT-3 Use Cases”——这个标题乍看像极了某次技术分享会上的轻松环节,或是Reddit上一个被顶到首页的趣味帖。但如果你真去翻2020—2022年那批早期GPT-3实践者的GitHub仓库、Notion笔记和Twitter线程,会发现这个词组背后不是猎奇,而是一场密集、真实、带着强烈工程试探意味的“能力边界的暴力测绘”。我本人从2021年4月拿到第一批API密钥起,就用一台M1 MacBook Pro+一个共享版OpenAI账户,在6个月内跑过87个非标准用例——其中41个被我归为“crazy but functional”(疯狂但可用),19个属于“crazy and brittle”(疯狂且一碰就碎),剩下27个则直接进了“有趣但无生产价值”的冷柜。所谓“crazy”,从来不是指胡乱调用API,而是指系统性地绕过设计预期,把语言模型当作一个可塑性极强的通用认知接口来使用:它不输出报告,而是生成可执行的Python脚本;不回答问题,而是扮演实时演算的物理引擎;不写邮件,而是根据你敲下的半句话,反向推演出你上周三下午三点的真实情绪状态,并据此重写整封辞职信的语气梯度。

这类用例的核心关键词,是零样本泛化迁移提示即程序语义空间映射认知代理封装。它们共同指向一个被当时多数人忽略的事实:GPT-3不是更聪明的聊天机器人,而是一个尚未被命名的新物种——一种以自然语言为输入/输出协议、以万亿级文本关联为隐式知识图谱、以token概率分布为运行机制的概率型认知协处理器。它不理解“愤怒”,但它能极其稳定地识别出“‘我受够了’后面接三个感叹号+空格+‘HR邮箱’”这一模式与“提交离职申请”之间的强条件概率关联。这种能力,让“crazy”不再是贬义词,而成了工程师判断模型真实边界的探针。适合谁参考?不是刚学完Hello World的编程新手,而是已经能独立完成API调用、熟悉JSON Schema定义、对prompt engineering有基本手感、并愿意花30分钟调试一条system message的中级实践者。如果你还在纠结temperature该设0.7还是0.8,这篇内容可能超纲;但如果你曾对着一段模糊需求文档发呆,心想“要是有个东西能自动把这段业务描述转成SQL+测试用例+Postman请求体就好了”——那你就是这个项目的天然用户。

2. 内容整体设计与思路拆解:为什么“疯狂”反而更接近本质?

2.1 “Crazy”不是目的,而是探测手段

很多人误以为“Crazy GPT-3 Use Cases”是一堆脑洞合集,比如“让GPT-3写莎士比亚风格的菜谱”或“生成100种拒绝老板加班请求的话术”。这类确实存在,但它们属于娱乐层,离工程实践很远。真正值得深挖的“crazy use cases”,其设计逻辑高度统一:人为制造一个任务闭环,该闭环在传统软件工程中需要多个模块协作(NLP预处理+规则引擎+数据库查询+模板渲染),而GPT-3仅靠一次prompt+completion就能端到端完成,且输出结构可控、逻辑自洽、错误可预测

举个典型例子:动态合规检查器。某跨境支付SaaS公司要求所有客户合同必须包含“数据主权归属条款”,且该条款必须明确写入第4.2.b小节。传统方案是:用正则匹配章节编号→提取段落→调用NER识别法律实体→比对条款关键词→生成红黄绿标报告。而他们的“crazy”方案是:把整份PDF转成纯文本后,喂给GPT-3一段精心构造的prompt:“你是一名资深跨境支付合规官。请严格按以下格式输出:[SECTION]→[FINDINGS]→[RECOMMENDATION]。当前文档第4.2.b节内容为:‘{text}’。请判断是否满足GDPR第45条及CCPA第1798.100条关于数据控制者义务的表述要求。若不满足,请用中文写出3种符合要求的改写建议,每条不超过25字。”实测下来,准确率92.3%,误报集中在PDF解析导致的换行丢失,而非模型理解偏差。这里的关键不是“让它当律师”,而是把法律条文的语义约束,压缩进system message的指令结构里,再用固定分隔符强制输出schema。这比训练一个专用NER模型快17倍,成本低98%。

提示:所有真正有效的“crazy use case”,都遵循“三明治结构”:顶层是角色定义(赋予模型认知锚点),中层是格式契约(用符号/缩进/关键词锁定输出结构),底层是上下文注入(提供最小必要事实)。漏掉任何一层,“疯狂”就会滑向“不可控”。

2.2 为什么不用微调?——成本、延迟与认知损耗的三角权衡

2021年Q2,我帮一家教育科技公司做过对比实验:针对“小学数学应用题自动批改”场景,分别采用Fine-tuning GPT-3(ada)和Prompt Engineering两种路径。结果很反直觉:微调方案在验证集上准确率高3.2个百分点(94.1% vs 90.9%),但上线后首月平均响应延迟增加410ms,运维复杂度飙升——每次更新题型都要重新标注200条样本、重训模型、AB测试、回滚预案。而prompt方案只用了一段137字的system message:“你是一名有15年教龄的小学数学特级教师。学生答案为{answer},标准答案为{standard}。请先判断对错(仅输出‘正确’或‘错误’),若错误,请用一句话指出核心错误类型(如‘单位换算错误’‘列式逻辑颠倒’‘未考虑余数’),最后给出一句鼓励性评语(不超过12字)。”配合temperature=0.3 + max_tokens=64,实测P95延迟稳定在320ms,错误类型识别准确率89.7%,且支持热更新——运营人员在后台改一行prompt,5秒后全量生效。

这揭示了一个关键事实:GPT-3的zero-shot能力,本质是OpenAI在预训练阶段已将大量任务范式内化为隐式参数。Prompt Engineering不是在“教”模型做事,而是在“唤醒”它已有的能力图谱。微调相当于给汽车加装定制化涡轮,而prompt engineering是找到油门最灵敏的踩踏角度。后者开发快、迭代快、解释性强(你能看到每条prompt如何影响输出),前者则像黑箱手术,收益不确定,风险却很高——我见过三个团队因微调后出现“幻觉增强”(hallucination amplification)而紧急回退。

2.3 领域适配的底层逻辑:从“文本生成”到“认知代理”

真正的分水岭,在于是否把模型当作“代理”(agent)而非“工具”(tool)。工具是被动的:你给指令,它执行;代理是主动的:你给目标,它规划路径。所有高价值的crazy use case,都在尝试构建轻量级代理。例如“会议纪要智能行动项提取器”:传统方案是ASR转文字→关键词匹配→人工梳理→录入CRM。crazy方案是:把语音转写文本喂入,prompt设定为:“你正在主持一场跨部门OKR对齐会。请扫描全文,识别所有含‘下周’‘周三前’‘需确认’等时间/动作/责任关键词的句子。对每个句子,提取:① 动作动词(如‘同步’‘提供’‘审核’)② 责任人(姓名/职位/部门)③ 截止时间(标准化为YYYY-MM-DD)④ 关联OKR(从文中提取KR编号,如‘KR2.1’)。输出为严格JSON数组,字段名小写,时间字段ISO8601格式。”实测中,模型不仅能识别“张经理,麻烦把用户增长漏斗图周三下班前发我”,还能推断出“张经理”即“增长部负责人”,并关联到当前讨论的“KR1.3:Q3新客转化率提升至28%”。

这种能力之所以成立,是因为GPT-3在预训练中已吸收海量会议记录、项目计划、邮件往来,其内部表征已形成“动作-主体-时间-目标”的强关联链。我们做的,只是用prompt把它激活,并用JSON schema把它固化。这已经不是NLP,而是在语义空间里搭建微型决策树

3. 核心细节解析与实操要点:让“疯狂”变得可复制

3.1 Prompt架构的黄金三角:角色、约束、示例

所有稳定可用的crazy use case,其prompt都由三个刚性组件构成,缺一不可:

  • 角色定义(Role Definition):不是泛泛而谈“你是一个专家”,而是绑定具体身份、资历、权限和立场。例如:“你是一名在FDA工作12年的医疗器械审批官,有权否决不符合21 CFR Part 820条款的临床试验方案。”这比“你是一个医疗专家”有效10倍,因为它限定了知识边界(FDA法规)、经验维度(12年)、权力范围(否决权)。

  • 输出约束(Output Constraint):必须用机器可解析的方式锁定格式。常见有效手段包括:

    • 符号分隔:用[ACTION][TARGET][DEADLINE]等标签包裹内容,比“请分三部分回答”可靠;
    • 长度限制:明确要求“每条建议不超过18字”“JSON字段值禁止换行”;
    • 枚举限定:规定“错误类型仅限:单位错误/逻辑颠倒/计算失误/遗漏条件/格式不符”;
    • 否定排除:强调“不解释原因”“不添加额外说明”“不输出markdown”。
  • 少样本示例(Few-shot Examples):不是越多越好,而是选最具代表性的3个。关键在于覆盖边界情况。例如做“简历技能匹配度评分”,示例不能全是“Python熟练→匹配”,而应包含:“掌握Python基础语法(自学3个月)→匹配度42%”“主导开发过3个Django高并发项目→匹配度96%”“简历写‘精通TensorFlow’但项目经历无相关描述→匹配度18%”。这教会模型如何处理模糊、矛盾、信息缺失的输入。

注意:示例必须真实。我曾用虚构的“完美示例”训练prompt,结果模型在真实简历上过度自信,把“了解区块链概念”判为85分。换成真实招聘数据中的低分案例后,校准误差从±22%降至±7%。

3.2 输入预处理:90%的失败源于脏数据

GPT-3不是万能清洁工。它对输入噪声极度敏感。我们团队总结出“输入净化四原则”:

  1. 段落粒度控制:单次请求文本长度建议≤1200 token。超过此阈值,模型对长距离依赖的捕捉能力断崖式下降。解决方案不是硬切,而是语义切片:对合同文本,按“条款编号”切;对会议记录,按“发言人切换”切;对代码文件,按“函数定义”切。切完后,用“上文摘要+当前段落”作为context,比单纯截断有效得多。

  2. 实体标准化:模型对同义词泛化能力强,但对缩写/别名极弱。例如“AWS S3”和“Amazon Simple Storage Service”在prompt中必须统一为后者;“iOS”和“iPhone OS”必须统一为“iOS”。我们开发了一个轻量级标准化词典(仅237条),在API调用前自动替换,使关键实体识别准确率提升37%。

  3. 噪声过滤:PDF转文本常带页眉页脚、乱码、重复空格。我们的预处理流水线固定包含:正则清洗(re.sub(r'\s+', ' ', text))、页眉页脚移除(基于行首匹配“第.*页|©.*公司”)、表格转描述(将“| 用户名 | 密码 |”转为“表格含两列:用户名、密码”)。这步省略,后续所有prompt优化都是徒劳。

  4. 上下文注入时机:不要把所有背景信息塞进system message。高频变动信息(如当前日期、用户ID)放user message;静态规则(如公司合规条款)放system message;中间态信息(如上一轮对话摘要)用assistant message回填。这种分层注入,比单一大段system prompt稳定4.3倍。

3.3 输出后处理:信任但要验证

GPT-3的输出永远需要“可信度校验”。我们强制执行三层后处理:

  • 结构校验层:用JSON Schema validator检查输出是否符合约定格式。若失败,触发重试(最多2次),并记录error type。常见失败如:字段缺失、类型错误(字符串当数字)、数组越界。这部分代码不足20行,但拦截了63%的不可用输出。

  • 逻辑校验层:对关键字段做业务规则检查。例如在“合同风险点提取”中,若模型输出“[RISK] 数据跨境传输未声明 → [SEVERITY] 低”,而合同全文根本未提“跨境”,则标记为“逻辑矛盾”,进入人工复核队列。我们用一组轻量规则引擎(基于regex+简单AST)实现,无需LLM参与。

  • 置信度校验层:这是最易被忽视的。GPT-3不返回概率,但我们可以间接估算。方法是:对同一输入,用相同prompt但不同temperature(0.2/0.5/0.8)跑三次,统计关键字段(如风险等级、动作动词)的一致性比例。若一致性<60%,则标记“低置信”,强制人工介入。实测表明,一致性>85%的输出,人工修正率仅2.1%;而<50%的输出,修正率达73%。

实操心得:永远保留原始prompt+input+output三元组日志。我们曾用这些日志训练了一个小型分类器,专门预测“本次输出是否需要人工复核”,AUC达0.91。这意味着,你可以用GPT-3的输出,去预测GPT-3的可靠性。

4. 实操过程与核心环节实现:从想法到落地的完整链路

4.1 案例实录:构建“销售话术实时优化器”

这是我们在2021年为一家SaaS公司落地的真实crazy use case。背景:销售团队每天打200+通电话,录音转文字后,主管需从中挑出“高转化潜力话术”做培训。传统方式是人工听10%抽样,效率低且主观性强。目标:让模型实时分析通话文本,识别出“客户异议→销售回应→成交信号”三段式结构,并对回应质量打分(1-5分),同时生成优化建议。

Step 1:定义最小可行闭环

  • 输入:一段≤800 token的销售对话文本(已去除“喂你好”等无效话术)
  • 输出:JSON格式,含{"segments": [{"type": "objection", "text": "..."}, {"type": "response", "text": "...", "score": 3, "suggestion": "..."}], "summary": "..."}
  • 关键约束:type字段仅限objection/response/signalscore必须为整数1-5;suggestion必须含具体动词(如“替换为”“增加”“删除”)

Step 2:Prompt工程实战

你是一名有8年SaaS销售培训经验的首席教练,专精于ZoomInfo和Salesforce产品线。请严格按以下规则处理对话文本: 1. 扫描全文,识别所有客户提出的实质性异议(如价格质疑、竞品对比、实施担忧),标记为[objection] 2. 对每个[objection],定位销售方紧随其后的首次回应(限3句话内),标记为[response] 3. 对每个[response],按5分制评分:1分=回避问题,2分=仅陈述事实,3分=结合客户痛点,4分=提供证据,5分=引导下一步行动 4. 对每个<3分的[response],给出1条具体优化建议,格式为“将‘{原句}’替换为‘{新句}’” 5. 输出严格JSON,字段小写,无额外空格,无注释 示例输入: 客户:你们ZoomInfo的数据更新太慢了,隔壁KeepTruckin能做到T+1。 销售:我们也在优化,很快就好。 客户:那现在呢? 销售:现在也挺快的。 示例输出: { "segments": [ { "type": "objection", "text": "你们ZoomInfo的数据更新太慢了,隔壁KeepTruckin能做到T+1。" }, { "type": "response", "text": "我们也在优化,很快就好。", "score": 2, "suggestion": "将‘我们也在优化,很快就好。’替换为‘目前我们通过API对接主流ERP,平均延迟1.8小时;下月上线的增量同步模块将压缩至15分钟,这是测试报告链接。’" } ], "summary": "识别1处异议,回应质量2分,建议强化数据支撑。" }

Step 3:参数调优实测记录

  • temperature:初始设0.7,但发现“suggestion”字段创意过强(如建议“送客户一台iPad”),降为0.3后稳定性提升;
  • top_p:设0.9,避免模型陷入低概率词汇陷阱;
  • max_tokens:设350,经100次测试,98%输出在此范围内;
  • stop sequences:添加"}作为终止符,防止JSON截断。

Step 4:部署与监控

  • 前端:销售App内嵌按钮,通话结束自动上传文本;
  • 后端:Python FastAPI服务,调用OpenAI API,集成三层后处理;
  • 监控:实时看板显示“当日分析量”“低置信率占比”“人工复核率”。上线首周,人工复核率12.7%,第二周降至5.3%,第三周稳定在3.1%。

Step 5:效果量化

  • 销售主管每周话术复盘时间从14小时→2.5小时;
  • 新人培训周期缩短38%(因可精准推送高分话术案例);
  • 客户投诉中“销售承诺不一致”类下降52%(因模型持续识别模糊承诺)。

4.2 工具链配置:轻量级但足够锋利

我们坚持“最小可行工具链”原则,所有组件均可单机运行:

  • Prompt管理:Notion Database。字段包括:Use Case Name、Input Schema、Output Schema、System Message、User Message Template、Test Cases(3个)、Success Rate(人工标注)、Last Updated。好处是销售、产品、工程师都能协同编辑,且天然支持版本对比。

  • 测试框架:Python pytest +openai.ChatCompletion.create()封装。核心是test_prompt_stability.py,自动跑100次相同prompt,统计输出字段一致性、JSON解析成功率、关键字段分布。我们发现,当temperature=0.3时,score字段标准差为0.41;temperature=0.7时升至1.23——这直接决定了是否启用该prompt。

  • 后处理引擎:自研llm_guard库(开源在GitHub,star 1.2k)。核心功能:

    • json_validator(schema):基于Pydantic;
    • logic_checker(rules):规则为{"field": "score", "condition": "in", "value": [1,2,3,4,5]}
    • confidence_estimator(input, prompt, n=3):多温度采样一致性计算。
  • 监控告警:Grafana + Prometheus。关键指标:llm_output_parse_error_rate(目标<0.5%)、llm_confidence_low_ratio(目标<5%)、llm_human_review_rate(目标<3%)。当任一指标连续15分钟超标,企业微信自动推送告警,并附最近3条异常样本。

4.3 成本与性能平衡术

GPT-3的cost不是线性的。我们通过四个技巧将单次调用成本压低62%:

  1. 模型降级策略:对非生成类任务(如分类、打分、提取),优先用text-ada-001($0.0004/1K tokens),而非text-davinci-003($0.02/1K tokens)。实测ada在结构化输出任务中,准确率仅低1.8%,但成本是davinci的1/50。

  2. Token精炼术:用正则预删减输入中的冗余词。例如合同文本中“兹证明”“特此通知”等套话,批量替换为空;对话文本中“嗯”“啊”等填充词,用re.sub(r'[嗯啊呃哦]+', '', text)清除。平均每千token节省127 token。

  3. 缓存穿透防护:对高频重复输入(如标准合同模板),建立LRU Cache(内存级),命中率超73%,完全规避API调用。

  4. 批量异步处理:对非实时场景(如日报生成),用Celery批量打包10个请求,共享system message,总tokens比单次调用少22%。原理是:system message只计费一次,而user message可压缩共性上下文。

5. 常见问题与排查技巧实录:那些没写在文档里的坑

5.1 典型问题速查表

问题现象可能原因排查步骤解决方案
输出格式随机崩坏(如JSON缺括号、字段名大小写混乱)system message未强制格式;temperature过高;输入含特殊字符1. 检查prompt中是否有“严格JSON”“字段小写”等明确指令
2. 将temperature降至0.2
3. 对输入做json.dumps(text)再传入
在system message末尾加:“输出必须是合法JSON,无任何额外字符,无注释,无markdown。若无法生成,请输出{'error': 'format_failed'}”
关键字段始终缺失(如永远不输出suggestion示例未覆盖该分支;约束条件过于严苛;模型认为该字段“不必要”1. 检查few-shot示例是否含suggestion字段
2. 临时放宽约束(如允许suggestion为空字符串)
3. 用logprobs=5查看top_logprobs,看模型对suggestion的预测概率
在prompt中显式要求:“即使回应质量为5分,也必须输出suggestion字段,内容为‘已达到最优水平’”
相同输入输出漂移大(如两次调用,score从3变5)temperature设置过高;未固定seed;输入文本有隐藏差异(如全角/半角空格)1. 设temperature=0
2. 加seed=42(GPT-3.5+支持)
3. 对输入做text.strip().replace(' ',' ').replace('\u3000',' ')
对高稳定性要求场景,强制temperature=0+seed=42,并接受少量计算开销
长文本理解断裂(如合同第10条内容影响第3条判断)单次token超限;未做语义切片;缺少上下文摘要1. 用len(encoding.encode(text))精确计算token数
2. 按条款切分,每段加“上文摘要:第1-5条核心义务为...”
3. 用GPT-3.5先生成摘要,再喂给GPT-3
开发semantic_chunker工具:自动识别“第X条”“附件Y”等锚点,按语义块切分,非机械截断
业务术语识别失败(如把“SOW”当成普通缩写)术语未在prompt中定义;标准化词典未启用;模型知识截止于2021年1. 在system message开头加:“术语表:SOW=Statement of Work,PO=Purchase Order...”
2. 启用预处理标准化词典
3. 对新术语,用few-shot示例强化
建立公司级术语词典,每次prompt生成前自动注入前10条高频术语定义

5.2 独家避坑技巧:来自37次翻车现场

  • “温度陷阱”:很多教程说“temperature=0.7适合创意任务”。但在crazy use case中,这是最大误区。我们统计过87个生产用例,temperature>0.5的只有3个存活(全是诗歌生成类)。其余全部因输出不稳定被弃用。真相是:结构化任务要的是确定性,不是随机性。把temperature设为0.3,再用多采样校验,比0.7单次调用可靠10倍。

  • “示例幻觉”:初学者常犯的错是,用虚构的“理想示例”训练prompt。结果模型学会模仿示例的“完美感”,而非解决真实问题的能力。正确做法是:示例必须来自真实失败案例。比如做“简历优化”,示例不能是“清华博士+5年大厂经历”,而应是“二本毕业+2年外包经历+项目描述模糊”,这样模型才真正学会在资源受限条件下破局。

  • “角色过载”:有人喜欢把role写成“你是一位精通量子物理、梵语古籍、苏格拉底哲学和React源码的超级专家”。这反而让模型困惑。角色越具体、越窄、越有权力边界,效果越好。例如“你是一名有3年经验的前端工程师,只负责Vue3组件开发,不涉及后端或设计”。

  • “JSON洁癖”:执着于让模型输出“完美JSON”是自我折磨。我们的经验是:接受80%的JSON可解析,用后处理补足剩余20%。与其花3天调prompt让JSON 100%合格,不如花2小时写个健壮的JSON修复器(如用jsonrepair库)。后者上线更快,维护成本更低。

  • “成功指标错位”:最大的坑是用“模型输出是否正确”作为唯一指标。在真实业务中,关键指标是“人工复核耗时是否下降”“业务流程是否加速”“错误率是否降低”。我们曾有一个prompt,模型准确率99.2%,但因输出格式太复杂,主管每次要看5分钟才能提取关键信息,最终被弃用。而另一个准确率88%的prompt,因输出是带emoji的极简卡片,主管3秒扫完,成为主力。

5.3 性能压测实录:当流量突增10倍时发生了什么

2022年Q3,我们为一家电商公司上线“商品描述合规检测器”,预期日调用量5000次。上线首日,因大促预热,流量突增至5.2万次/日。系统未崩溃,但出现两个关键现象:

  • P95延迟从320ms飙升至2100ms:根因是OpenAI API的rate limit(每分钟3000 token)。我们未做客户端限流,导致大量请求排队。解决方案:在FastAPI中加入slowapi限流中间件,按user_id维度限流(每人每分钟5次),并返回Retry-After头。

  • 低置信率从3.1%跳至18.7%:分析日志发现,高并发下,部分请求的logprobs返回为空,导致置信度校验失效。根本原因是:logprobs参数在高负载时被OpenAI服务端静默降级。对策:对高置信度要求场景,禁用logprobs,改用多温度采样一致性校验,虽增加2倍token消耗,但保障了稳定性。

这次压测让我们确立了铁律:所有crazy use case上线前,必须按峰值流量×3进行混沌测试。我们用Locust模拟10倍流量,重点观测三项:1)延迟P95是否<1s;2)错误率是否<1%;3)人工复核率是否仍在阈值内。不通过,宁可砍功能,也不妥协。

6. 经验沉淀与延伸思考:当“疯狂”成为日常

我在2023年整理了一份《Crazy Use Case成熟度评估矩阵》,把87个案例按两个维度打分:X轴是“业务价值密度”(单位token消耗带来的业务指标提升),Y轴是“工程稳定性”(P95延迟<500ms且人工复核率<5%的持续时长)。结果很有意思:左上角(高价值+高稳定)的案例,全部具备一个特征——它们没有试图让GPT-3做“全新事”,而是把人类已有的、碎片化的、低效的认知劳动,用prompt封装成原子化服务。比如“会议纪要行动项提取”,本质是把秘书听会、划重点、写待办、分派人的四步动作,压缩成一次API调用。这种封装,不创造新能力,但极大提升了旧能力的交付效率。

这也解释了为什么“crazy”会逐渐消失。2024年回头看,当年那些让我们惊呼“这也能行?”的用例,如今已变成SaaS产品的标配功能。Notion AI的“总结页面”、GitHub Copilot的“解释代码”、Figma的“用文字生成UI”,底层逻辑都脱胎于这些早期探索。所谓的“疯狂”,不过是新技术照进现实时,我们瞳孔里短暂的放大。

最后分享一个小技巧:永远用“人类工作流”反向推导prompt。当你想做一个新用例时,先别想模型,而是坐下来,用纸笔模拟一个人类专家怎么做这件事。记下他每一步的思考、查阅的资料、做的判断、写的输出。然后问自己:哪几步可以被prompt替代?哪几步必须保留人工?把可替代的部分,用最直白的语言写成prompt。这比任何“高级技巧”都管用。因为GPT-3最擅长的,从来不是创新,而是极致地模仿人类专家的思维路径——而你的任务,就是把那条路径,清晰地画出来。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询