兄弟们,今天聊点干货。微软刚在arXiv上放了个新框架——“Prompt Programming with Chain-of-Thought and Self-Consistency”(论文链接:2402.18xxx)。一句话总结:用系统化的Prompt设计方法,把复杂推理任务搞稳了。
先看具体数据:在GSM8K数学推理基准上,传统零样本思维链(Zero-shot CoT)准确率约67%,而引入“自一致性(Self-Consistency)+多路径采样”后,准确率飙到91%。关键是,框架把Prompt拆成“任务描述+推理模板+输出格式”三层,每一步都有显式约束。比如,要求模型先写“推理过程”,再给“最终答案”,中间用```json```包裹,避免格式混乱。
实用技巧来了:
1. **多路径采样**:对每个问题采样5-10条推理链,投票选最一致的答案。微软发现采样5条时性价比最高,再增加收益递减。
2. **显式约束**:在Prompt里加“请先列出关键假设,再逐步推理,最后输出JSON”。实测让GPT-4的错误率降了22%。
3. **反例注入**:在Few-shot示例里混入一个“故意做错但格式正确”的反例,模型能自动学习纠错,准确率再提3-5%。
别只盯着“写个Prompt就完事”——这个框架的核心是把Prompt当代码写,可调试、可复用。推荐去GitHub搜“prompt-programming”看源码。 |