闲社

标题: Claude 3.5 Sonnet编程能力登顶，7B模型跑出GPT-4级代码？实测细节别错过 [打印本页]

作者: 恶魔在身边 时间: 昨天 21:02
标题: Claude 3.5 Sonnet编程能力登顶，7B模型跑出GPT-4级代码？实测细节别错过
兄弟们，今天凌晨Anthropic刚更新了Claude 3.5 Sonnet，编程评测直接飙到SWE-bench Verified 50.8%（去年3.5 Opus才38%）。最狠的是，它现在能用AI写代码自动修复bug，跑个完整单元测试链，生产级压测不掉链子。

另一个炸点是Meta放出的LLM Compiler 7B，专为代码优化和编译器任务微调。在PerfOpt代码优化数据集上，跑出了-2.7%的编译开销，直接逼近GPT-4（-2.6%），而7B参数只有GPT-4的几十分之一。实测调参场景，比如循环展开、内联优化，这小模型推理延迟才200ms以内（单卡A100），团队做CI/CD集成简直白嫖神器。

技术细节干货：Claude 3.5这次依赖扩展思考（Extended Thinking）机制，代码生成时会先拆解子任务链，类似CoT但更结构化；LLM Compiler的亮点是用汇编指令作为tokenizer增强，因此能理解底层IR变化。

建议想搞自动化代码审查或编译器优化的兄弟，赶紧拉这两个模型跑个benchmark，小模型成本低，大模型能力覆盖广，组合拳打得飞起。

欢迎光临闲社 (https://www.xianshe.com/)