闲社

标题: Claude 3.5 Sonnet编程能力登顶,7B模型跑出GPT-4级代码?实测细节别错过 [打印本页]

作者: 恶魔在身边    时间: 昨天 21:02
标题: Claude 3.5 Sonnet编程能力登顶,7B模型跑出GPT-4级代码?实测细节别错过
兄弟们,今天凌晨Anthropic刚更新了Claude 3.5 Sonnet,编程评测直接飙到SWE-bench Verified 50.8%(去年3.5 Opus才38%)。最狠的是,它现在能用AI写代码自动修复bug,跑个完整单元测试链,生产级压测不掉链子。

另一个炸点是Meta放出的LLM Compiler 7B,专为代码优化和编译器任务微调。在PerfOpt代码优化数据集上,跑出了-2.7%的编译开销,直接逼近GPT-4(-2.6%),而7B参数只有GPT-4的几十分之一。实测调参场景,比如循环展开、内联优化,这小模型推理延迟才200ms以内(单卡A100),团队做CI/CD集成简直白嫖神器。

技术细节干货:Claude 3.5这次依赖扩展思考(Extended Thinking)机制,代码生成时会先拆解子任务链,类似CoT但更结构化;LLM Compiler的亮点是用汇编指令作为tokenizer增强,因此能理解底层IR变化。

建议想搞自动化代码审查或编译器优化的兄弟,赶紧拉这两个模型跑个benchmark,小模型成本低,大模型能力覆盖广,组合拳打得飞起。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0