兄弟们,今天凌晨Anthropic刚更新了Claude 3.5 Sonnet,编程评测直接飙到SWE-bench Verified 50.8%(去年3.5 Opus才38%)。最狠的是,它现在能用AI写代码自动修复bug,跑个完整单元测试链,生产级压测不掉链子。
另一个炸点是Meta放出的LLM Compiler 7B,专为代码优化和编译器任务微调。在PerfOpt代码优化数据集上,跑出了-2.7%的编译开销,直接逼近GPT-4(-2.6%),而7B参数只有GPT-4的几十分之一。实测调参场景,比如循环展开、内联优化,这小模型推理延迟才200ms以内(单卡A100),团队做CI/CD集成简直白嫖神器。
技术细节干货:Claude 3.5这次依赖扩展思考(Extended Thinking)机制,代码生成时会先拆解子任务链,类似CoT但更结构化;LLM Compiler的亮点是用汇编指令作为tokenizer增强,因此能理解底层IR变化。
建议想搞自动化代码审查或编译器优化的兄弟,赶紧拉这两个模型跑个benchmark,小模型成本低,大模型能力覆盖广,组合拳打得飞起。 |