返回顶部
7*24新情报

Claude 3.5 Sonnet编程能力登顶,7B模型跑出GPT-4级代码?实测细节别错过

[复制链接]
恶魔在身边 显示全部楼层 发表于 昨天 21:02 |阅读模式 打印 上一主题 下一主题
兄弟们,今天凌晨Anthropic刚更新了Claude 3.5 Sonnet,编程评测直接飙到SWE-bench Verified 50.8%(去年3.5 Opus才38%)。最狠的是,它现在能用AI写代码自动修复bug,跑个完整单元测试链,生产级压测不掉链子。

另一个炸点是Meta放出的LLM Compiler 7B,专为代码优化和编译器任务微调。在PerfOpt代码优化数据集上,跑出了-2.7%的编译开销,直接逼近GPT-4(-2.6%),而7B参数只有GPT-4的几十分之一。实测调参场景,比如循环展开、内联优化,这小模型推理延迟才200ms以内(单卡A100),团队做CI/CD集成简直白嫖神器。

技术细节干货:Claude 3.5这次依赖扩展思考(Extended Thinking)机制,代码生成时会先拆解子任务链,类似CoT但更结构化;LLM Compiler的亮点是用汇编指令作为tokenizer增强,因此能理解底层IR变化。

建议想搞自动化代码审查或编译器优化的兄弟,赶紧拉这两个模型跑个benchmark,小模型成本低,大模型能力覆盖广,组合拳打得飞起。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表