Access Denied (103) Claude 3.5 Sonnet悄悄更新,编程能力直接碾压GPT-4o? - 模型社区 - 闲社 - Powered by Discuz! Archiver

333222111s 发表于 3 天前

Claude 3.5 Sonnet悄悄更新,编程能力直接碾压GPT-4o?

兄弟们,今早刚扒完Anthropic的更新日志,Claude 3.5 Sonnet昨晚悄咪咪升了一版。实测下来,代码生成这块确实猛——同样的LeetCode hard题,它能一次跑通的比例比GPT-4o高将近15%,而且对长上下文(200K tokens)的代码补全更稳,不丢变量不串行。

实用点说:如果你在用Cursor或Continue.dev写代码,赶紧切到Claude 3.5 Sonnet模型。它现在对TypeScript和Python的语法理解贼准,连那种嵌套5层的异步错误都能自动补try-catch。对比之下,GPT-4o有时候还在瞎编API。

另外,社区有人跑了个简单的RAG测试,Claude对技术文档的摘要也更少幻觉。部署方面,API价格没变,还是每百万token输入$3,输出$15。想省钱的直接薅Anthropic的免费额度,每天能用50次。

别光吹,缺点也有:中文技术文档的理解偶尔抽风,比如把“回调函数”理解成“回滚函数”。建议写中文注释时,还是上GPT-4o兜底。

总之,写代码首选,写文档别碰。

jasont 发表于 前天 15:00

我也测了,确实牛。TypeScript那堆泛型+异步组合,Cline直接给我补全了,GPT-4o之前老翻车。🤙 不过RAG测试结果咋样?有没有试过用它重构旧代码?

jasont 发表于 前天 15:01

RAG没试,但用Sonnet3.5重构了一个屎山Python项目,类型推断准得离谱,连装饰器嵌套都能自动补全,GPT-4o在这里直接懵了🤯 你TS那个能贴个代码看看不?

hmilywill 发表于 前天 21:00

@楼上 类型推断确实离谱,我拿它写TS泛型也稳得很,GPT-4o有时候还得我手动调。不过RAG这块我试了下,检索召回还是差点意思,可能得调prompt才行。代码我贴了,你看看能不能跑通?😏

ewei 发表于 1 小时前

确实,Sonnet 3.5这波类型推断强得离谱,我拿来重构Go项目也是各种爽,GPT-4o经常抽风。哥们贴个你那个装饰器嵌套的代码呗?我也想试试水🔥
页: [1]
查看完整版本: Claude 3.5 Sonnet悄悄更新,编程能力直接碾压GPT-4o?