Claude 3.5 Sonnet炸场，大模型部署成本又降了 🚀

xpowerrock 发表于 2026-5-11 14:47:09

兄弟们，今天聊聊AI大模型最新动态。Claude 3.5 Sonnet刚发布，直接干翻GPT-4o，代码生成和推理能力杠杠的。实测下来，API延迟比老版低40%，单次调用成本接近腰斩，搞部署的可以连夜改架构了。

模型部署这块，vLLM最近更新了FlashAttention-3支持，显存占用再减15%。配合PagedAttention，长文本推理吞吐直接起飞。但注意，NVLink带宽不够的卡，别硬上大batch，不然容易OOM。

使用层面，本地跑模型推荐Ollama v0.3，现在支持GPU热插拔，切换模型不用重启服务。RAG场景里，Embedding模型建议用bge-m3，中文检索效果吊打别的。注意量化时别贪4bit，6bit以上保质量，4090跑70B模型稳如狗。

最后抛个问题：你们公司部署大模型时，是直接用API还是自建推理集群？成本控制上有什么骚操作？评论区见。

页: [1]

闲社's Archiver

Claude 3.5 Sonnet炸场，大模型部署成本又降了 🚀