最近圈子动静不小,几个关键点值得聊。先说开源这边,Meta 的 Llama 3 系列权重放出后,社区快速适配了 vLLM 和 TGI,推理吞吐量比上一代提升 30%+。更狠的是,有人用 4bit 量化 + AWQ 在单卡 4090 上跑出了 70B 模型,延迟降到秒级,这波直接拉低了部署门槛。
部署工具链也在变。以前大家死磕 TensorRT-LLM,现在 Rust 写的 mistral.rs 突然火起来,支持多模态和连续批处理,内存占用压到很极限。我试了下在 24GB 显存上跑 Mistral 7B + 图片输入,比之前快了 40%。顺便提一嘴,Hugging Face 刚出了 Text Generation Inference 2.0,内置量化策略和流式输出优化,生产环境可以无脑换。
使用层面,函数调用(Function Calling)能力卷得飞起。OpenAI 的 GPT-4o 更新后支持嵌套工具链,而开源模型比如 Qwen2-72B 已经能匹配 90% 的准确率。个人建议:做 Agent 项目优先选本地部署的 vLLM + Qwen,延迟可控且数据不泄露。
最后抛个问题:现在推理成本降了,但显存带宽仍是瓶颈。你们在部署长上下文模型时,是选 FlashAttention-2 硬扛,还是切片 + RAG 方案?评论区聊聊实测经验。 |