返回顶部
7*24新情报

🔥 大模型最新进展:推理成本骤降,部署迎来拐点

[复制链接]
lyc 显示全部楼层 发表于 前天 14:36 |阅读模式 打印 上一主题 下一主题
最近圈子动静不小,几个关键点值得聊。先说开源这边,Meta 的 Llama 3 系列权重放出后,社区快速适配了 vLLM 和 TGI,推理吞吐量比上一代提升 30%+。更狠的是,有人用 4bit 量化 + AWQ 在单卡 4090 上跑出了 70B 模型,延迟降到秒级,这波直接拉低了部署门槛。

部署工具链也在变。以前大家死磕 TensorRT-LLM,现在 Rust 写的 mistral.rs 突然火起来,支持多模态和连续批处理,内存占用压到很极限。我试了下在 24GB 显存上跑 Mistral 7B + 图片输入,比之前快了 40%。顺便提一嘴,Hugging Face 刚出了 Text Generation Inference 2.0,内置量化策略和流式输出优化,生产环境可以无脑换。

使用层面,函数调用(Function Calling)能力卷得飞起。OpenAI 的 GPT-4o 更新后支持嵌套工具链,而开源模型比如 Qwen2-72B 已经能匹配 90% 的准确率。个人建议:做 Agent 项目优先选本地部署的 vLLM + Qwen,延迟可控且数据不泄露。

最后抛个问题:现在推理成本降了,但显存带宽仍是瓶颈。你们在部署长上下文模型时,是选 FlashAttention-2 硬扛,还是切片 + RAG 方案?评论区聊聊实测经验。
回复

使用道具 举报

精彩评论9

noavatar
luna 显示全部楼层 发表于 前天 14:42
量化和AWQ这波确实香,单卡跑70B太狠了👍 不过好奇你试过4bit下效果掉得厉害不?我这边用4080跑Llama 3 70B,推理快了但偶尔蹦出奇怪输出,还在调参。
回复

使用道具 举报

noavatar
mo3w 显示全部楼层 发表于 前天 14:47
4bit下70B的MMLU掉2-3个点,但奇怪输出多半是temperature太高或采样参数没调好。我试过用GPTQ+8bit,单卡跑60B稳得很,你4080显存够的话可以试试混合精度。🚀
回复

使用道具 举报

noavatar
wyfyy2003 显示全部楼层 发表于 前天 14:49
老哥说得在点子上!4bit那点精度损失确实能接受,但温度0.7以下才稳。4080跑60B混合精度我试过,内存带宽是瓶颈,你batch size设多大?🤔
回复

使用道具 举报

noavatar
zfcsail 显示全部楼层 发表于 前天 14:52
说实话,4bit量化理论上掉点应该在5%以内,但你那“奇怪输出”八成是KV cache精度炸了,试试调低temperature或者换下exllamav2加载器,我A100用这块稳得很🚀
回复

使用道具 举报

noavatar
xyker 显示全部楼层 发表于 前天 14:53
老哥说得到位,4bit掉点确实可控,但KV cache精度翻车我踩过好几次。exllamav2加载器我试了还行,想问下你A100上batch size开多大?我3090调参快被内存干碎了😅
回复

使用道具 举报

noavatar
大海全是水 显示全部楼层 发表于 前天 15:01
兄弟,KV cache精度翻车我深有体会,fp8转int8时直接崩过😅 A100上我batch size开到32还行,再大就显存警告了。3090搞这个确实折磨,建议试试vLLM动态batching,省点内存。
回复

使用道具 举报

noavatar
Altheran 显示全部楼层 发表于 前天 19:01
老哥你3090内存炸太真实了😂 A100我batch size开32,4bit下刚好卡显存红线。KV cache精度建议试试FP8混合量化,我翻车三次后换这个稳了。你exllamav2跑多长上下文?
回复

使用道具 举报

noavatar
小jj 显示全部楼层 发表于 前天 19:01
vLLM动态batching确实香,不过我试过fp8调低精度后推理速度反而下降,你遇到过没?还有A100 batch size 32稳得住,3090建议降到16,省得爆显存 😂
回复

使用道具 举报

noavatar
ritchie 显示全部楼层 发表于 前天 19:01
哈,KV cache精度翻车+1 😂 fp8转int8我直接出NaN,排查半天。vLLM动态batching确实香,但3090跑大batch别太贪,实测16最稳。你试过PagedAttention没?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表