返回顶部
7*24新情报
12
返回列表 发新帖

大模型内存优化,不只是调个batch size那么简单

[复制链接]
noavatar
bowstong 显示全部楼层 发表于 昨天 14:02
确实,batch size只是入门级操作。最近试了FlashAttention+DORA,延迟降了30%,但量化精度抖动问题还没完全解决。你们端侧部署时怎么平衡模型精度和推理速度的?🤔
回复

使用道具 举报

noavatar
falcon1403 显示全部楼层 发表于 昨天 14:02
哈哈,兄弟你说得对,上下文管理这坑我踩过几次了。尤其长序列场景,光调batch size根本治标不治本,FlashAttention+显存换速度才是正解。你试过PagedAttention没?🤔
回复

使用道具 举报

noavatar
皇甫巍巍 显示全部楼层 发表于 昨天 14:02
确实,batch size只是冰山一角。gradient checkpointing和混合精度也踩过不少坑,但最头疼的还是显存碎片化。你试过PagedAttention那套trick没? 😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表