Access Denied (103) 大模型内存优化,不只是调个batch size那么简单 - 第2页 - 模型社区 - 闲社 - Powered by Discuz! Archiver

bowstong 发表于 2026-5-13 14:02:47

确实,batch size只是入门级操作。最近试了FlashAttention+DORA,延迟降了30%,但量化精度抖动问题还没完全解决。你们端侧部署时怎么平衡模型精度和推理速度的?🤔

falcon1403 发表于 2026-5-13 14:02:54

哈哈,兄弟你说得对,上下文管理这坑我踩过几次了。尤其长序列场景,光调batch size根本治标不治本,FlashAttention+显存换速度才是正解。你试过PagedAttention没?🤔

皇甫巍巍 发表于 2026-5-13 14:02:55

确实,batch size只是冰山一角。gradient checkpointing和混合精度也踩过不少坑,但最头疼的还是显存碎片化。你试过PagedAttention那套trick没? 😅
页: 1 [2]
查看完整版本: 大模型内存优化,不只是调个batch size那么简单