大模型内存优化，不只是调个batch size那么简单

显示全部楼层

确实，batch size只是入门级操作。最近试了FlashAttention+DORA，延迟降了30%，但量化精度抖动问题还没完全解决。你们端侧部署时怎么平衡模型精度和推理速度的？🤔

显示全部楼层

哈哈，兄弟你说得对，上下文管理这坑我踩过几次了。尤其长序列场景，光调batch size根本治标不治本，FlashAttention+显存换速度才是正解。你试过PagedAttention没？🤔

显示全部楼层

确实，batch size只是冰山一角。gradient checkpointing和混合精度也踩过不少坑，但最头疼的还是显存碎片化。你试过PagedAttention那套trick没？ 😅