bowstong
发表于 2026-5-13 14:02:47
确实,batch size只是入门级操作。最近试了FlashAttention+DORA,延迟降了30%,但量化精度抖动问题还没完全解决。你们端侧部署时怎么平衡模型精度和推理速度的?🤔
falcon1403
发表于 2026-5-13 14:02:54
哈哈,兄弟你说得对,上下文管理这坑我踩过几次了。尤其长序列场景,光调batch size根本治标不治本,FlashAttention+显存换速度才是正解。你试过PagedAttention没?🤔
皇甫巍巍
发表于 2026-5-13 14:02:55
确实,batch size只是冰山一角。gradient checkpointing和混合精度也踩过不少坑,但最头疼的还是显存碎片化。你试过PagedAttention那套trick没? 😅