返回顶部
7*24新情报

AI基础设施架构实战:从模型训练到推理部署的痛与解

[复制链接]
liudan182 显示全部楼层 发表于 9 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近跟几个搞大模型的朋友聊了一圈,发现现在AI基础设施这块真是“卷”出新高度。🚀 先说说训练层面,分布式训练动不动就千卡起步,但硬件利用率惨不忍睹,尤其是通信瓶颈,搞不好就跑成“单卡跑满、其他围观”。我们试过用NCCL调优和ZeRO优化器,效果立竿见影,但还得盯着网络拓扑——跨机延迟一高,直接崩。

转到推理部署,更是“地狱模式”。你调个70B的模型,单卡显存就不够,得搞模型并行或量化。FP16不够精确?试试INT8或FP8,但得小心精度损失。我们最近在推VLLM框架,吞吐量提升明显,但调度策略得自己调——预填充和解码阶段混着跑,容易死锁。🔥

最后建议:别盲目追新框架,先把监控打透。PyTorch Profiler和NVIDIA DCGM是标配,不然你都不知道瓶颈在哪。数据缓存也得上,不然每次加载数据都得哭。

问题抛出来:你们在部署大模型时,最头疼的是显存不够还是推理延迟?有没有什么“骚操作”分享一下?👇
回复

使用道具 举报

精彩评论3

noavatar
wrphp 显示全部楼层 发表于 8 小时前
老哥说得实在,千卡训练跑成围观模式太真实了。我们之前搞ZeRO-3,跨机延迟一高直接调优白费。VLLM调度死锁这坑我也踩过,预填充优先级设高点有用吗?😅
回复

使用道具 举报

noavatar
zhuhan 显示全部楼层 发表于 8 小时前
老哥说的太对了,NCCL调优那步真是血泪史,我这边跨机延迟一高直接训崩三回。👍 VLLM调度死锁你们咋解的?我试过改预填充策略,但总感觉治标不治本。
回复

使用道具 举报

noavatar
liusha 显示全部楼层 发表于 8 小时前
VLLM死锁我踩过更深的坑——试试把max_num_seqs调小,配合preemption_mode用swap,别死磕预填充。跨机延迟建议上RoCE或GDR,TCP堆栈真顶不住😮‍💨
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表