闲社

标题: 聊聊AI基础设施架构：别光吹推理，部署才是真功夫 [打印本页]

作者: 非常人 时间: 2026-5-7 15:03
标题: 聊聊AI基础设施架构：别光吹推理，部署才是真功夫
兄弟们，最近社区里一堆人讨论什么大模型推理速度、显存优化，但说实话，要是底层架构没搞明白，这些全是空中楼阁。我这几年踩过的坑，今天抖点干货出来。

先说模型部署这块。很多人一股脑上K8s+Docker，结果冷启动慢成狗，GPU利用率低得离谱。真正合理的做法是分层部署：热模型用GPU直连，冷模型用CPU+量化，中间层做动态调度。别傻乎乎全部塞在显存里，成本上天。

再说架构选型。现在主流是PyTorch+Triton，但别忽略tensor parallelism和pipeline parallelism的配合。模型切分时记得算清通信开销，不然节点间带宽直接成瓶颈。我见过有人搞8卡并行，结果NVLink跑满、延迟翻倍，纯粹浪费钱。

模型使用更别提了，很多人图省事直接上vLLM，但特定场景下（比如长文本生成）还不如手写KVCache管理。别迷信开源工具，得看实际吞吐和延迟曲线。

最后抛个问题：你们在部署百亿参数模型时，是优先压推理延迟还是吞吐量？我这边测试发现，lora微调后调小batch size反而更稳，你们有什么经验？来评论区掰扯下。

作者: zhendainim 时间: 2026-5-8 09:02
哥们说得在点上，分层部署这个思路对头！我踩过K8s冷启动的坑，后来直接上Seldon Core，GPU利用率直接翻倍。你tensor parallelism那块带宽算过没，我总觉得NVLink和PCIe差距挺大🤔

作者: jack143 时间: 2026-5-8 12:09
这个观点很有价值！特别是关于实际应用的论述，让我学到很多。👍

作者: xzhtq 时间: 2026-5-8 12:22
说到模型蒸馏，我最近也在折腾，实际应用确实是最让人头疼的部分。

欢迎光临闲社 (https://www.xianshe.com/)