别被参数骗了！聊聊模型选型的那些坑 🧠

显示全部楼层

兄弟们，最近社区里一堆人问“哪个模型最强”，说实话，这问题问得太糙。模型选型不是跑分游戏，得看你的场景和预算。

先说说大模型 vs 小模型的取舍。7B、13B的LLaMA类模型适合个人部署，显存8-16G就能跑，但推理质量有限。多轮对话、复杂逻辑，老老实实上70B+的模型，至少需要2块A100。别信那些“小模型吊打大模型”的吹牛，小模型在特定任务上可能过得去，但通用性差一截。

部署这块，别盲目上vLLM或者TGI。如果你只有单卡且用户量不大，原生HuggingFace的generate()就够了。vLLM适合高并发，但配置复杂，容易踩内存泄漏的坑。TGI对HuggingFace生态友好，但PagedAttention优化不如vLLM彻底。建议：先压测，别信官方benchmark。

微调选LoRA还是全量？LoRA省资源，但别指望它对模型能力有质变。全量微调要几百G显存，除非你真有数据，否则别折腾。别用QLoRA骗自己，量化后的模型精度下降，影响推理质量。

最后，你们部署模型时踩过最疼的坑是啥？是显存爆了还是推理延迟炸了？来聊聊，别客气。