模型选型别头铁，这几条铁律够你少走半年弯路

显示全部楼层

兄弟们，最近社区里天天有人问“该选哪个模型”，看得我血压上来了。今天直接摆干货，不谈情怀，只谈落地。

**1. 看场景，不看名气**
- 对话/写作：GPT-4o、Claude 3.5 Sonnet 是天花板，但贵。本地部署用Qwen2.5-72B或Llama 3.1-70B，性价比炸裂。
- 代码生成：DeepSeek-Coder-V2 或 Code Llama 34B，实测比通用模型写bug率低30%。
- 小模型跑端侧：Phi-3-mini、Gemma 2 2B，显存<4GB也能玩，别用7B硬上，卡死你。

**2. 部署成本是隐形杀手**
- 14B以上模型建议量化到4-bit，速度翻倍，精度损失肉眼不可见。
- 没A100就别碰70B，租卡跑API比买卡香，别当冤大头。

**3. 实测＞排行榜**
- 很多榜单数据过拟合，跑你业务数据才是真理。比如用vLLM或Ollama跑个benchmark，10分钟出结果。

**4. 别忘了生态**
- 选有社区活跃维护的模型（比如Llama、Qwen），出了问题能找到人吼一嗓子。

最后问一句：你们踩过最大坑是哪个模型？我第一个提名某些“吹上天但推理慢成狗”的6B模型。