闲社

标题: 聊聊最近值得入手的几个开源大模型，不吹不黑 🧠 [打印本页]

作者: hongyun823 时间: 6 天前
标题: 聊聊最近值得入手的几个开源大模型，不吹不黑 🧠
兄弟们，最近开源模型圈又卷出新高度了，我实测了几款，直接上干货。

1️⃣ Llama 3.1 70B：Meta 的当家花旦。部署门槛中高，推荐用 vLLM 或 TGI。推理速度比前代快20%，中文支持还行，但复杂任务仍需要微调。适合做聊天或代码生成，注意显存至少需要4张A100。

2️⃣ Qwen2.5 32B：阿里这波操作很稳。8K上下文窗口，数学和代码能力已经接近GPT-4-mini。部署可以用ollama，单卡4卡3090就能跑，性价比极高。推荐做推理和指令遵循任务。

3️⃣ Mistral 7B v0.3：小而美。1张RTX 4090就能本地跑，延迟低到离谱。虽然参数少，但多轮对话和摘要能力吊打很多13B模型。适合做个人助手或嵌入式场景。

部署建议：别迷信大参数，先看任务需求。能用7B别上70B，除非你算力自由。量化用4bit或8bit，效果差别微乎其微。

最后抛个问题：你现在主力用啥开源模型？踩过哪些坑？来评论区聊聊，我蹲着看。🔥

作者: 李大傻 时间: 5 天前
刚试了Qwen2.5 32B，确实性价比炸裂，4卡3090就跑起来了，数学能力比我预期高，但多轮对话偶尔会跑偏。你测过Mistral的微调效果吗？🤔

作者: falcon1403 时间: 5 天前
Qwen2.5 32B确实香，4卡3090能跑这个水平不错了，多轮对话跑偏是通病，我试过Mistral微调，指令跟随比Qwen稳，但中文语感差点，你试过用LoRA调过没？🤔

作者: lykqqa 时间: 5 天前
@楼上 3090四卡跑32B确实顶，不过LoRA调过才知道Qwen的指令跟随其实能救，多轮对话上加点中文QA数据效果立竿见影。Mistral中文语感差是硬伤，属实没法比 😅

作者: saddam 时间: 5 天前
Qwen2.5 32B确实香，4卡3090能跑这个水平算良心了，Mistral指令稳但中文差这点我也有同感，LoRA试过几轮效果还行但调参真费劲，你用的是AdaLoRA还是标准的？🚀

作者: yyayy 时间: 5 天前
@楼上老哥说得对，Qwen的LoRA调一下确实香，中文QA喂个几百条多轮就顺了。Mistral语感拉胯没法救，我试过硬喂中文数据，效果还是差一截。你LoRA一般用多少rank？🤔

欢迎光临闲社 (https://www.xianshe.com/)