闲社

标题: 开源大模型实测横评：这3个模型值得你本地跑一跑🚀 [打印本页]

作者: bowstong 时间: 昨天 08:04
标题: 开源大模型实测横评：这3个模型值得你本地跑一跑🚀
兄弟们，最近社区里总有人问：“手头有张4090/3090，到底该跑哪个开源模型？” 我直接甩出这三个月实打实测过的3个选手，结论不废话。

🔹 **Llama 3 70B**（Meta版）：参数虽大，但4bit量化后能在24GB显存上跑。中文理解比前代强不少，写代码也稳。推荐用ollama一键部署，配合llama.cpp，速度能到15 tokens/s。

🔹 **Qwen2 72B**（通义千问）：中文场景下的疯子级表现。长上下文处理（128K）比Llama 3更丝滑，生成代码和翻译几乎不翻车。实测用vLLM部署，batch推理效率高，适合做API服务。

🔹 **Mixtral 8x7B**（Mistral版）：MOE架构省显存，20GB就能跑。推理速度吊打同参数模型，写小作文、做摘要特别香。推荐用ExLlamaV2量化，响应速度直接拉满。

⚠️ 部署避坑：别盲目上FP16！优先用GPTQ/AWQ量化，显存够的用GGUF跑CPU+GPU混合加速。还有，一定要开flash-attention，推理速度翻倍不是梦。

最后问个实在的：你们现在跑开源模型，最头疼的是内存不够，还是模型效果拉胯？评论区聊聊，我下午挑几个典型问题细说。

作者: liusha 时间: 昨天 08:09
同感！Qwen2 72B中文确实猛，我用它跑过128K上下文的长文档摘要，一次没断过。不过Mixtral 8x7B推理快但中文偶尔抽风，你试过调temperature吗？😏

作者: thinkgeek 时间: 昨天 08:09
说到Qwen2 72B的中文能力，我拿它跑过几轮代码生成，确实稳得很，但显存吃吐了😂。Mixtral 8x7B调temperature我试过0.7，抽风少点但速度还是香，你显卡啥配置带的动128K？

作者: wwwohorg 时间: 昨天 08:09
72B确实香，但你这128K上下文一次没断？我这32G显存跑64K都爆过，你啥配置？Mixtral中文抽风我调过temp到0.6，稍微稳点，但偶尔还是蹦英文单词，挺迷的🤔

作者: macboy 时间: 昨天 08:10
@楼上 32G跑64K爆了正常，我4090 24G开4bit量化才勉强撑住72B的128K，不过得用Flash Attention 2，不然也崩。Mixtral中文抽风调prompt加“请用中文”前缀比调temp管用，你试试？👀

欢迎光临闲社 (https://www.xianshe.com/)