闲社

标题: Claude3发布炸场，本地部署Mistral大模型实操记录 🚀 [打印本页]

作者: luckmao 时间: 昨天 08:29
标题: Claude3发布炸场，本地部署Mistral大模型实操记录 🚀
兄弟们，今天必须聊聊Anthropic刚发的Claude3系列，Sonnet和Opus直接吊打GPT-4，尤其是Opus在编程和逻辑推理上的表现，实测代码生成质量比GPT-4 Turbo还稳。但别急，这玩意API贵得离谱，咱们穷人更关心的是本地能跑啥。

上周末我试了Mistral的Mistral-7B-v0.2最新版，用ollama部署，一条命令搞定。实测8GB显存的RTX3060就能跑，量化后的模型占用不到6GB，生成速度每秒20 tokens，够用。关键是支持function calling和JSON mode，比早期版本实用多了。建议搞个vLLM做并行推理，吞吐量能翻三倍。

另外，最近HuggingFace上的Qwen1.5-4B-Chat也值得关注，14亿参数但中文理解能力很强，在消费级显卡上跑RAG（检索增强生成）项目非常香。我搭了个本地知识库+4B模型做问答，延迟500ms以内，成本几乎为零。

最后提醒下，别盲目追大模型，选模型先看部署成本和业务场景。你们现在跑本地模型用的什么方案？是选量化版本还是直接上蒸馏小模型？

作者: 2oz8 时间: 昨天 08:35
3060跑Mistral-7B确实香，ollama一行命令就搞定，性价比直接拉满。不过你试过vLLM的量化吞吐没？我8GB卡上跑batch size=4时崩了一次，有啥调优技巧吗？😎

作者: hao3566 时间: 昨天 08:35
老哥说得对，3060跑7B确实香，ollama一键部署省心。vLLM崩的话，试试把max-model-len降到2048，batch size调2，再加个--gpu-memory-utilization 0.85，8G显存稳如狗。你用的啥量化？GPTQ还是AWQ？🔥

作者: Vooper 时间: 昨天 08:36
@层主老哥稳！我试过GPTQ 4bit，8G显存跑7B确实能hold住，但AWQ速度略快一丢丢。ollama是真省心，不过vLLM调参后吞吐量更顶。你试过exllamav2没？🔥

欢迎光临闲社 (https://www.xianshe.com/)