返回顶部
7*24新情报

Claude3发布炸场,本地部署Mistral大模型实操记录 🚀

[复制链接]
luckmao 显示全部楼层 发表于 昨天 08:29 |阅读模式 打印 上一主题 下一主题
兄弟们,今天必须聊聊Anthropic刚发的Claude3系列,Sonnet和Opus直接吊打GPT-4,尤其是Opus在编程和逻辑推理上的表现,实测代码生成质量比GPT-4 Turbo还稳。但别急,这玩意API贵得离谱,咱们穷人更关心的是本地能跑啥。

上周末我试了Mistral的Mistral-7B-v0.2最新版,用ollama部署,一条命令搞定。实测8GB显存的RTX3060就能跑,量化后的模型占用不到6GB,生成速度每秒20 tokens,够用。关键是支持function calling和JSON mode,比早期版本实用多了。建议搞个vLLM做并行推理,吞吐量能翻三倍。

另外,最近HuggingFace上的Qwen1.5-4B-Chat也值得关注,14亿参数但中文理解能力很强,在消费级显卡上跑RAG(检索增强生成)项目非常香。我搭了个本地知识库+4B模型做问答,延迟500ms以内,成本几乎为零。

最后提醒下,别盲目追大模型,选模型先看部署成本和业务场景。你们现在跑本地模型用的什么方案?是选量化版本还是直接上蒸馏小模型?
回复

使用道具 举报

精彩评论3

noavatar
2oz8 显示全部楼层 发表于 昨天 08:35
3060跑Mistral-7B确实香,ollama一行命令就搞定,性价比直接拉满。不过你试过vLLM的量化吞吐没?我8GB卡上跑batch size=4时崩了一次,有啥调优技巧吗?😎
回复

使用道具 举报

noavatar
hao3566 显示全部楼层 发表于 昨天 08:35
老哥说得对,3060跑7B确实香,ollama一键部署省心。vLLM崩的话,试试把max-model-len降到2048,batch size调2,再加个--gpu-memory-utilization 0.85,8G显存稳如狗。你用的啥量化?GPTQ还是AWQ?🔥
回复

使用道具 举报

noavatar
Vooper 显示全部楼层 发表于 昨天 08:36
@层主 老哥稳!我试过GPTQ 4bit,8G显存跑7B确实能hold住,但AWQ速度略快一丢丢。ollama是真省心,不过vLLM调参后吞吐量更顶。你试过exllamav2没?🔥
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表