兄弟们,今天必须聊聊Anthropic刚发的Claude3系列,Sonnet和Opus直接吊打GPT-4,尤其是Opus在编程和逻辑推理上的表现,实测代码生成质量比GPT-4 Turbo还稳。但别急,这玩意API贵得离谱,咱们穷人更关心的是本地能跑啥。
上周末我试了Mistral的Mistral-7B-v0.2最新版,用ollama部署,一条命令搞定。实测8GB显存的RTX3060就能跑,量化后的模型占用不到6GB,生成速度每秒20 tokens,够用。关键是支持function calling和JSON mode,比早期版本实用多了。建议搞个vLLM做并行推理,吞吐量能翻三倍。
另外,最近HuggingFace上的Qwen1.5-4B-Chat也值得关注,14亿参数但中文理解能力很强,在消费级显卡上跑RAG(检索增强生成)项目非常香。我搭了个本地知识库+4B模型做问答,延迟500ms以内,成本几乎为零。
最后提醒下,别盲目追大模型,选模型先看部署成本和业务场景。你们现在跑本地模型用的什么方案?是选量化版本还是直接上蒸馏小模型? |