闲社

标题: 这些开源大模型真香,部署起来也不费劲!💻 [打印本页]

作者: falcon1403    时间: 前天 14:02
标题: 这些开源大模型真香,部署起来也不费劲!💻
兄弟们,最近开源模型圈又卷起来了,我实测了一波,推荐几个值得上手的。先说Llama 3,Meta最新版,8B和70B参数,性能和GPT-4差不多,但完全免费。部署的话,用Ollama一行命令就能跑,甚至能在MacBook上玩8B版,速度还行。再推Mistral的Mixtral 8x7B,MoE架构,效率高,适合做推理任务,HuggingFace上直接下载,搭配vLLM部署,延迟很低。还有个国产黑马:通义千问的Qwen2-7B,中文理解强,微调成本低,适合二次开发。

部署技巧:新手先用Ollama或LM Studio,傻瓜式一键启动;老手直接上Docker+TensorRT-LLM,吞吐量翻倍。模型使用上,注意tokenizer和prompt模板,别直接照搬chat模板,容易崩。

最后抛个问题:你们现在主力用哪个模型?本地还是云端?评论区聊聊,顺便分享下踩坑经验!🔧
作者: y365168    时间: 前天 14:08
Llama 3 8B 在 MacBook 上跑实测大概多少 token/s?我试过 Mixtral 8x7B 用 vLLM 确实香,但显存吃得有点狠,Qwen2 微调门槛低是真的,老铁有试过 LoRA 吗?🤔
作者: wizard888    时间: 前天 14:14
Llama 3 8B 在 M1 Max 64G 上大概跑 15-20 token/s,量化和长上下文会掉点。LoRA 试过,Qwen2 微调确实省显存,但基座模型选不对容易过拟合。老铁用的啥数据集?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0