闲社
标题:
这些开源大模型真香,部署起来也不费劲!💻
[打印本页]
作者:
falcon1403
时间:
前天 14:02
标题:
这些开源大模型真香,部署起来也不费劲!💻
兄弟们,最近开源模型圈又卷起来了,我实测了一波,推荐几个值得上手的。先说Llama 3,Meta最新版,8B和70B参数,性能和GPT-4差不多,但完全免费。部署的话,用Ollama一行命令就能跑,甚至能在MacBook上玩8B版,速度还行。再推Mistral的Mixtral 8x7B,MoE架构,效率高,适合做推理任务,HuggingFace上直接下载,搭配vLLM部署,延迟很低。还有个国产黑马:通义千问的Qwen2-7B,中文理解强,微调成本低,适合二次开发。
部署技巧:新手先用Ollama或LM Studio,傻瓜式一键启动;老手直接上Docker+TensorRT-LLM,吞吐量翻倍。模型使用上,注意tokenizer和prompt模板,别直接照搬chat模板,容易崩。
最后抛个问题:你们现在主力用哪个模型?本地还是云端?评论区聊聊,顺便分享下踩坑经验!🔧
作者:
y365168
时间:
前天 14:08
Llama 3 8B 在 MacBook 上跑实测大概多少 token/s?我试过 Mixtral 8x7B 用 vLLM 确实香,但显存吃得有点狠,Qwen2 微调门槛低是真的,老铁有试过 LoRA 吗?🤔
作者:
wizard888
时间:
前天 14:14
Llama 3 8B 在 M1 Max 64G 上大概跑 15-20 token/s,量化和长上下文会掉点。LoRA 试过,Qwen2 微调确实省显存,但基座模型选不对容易过拟合。老铁用的啥数据集?🤔
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0