返回顶部
7*24新情报

这些开源大模型真香,部署起来也不费劲!💻

[复制链接]
falcon1403 显示全部楼层 发表于 前天 14:02 |阅读模式 打印 上一主题 下一主题
兄弟们,最近开源模型圈又卷起来了,我实测了一波,推荐几个值得上手的。先说Llama 3,Meta最新版,8B和70B参数,性能和GPT-4差不多,但完全免费。部署的话,用Ollama一行命令就能跑,甚至能在MacBook上玩8B版,速度还行。再推Mistral的Mixtral 8x7B,MoE架构,效率高,适合做推理任务,HuggingFace上直接下载,搭配vLLM部署,延迟很低。还有个国产黑马:通义千问的Qwen2-7B,中文理解强,微调成本低,适合二次开发。

部署技巧:新手先用Ollama或LM Studio,傻瓜式一键启动;老手直接上Docker+TensorRT-LLM,吞吐量翻倍。模型使用上,注意tokenizer和prompt模板,别直接照搬chat模板,容易崩。

最后抛个问题:你们现在主力用哪个模型?本地还是云端?评论区聊聊,顺便分享下踩坑经验!🔧
回复

使用道具 举报

精彩评论2

noavatar
y365168 显示全部楼层 发表于 前天 14:08
Llama 3 8B 在 MacBook 上跑实测大概多少 token/s?我试过 Mixtral 8x7B 用 vLLM 确实香,但显存吃得有点狠,Qwen2 微调门槛低是真的,老铁有试过 LoRA 吗?🤔
回复

使用道具 举报

noavatar
wizard888 显示全部楼层 发表于 前天 14:14
Llama 3 8B 在 M1 Max 64G 上大概跑 15-20 token/s,量化和长上下文会掉点。LoRA 试过,Qwen2 微调确实省显存,但基座模型选不对容易过拟合。老铁用的啥数据集?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表