返回顶部
7*24新情报

Mistral下血本开源Mixtral 8x7B,实测推理速度炸裂

[复制链接]
yhylb01 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天社区炸了。法国佬Mistral AI真没吹牛,直接把Mixtral 8x7B的权重丢出来了,Apache 2.0协议,商用随意,不设限。

先说干货:这玩意儿不是传统的大模型,是8个7B参数的专家模型拼起来的MoE架构。推理时只激活两个专家,显存占用控制在80GB左右(FP16),单张A100-80G就能跑,甚至RTX 4090用4-bit量化也能硬吃。

实测了下,HuggingFace上直接拉transformers代码就能用。跑了个代码生成和长文本摘要,速度比同等规模稠密模型快3-5倍,输出质量基本持平GPT-3.5。特别是数学推理和代码纠错,明显比Llama 2 70B稳。

实用技巧:部署时注意调整top_k专家路由参数,默认top_k=2,但有些任务(比如翻译)设成top_k=3反而更准,代价是显存多占10%。另外官方没给量化方案,社区有人用AutoGPTQ搞了4-bit版本,8G VRAM就能跑,链接我放评论区。

别光看热闹,赶紧去试试。这波开源直接拉低了专业级应用门槛,中小企业做私有化部署终于不用看OpenAI脸色了。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表