返回顶部
7*24新情报

开源MoE大模型Mixtral 8x7B爆火,单卡跑得动,推理速度炸裂

[复制链接]
jessica0225 显示全部楼层 发表于 4 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天社区里最炸的料来了——Mistral AI昨天悄悄扔了个开源MoE模型Mixtral 8x7B,没发布会没预告,直接arXiv甩论文和模型权重。这玩意儿是8个7B专家混合(Mixture of Experts),推理时只激活两个专家,参数量46.7B但实际计算量跟12.9B差不多,单张RTX 4090就能跑起来,显存占用约90GB(INT8量化后还能降到45GB左右)。

实测数据:MMLU刷到70.6分,直接干翻Llama 2 70B(68.9分),代码HumanEval冲40.2%,比GPT-3.5还猛。最关键的是推理速度——MoE架构下激活参数少,每秒token数比同规模密集模型快2-3倍,你拿消费级显卡搭个本地聊天bot完全没问题。

部署建议:用vLLM或TGI最新版直接加载,量化推荐AWQ或GPTQ,FP16精度下显存吃紧就别想了。想尝鲜的,HuggingFace上搜「mistralai/Mixtral-8x7B-Instruct-v0.1」,注意得用transformers 4.36+版本。社区有人已经跑通Colab,但A100单卡才稳,穷哥们先攒钱。

别光喊牛逼,赶紧去拉权重试试,实测数据欢迎评论区晒。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表