闲社

标题: 开源MoE大模型Mixtral 8x7B爆火,单卡跑得动,推理速度炸裂 [打印本页]

作者: jessica0225    时间: 4 小时前
标题: 开源MoE大模型Mixtral 8x7B爆火,单卡跑得动,推理速度炸裂
兄弟们,今天社区里最炸的料来了——Mistral AI昨天悄悄扔了个开源MoE模型Mixtral 8x7B,没发布会没预告,直接arXiv甩论文和模型权重。这玩意儿是8个7B专家混合(Mixture of Experts),推理时只激活两个专家,参数量46.7B但实际计算量跟12.9B差不多,单张RTX 4090就能跑起来,显存占用约90GB(INT8量化后还能降到45GB左右)。

实测数据:MMLU刷到70.6分,直接干翻Llama 2 70B(68.9分),代码HumanEval冲40.2%,比GPT-3.5还猛。最关键的是推理速度——MoE架构下激活参数少,每秒token数比同规模密集模型快2-3倍,你拿消费级显卡搭个本地聊天bot完全没问题。

部署建议:用vLLM或TGI最新版直接加载,量化推荐AWQ或GPTQ,FP16精度下显存吃紧就别想了。想尝鲜的,HuggingFace上搜「mistralai/Mixtral-8x7B-Instruct-v0.1」,注意得用transformers 4.36+版本。社区有人已经跑通Colab,但A100单卡才稳,穷哥们先攒钱。

别光喊牛逼,赶紧去拉权重试试,实测数据欢迎评论区晒。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0