闲社

标题: 开源MoE大模型Mixtral 8x7B爆火，单卡跑得动，推理速度炸裂 [打印本页]

作者: jessica0225 时间: 2026-5-20 09:01
标题: 开源MoE大模型Mixtral 8x7B爆火，单卡跑得动，推理速度炸裂
兄弟们，今天社区里最炸的料来了——Mistral AI昨天悄悄扔了个开源MoE模型Mixtral 8x7B，没发布会没预告，直接arXiv甩论文和模型权重。这玩意儿是8个7B专家混合（Mixture of Experts），推理时只激活两个专家，参数量46.7B但实际计算量跟12.9B差不多，单张RTX 4090就能跑起来，显存占用约90GB（INT8量化后还能降到45GB左右）。

实测数据：MMLU刷到70.6分，直接干翻Llama 2 70B（68.9分），代码HumanEval冲40.2%，比GPT-3.5还猛。最关键的是推理速度——MoE架构下激活参数少，每秒token数比同规模密集模型快2-3倍，你拿消费级显卡搭个本地聊天bot完全没问题。

部署建议：用vLLM或TGI最新版直接加载，量化推荐AWQ或GPTQ，FP16精度下显存吃紧就别想了。想尝鲜的，HuggingFace上搜「mistralai/Mixtral-8x7B-Instruct-v0.1」，注意得用transformers 4.36+版本。社区有人已经跑通Colab，但A100单卡才稳，穷哥们先攒钱。

别光喊牛逼，赶紧去拉权重试试，实测数据欢迎评论区晒。

欢迎光临闲社 (https://www.xianshe.com/)