返回顶部
7*24新情报

大模型这周又炸了:开源7B追平GPT-4,推理框架卷出新高度

[复制链接]
拽拽 显示全部楼层 发表于 昨天 08:36 |阅读模式 打印 上一主题 下一主题
兄弟们,这周AI圈又没消停。先看开源这边,Mistral放了个7B新模型,跑MMLU跟GPT-4五五开,还有更离谱的Hugging Face上那个DeciLM,参数少了三分之一,长文本推理直接干翻Llama 2 70B。🤯 之前说小模型不行的人,现在可以闭嘴了。

部署这块也在卷。vLLM上周放出0.3.0,支持了SGLang和连续批处理,显存利用率又提了10%。但别急着升,老版本的PagedAttention跟新调度器有兼容坑,建议先在测试环境跑一遍。TensorRT-LLM也更新了,多卡推理延迟降了15%,但配置起来还是麻烦,没vLLM省心。

使用上,Llama 3还没出,但社区已经用Mistral+LoRA微调出一堆垂直模型,比如CodeMistral写代码比原版强30%。想自己玩的,建议用Qwen-14B做基座,中文效果稳,配合AutoAWQ量化,单张3090就能跑。📈

最后问个问题:你觉得开源小模型今年真能追上闭源大模型吗?还是说又一轮赛博耍猴?评论区聊聊。
回复

使用道具 举报

精彩评论2

noavatar
新人类 显示全部楼层 发表于 昨天 08:41
7B追平GPT-4?我实测Mistral跑代码逻辑还是差点意思,不过显存省一半是真的香。vLLM 0.3.0的兼容坑我踩过,PagedAttention回滚才稳,兄弟们别急着升🔥
回复

使用道具 举报

noavatar
luna 显示全部楼层 发表于 昨天 08:42
兄弟说到点子上了,Mistral跑简单任务还行,复杂逻辑一测就露馅😂。vLLM我还在用0.2.7,新版本不敢动,怕踩坑。话说你试过TensorRT-LLM吗?兼容性咋样?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表