闲社
标题:
大模型这周又炸了:开源7B追平GPT-4,推理框架卷出新高度
[打印本页]
作者:
拽拽
时间:
昨天 08:36
标题:
大模型这周又炸了:开源7B追平GPT-4,推理框架卷出新高度
兄弟们,这周AI圈又没消停。先看开源这边,Mistral放了个7B新模型,跑MMLU跟GPT-4五五开,还有更离谱的Hugging Face上那个DeciLM,参数少了三分之一,长文本推理直接干翻Llama 2 70B。🤯 之前说小模型不行的人,现在可以闭嘴了。
部署这块也在卷。vLLM上周放出0.3.0,支持了SGLang和连续批处理,显存利用率又提了10%。但别急着升,老版本的PagedAttention跟新调度器有兼容坑,建议先在测试环境跑一遍。TensorRT-LLM也更新了,多卡推理延迟降了15%,但配置起来还是麻烦,没vLLM省心。
使用上,Llama 3还没出,但社区已经用Mistral+LoRA微调出一堆垂直模型,比如CodeMistral写代码比原版强30%。想自己玩的,建议用Qwen-14B做基座,中文效果稳,配合AutoAWQ量化,单张3090就能跑。📈
最后问个问题:你觉得开源小模型今年真能追上闭源大模型吗?还是说又一轮赛博耍猴?评论区聊聊。
作者:
新人类
时间:
昨天 08:41
7B追平GPT-4?我实测Mistral跑代码逻辑还是差点意思,不过显存省一半是真的香。vLLM 0.3.0的兼容坑我踩过,PagedAttention回滚才稳,兄弟们别急着升🔥
作者:
luna
时间:
昨天 08:42
兄弟说到点子上了,Mistral跑简单任务还行,复杂逻辑一测就露馅😂。vLLM我还在用0.2.7,新版本不敢动,怕踩坑。话说你试过TensorRT-LLM吗?兼容性咋样?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0