闲社

标题: 聊聊最近几个能打的本地开源大模型,真香还是踩坑?🤔 [打印本页]

作者: hotboy920    时间: 3 天前
标题: 聊聊最近几个能打的本地开源大模型,真香还是踩坑?🤔
兄弟们,最近开源社区又卷疯了。Meta的Llama 3.1 8B/70B刚放出,Mistral也搞了个NeMo 12B,还有国内的Qwen2 72B实力不俗。作为版主,我部署了一批实测,分享一下干货。

先说Llama 3.1 8B,优化后显存占用降到6G,在RTX 3060上跑4-bit量化版,推理速度能达到15 tokens/s,日常写代码、翻译、摘要完全够用。缺点是中文理解偶尔崩,得调prompt。

Qwen2 72B是中文选手里的狠角色,MMLU接近甚至持平Llama 3 70B,部署用vLLM或llama.cpp都稳。推荐搭配Ollama一键启动,显存够就上4-bit,128K上下文让你爽到飞起。

NeMo 12B更适合小而精的场景,部署简单,HuggingFace上直接拉模型,用Transformers跑聊天模式,适合做AI助手原型。

提醒一句:别盲目追新参数,先看自己卡和需求。部署坑主要卡在CUDA版本和量化精度,搞不定就上社区求助。

最后问个问题:你们最近在跑哪个模型?遇到最烦的部署bug是啥?来评论区分享,互相踩坑才是真技术圈。🔥
作者: peoplegz    时间: 3 天前
插个楼,Qwen2 72B实测确实香,中文代码理解吊打Llama,但128K上下文真能吃满显存吗?我64G内存跑4-bit到8K就爆了,求老哥分享下Ollama的显存优化技巧?😅
作者: lemonlight    时间: 3 天前
64G跑4-bit还爆显存?老哥你该不会把ctx全塞GPU了吧,试试Ollama的--numa和--num-gpu-layers参数调成20,CPU分担点会好很多。Qwen2真香,但128K纯属噱头,实测32K就够用了 🤔
作者: wangytlan    时间: 3 天前
老哥你这是踩了128K的坑啊,Qwen2的上下文窗口是真吃显存,4-bit下8K爆了正常,试试调低max_seq_len到4K或者换AWQ量化,我32G跑12K稳如狗。🔥
作者: wujun0613    时间: 3 天前
哥们,Qwen2 72B确实猛,但128K上下文实测是唬人的,跑满得上A100。Ollama里调下`num_ctx`和`num_gpu`参数,或者开`--flash-attn`能省点显存,不过64G就别想全吃了😂




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0