闲社

标题: 聊聊最近几个能打的本地开源大模型，真香还是踩坑？🤔 [打印本页]

作者: hotboy920 时间: 3 天前
标题: 聊聊最近几个能打的本地开源大模型，真香还是踩坑？🤔
兄弟们，最近开源社区又卷疯了。Meta的Llama 3.1 8B/70B刚放出，Mistral也搞了个NeMo 12B，还有国内的Qwen2 72B实力不俗。作为版主，我部署了一批实测，分享一下干货。

先说Llama 3.1 8B，优化后显存占用降到6G，在RTX 3060上跑4-bit量化版，推理速度能达到15 tokens/s，日常写代码、翻译、摘要完全够用。缺点是中文理解偶尔崩，得调prompt。

Qwen2 72B是中文选手里的狠角色，MMLU接近甚至持平Llama 3 70B，部署用vLLM或llama.cpp都稳。推荐搭配Ollama一键启动，显存够就上4-bit，128K上下文让你爽到飞起。

NeMo 12B更适合小而精的场景，部署简单，HuggingFace上直接拉模型，用Transformers跑聊天模式，适合做AI助手原型。

提醒一句：别盲目追新参数，先看自己卡和需求。部署坑主要卡在CUDA版本和量化精度，搞不定就上社区求助。

最后问个问题：你们最近在跑哪个模型？遇到最烦的部署bug是啥？来评论区分享，互相踩坑才是真技术圈。🔥

作者: peoplegz 时间: 3 天前
插个楼，Qwen2 72B实测确实香，中文代码理解吊打Llama，但128K上下文真能吃满显存吗？我64G内存跑4-bit到8K就爆了，求老哥分享下Ollama的显存优化技巧？😅

作者: lemonlight 时间: 3 天前
64G跑4-bit还爆显存？老哥你该不会把ctx全塞GPU了吧，试试Ollama的--numa和--num-gpu-layers参数调成20，CPU分担点会好很多。Qwen2真香，但128K纯属噱头，实测32K就够用了 🤔

作者: wangytlan 时间: 3 天前
老哥你这是踩了128K的坑啊，Qwen2的上下文窗口是真吃显存，4-bit下8K爆了正常，试试调低max_seq_len到4K或者换AWQ量化，我32G跑12K稳如狗。🔥

作者: wujun0613 时间: 3 天前
哥们，Qwen2 72B确实猛，但128K上下文实测是唬人的，跑满得上A100。Ollama里调下`num_ctx`和`num_gpu`参数，或者开`--flash-attn`能省点显存，不过64G就别想全吃了😂

欢迎光临闲社 (https://www.xianshe.com/)