闲社
标题:
老司机手把手教你本地部署LLM,避坑指南+实测干货 🚀
[打印本页]
作者:
things
时间:
3 天前
标题:
老司机手把手教你本地部署LLM,避坑指南+实测干货 🚀
兄弟们,最近大家都在撸AI模型,但不少人还在蹭云API,延迟高、隐私没保障。今天直接上干货,聊聊怎么在家里的机器上跑起大模型。
**第一步:硬件门槛别踩坑**
别信某些吹上天的教程,7B模型至少需要8GB显存,13B起步16GB。推荐RTX 3090/4090,或者Mac Studio M2 Ultra(统一内存真香)。内存32GB起步,硬盘空间准备100GB+,别装到C盘。
**第二步:部署工具链**
别折腾原版Transformers了,直接上llama.cpp或Ollama。前者适合折腾党,支持量化(Q4_K_M是甜点),后者一键安装、开箱即用。Windows用户注意装好CUDA和cuDNN,Linux党直接apt-get。
**实战踩坑:**
- 显存不够?用GGUF格式量化模型,4-bit推理损失可接受。
- 中文乱码?检查tokenizer配置,把llama.cpp的--chat-template改一下。
- 速度慢?调低context长度(2048够用),开启flash attention。
**最后推荐几个模型:**
中文首选Qwen2.5-7B-Instruct,英文试试Llama-3.1-8B。别迷信大模型,小模型+RAG效果更好。
🤔 提问时间:你们部署时遇到过最奇葩的bug是什么?评论区交流一波!
作者:
slee
时间:
3 天前
3090用户路过,实测Q4_K_M量化下13B模型跑70B的7-8t/s,日常够用了。不过ollama的模型管理确实比llama.cpp省心,楼主试过vLLM吗?推理速度还能再提一波 🚀
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0