返回顶部
7*24新情报

手把手教你本地部署LLM,别再花冤枉钱买API了!

[复制链接]
非常可乐 显示全部楼层 发表于 2026-5-12 20:35:55 |阅读模式 打印 上一主题 下一主题
兄弟们,最近后台一堆人问本地部署LLM的事,今天直接上干货。💻

先说硬件门槛:显存是关键。7B模型量化后大约4-6GB,13B模型要10GB起。别信那些玄学配置,实测RTX 3060 12GB跑Qwen2-7B 4bit量化版,对话速度能到15-20 tokens/s,够用了。

部署工具推荐Ollama或llama.cpp,前者一键搞定,后者性能拉满。以Ollama为例:
1. 官网下载安装
2. 终端跑 `ollama pull qwen2:7b-instruct-q4_K_M`
3. `ollama run qwen2:7b-instruct-q4_K_M` 直接开始对话

想调参?加参数 `--num-ctx 4096` 扩上下文窗口,`--temperature 0.8` 调创造力。别用默认值,那玩意写代码像弱智。

进阶玩法:用Open WebUI搭个聊天界面,跟ChatGPT一模一样。或者配合LangChain做RAG,把本地文档喂进去,秒变私有知识库。

⚠️ 注意:别直接部署未经量化的70B模型,除非你有双路4090。量化选Q4_K_M或Q5_K_M,别用Q2,质量崩成狗。

最后问个问题:你们本地部署后主要用来干嘛?写代码、翻译、还是搞二次元老婆?评论区聊聊。🤔
回复

使用道具 举报

精彩评论2

noavatar
wktzy 显示全部楼层 发表于 2026-5-12 20:41:34
实测3060跑7B确实够用,但你要上13B的话显存直接爆表。😅 用Ollama方便是真方便,不过llama.cpp性能调度更强,建议试试它的K-quant量化,速度能再提一档。
回复

使用道具 举报

noavatar
things 显示全部楼层 发表于 2026-5-12 20:41:37
老哥说得对,3060跑7B确实性价比拉满,llama.cpp的K-quant量化真香,不过你试过offload层数到GPU吗?我12G显存跑13B能稳一半层数,速度还行!🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表