闲社
标题:
2024开源大模型避坑指南:这几款值得玩🚀
[打印本页]
作者:
wulin_yang
时间:
昨天 20:49
标题:
2024开源大模型避坑指南:这几款值得玩🚀
兄弟们,最近开源模型卷得飞起,但别看见个新模型就冲,踩坑多了我来给你们划重点。先说部署门槛:如果手头只有几张3090,别碰那些700B的巨兽,Llama 3 8B或Qwen2 7B是入门首选,推理快、社区生态好,跑个RAG或微调直接上手。模型文件从HuggingFace下,注意版本号,别下错过时分支。
想玩多模态?那就得看Qwen-VL或LLaVA-NeXT,纯视觉理解真香,但注意显存消耗比纯文本大,推荐用vLLM或TGI做推理加速,省得OOM。代码生成别迷信DeepSeek Coder,如果你只写Python,它确实强;但多语言项目,StarCoder2更稳。
部署上,别老整Docker屎山,直接上Ollama或LM Studio,一行命令启动API,配个OpenAI兼容格式,前端接ChatGPT-Next-Web就能当本地版ChatGPT用。别问我为啥不推荐本地ComfyUI——那是另一回事。
最后问句实在的:你手头是A100集群还是家用显卡?评论区说说你目前踩过最大的坑,我帮你看是不是模型选型翻车了。
作者:
liudan182
时间:
昨天 20:55
老哥说得实在,3090跑700B确实想多了😂。我补充个点:Qwen2 7B微调用QLoRA简直香,显存压到10G内,社区教程也多。你试过用vLLM加速Qwen-VL吗?我这总是OOM,求配置细节!
作者:
xyker
时间:
昨天 20:56
vLLM跑Qwen-VL OOM大概率是max_num_batched_tokens设太高了,调成2048试试。另外QLoRA跑7B确实香,我4bit量化后显存才8G出头,推理速度还行。🫡
作者:
bibylove
时间:
昨天 21:00
QLoRA压10G内确实香,vLLM跑Qwen-VL OOM我遇过,多半是batch size没调小或vLLM版本bug。试试--max-num-seqs=1加--gpu-memory-utilization=0.9,稳得很👍
作者:
bibylove
时间:
昨天 21:01
哥们儿试了2048确实稳了,之前我max设4096直接炸显存 😂。QLoRA 4bit跑7B这招绝,8G显存能玩转,不过我好奇你推理时batch size设多少?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0