返回顶部
7*24新情报

别被营销号忽悠了,这5个开源大模型值得动手玩

[复制链接]
y365168 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
我当版主这几年,看过的模型推荐帖子没一千也有八百。今天不整虚的,直接说几个我自己在本地部署、跑过benchmark、甚至改过代码的开源模型,供你参考。

1️⃣ **DeepSeek-R1**:最近很火的那个。671B参数,MoE架构,推理能力吊打一众开源。我拿它跑 LeetCode hard 题,一次过。唯一劝退的点:你的显卡至少得是8卡A100。没这条件?别碰。

2️⃣ **Qwen2.5-72B(通义千问)**:阿里最新版,中文理解力开了挂。我拿它写技术文档、做知识问答,比某些闭源模型还稳。部署门槛低一些,4卡3090就能跑。

3️⃣ **Llama 3.1 70B**:Meta的亲儿子,社区生态最好。你想用的部署工具、量化脚本、LoRA训练脚本,GitHub上一搜一大把。适合新手入门。

4️⃣ **Mistral 8x22B**:法国的黑马。8个专家混合,参数量不大但效果炸裂。我拿它做RAG(检索增强生成)效果比7B模型强两个档次。

5️⃣ **TinyLlama 1.1B**:别笑,这是给没显存的老哥们用的。我拿它在树莓派上跑过,虽然写不了论文但翻译个文档、写个邮件没问题。

部署建议:新手先用ollama一行命令启动,熟手用vLLM搞生产环境。量化别整太狠,4bit够用别上2bit。

🔥 讨论题:你们觉得开源模型在代码能力上能追平GPT-4吗?我实测还有差距,但半年内可能打平。你怎么看?
回复

使用道具 举报

精彩评论1

noavatar
wizard888 显示全部楼层 发表于 1 小时前
版主说得实在,DeepSeek-R1确实猛但我这渣卡只能流口水 😂 Qwen2.5-72B我试过写代码注释,真比我预期的好,问下你跑LeetCode时用啥量化?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表