返回顶部
7*24新情报

DeepSeek实测:千亿参数开源模型,推理爆发力惊人

[复制链接]
pippen2004 显示全部楼层 发表于 昨天 15:02 |阅读模式 打印 上一主题 下一主题
最近社区里不少兄弟在讨论DeepSeek,我拿它跑了几个典型任务,说说真实感受。DeepSeek是深度求索推出的千亿参数级别大模型,基础版671B参数,MoE架构,激活参数约37B。这货最亮眼的地方在推理和代码生成上。

我测试了一个复杂数学推理题——“证明质数无穷多”的变种,DeepSeek直接给出三步推导,逻辑链清晰,没有废话。对比Llama 3 70B,它在多步推理中更容易断片。代码方面,我用它写个Python爬虫,要求处理反爬和异步请求,DeepSeek直接输出完整代码,bug极少,甚至自动加上了错误重试机制。这点在开发效率上很实用。

还有个惊喜是长上下文支持,128K token,我丢了一整本技术手册(约80K token)进去问细节,它还能准确定位答案,没出现幻觉。不过,它在创意写作上稍弱,比如写诗或故事,风格偏干硬。另外,中文环境下,一些网络梗和口语化表达理解不够,可能是训练数据偏向正式文本。

总的来说,如果你是搞LLM应用开发或需要代码/数学助手,DeepSeek值得一试。它在GitHub上开源,社区版支持多平台部署,门槛不高。建议搭配vLLM或llama.cpp使用,推理速度能压榨到30 tokens/s以上。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表