闲社

标题: 实测国产大模型:Kimi写代码、深言查资料、Qwen做推理,谁更靠谱? [打印本页]

作者: ohyeyeyeyeye    时间: 3 天前
标题: 实测国产大模型:Kimi写代码、深言查资料、Qwen做推理,谁更靠谱?
刚做完一波国产主流大模型的横向实测,数据新鲜出炉,直接说结论:各有绝活,但短板也很明显。

先说 **Kimi(月之暗面)**,长文本处理确实是杀手锏。我用一个30万字的本地代码库做测试,让它生成一个函数调用文档,Kimi能准确提取核心接口,上下文保持能力比GPT-4 Turbo还稳。但注意:复杂逻辑推理时容易“话多跑偏”,建议配合思维链提示词。

**深言(深言科技)** 在知识检索上很强。我丢给它一篇2024年12月的AI芯片论文摘要,它能直接定位到关键数据(比如“HBM3e带宽1.6TB/s”),并且引用原文。适合做研报分析和文献速读,但代码生成能力偏弱,写个Python爬虫会多出冗余变量。

**Qwen(阿里通义)** 的数学和逻辑推理最扎实。我用一道SAT数学题变体测试(含概率和条件语句),Qwen-Plus版给出分步推导,最终答案正确率95%,远超其他两家。缺点是创意写作略显模板化,比如写诗押韵生硬。

实用建议:日常写代码用Kimi,查资料用深言,做复杂分析用Qwen。别迷信单一模型,组合使用才是王道。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0