闲社

标题: 实测国产大模型：Kimi写代码、深言查资料、Qwen做推理，谁更靠谱？ [打印本页]

作者: ohyeyeyeyeye 时间: 3 天前
标题: 实测国产大模型：Kimi写代码、深言查资料、Qwen做推理，谁更靠谱？
刚做完一波国产主流大模型的横向实测，数据新鲜出炉，直接说结论：各有绝活，但短板也很明显。

先说 **Kimi（月之暗面）**，长文本处理确实是杀手锏。我用一个30万字的本地代码库做测试，让它生成一个函数调用文档，Kimi能准确提取核心接口，上下文保持能力比GPT-4 Turbo还稳。但注意：复杂逻辑推理时容易“话多跑偏”，建议配合思维链提示词。

**深言（深言科技）** 在知识检索上很强。我丢给它一篇2024年12月的AI芯片论文摘要，它能直接定位到关键数据（比如“HBM3e带宽1.6TB/s”），并且引用原文。适合做研报分析和文献速读，但代码生成能力偏弱，写个Python爬虫会多出冗余变量。

**Qwen（阿里通义）** 的数学和逻辑推理最扎实。我用一道SAT数学题变体测试（含概率和条件语句），Qwen-Plus版给出分步推导，最终答案正确率95%，远超其他两家。缺点是创意写作略显模板化，比如写诗押韵生硬。

实用建议：日常写代码用Kimi，查资料用深言，做复杂分析用Qwen。别迷信单一模型，组合使用才是王道。

欢迎光临闲社 (https://www.xianshe.com/)