【AI工具】Sakana Fugu深度评测：一个API调用多个顶级模型，多智能体编排新范式

显示全部楼层

【AI工具】Sakana Fugu深度评测：一个API调用多个顶级模型，多智能体编排新范式

当单一模型遇到瓶颈，让多个模型协同工作会成为下一个突破口吗？日本AI公司Sakana AI给出了他们的答案。

一、背景：为什么需要多智能体编排？

2026年的AI赛道已经进入白热化阶段。OpenAI的GPT-5.5、Google的Gemini 3.1 Pro、Anthropic的Claude Opus 4.8……各家大模型在各自擅长的领域各领风骚，但没有任何一个模型能在所有任务上做到最优。

更棘手的是，Anthropic的Fable 5和Mythos 5最近遭到美国政府出口管制禁售，让全球开发者和企业开始担忧：过度依赖单一厂商的模型，是否正在成为新的技术风险？

正是在这样的背景下，Sakana AI推出了 Sakana Fugu——一个将多智能体系统封装为单一API的全新产品，试图用"模型编排"而非"模型竞争"来解决问题。

二、Sakana Fugu是什么？

简单来说，Fugu是一个多智能体编排系统，但它对外只暴露一个OpenAI兼容的API。你发送一个请求，Fugu会在后台动态选择、协调多个顶级模型来完成任务，而你只需要和一个端点交互。

它的核心创新在于两点：

1. 动态模型编排，而非预设工作流

传统的多智能体系统通常需要人工设计角色分工和工作流程。Fugu则通过强化学习训练出的"协调器"（Conductor），让系统自己学习如何为每个任务组建最优的模型团队、分配角色、设计通信策略。

这种"自组织"能力意味着Fugu可以处理人根本想不到的协作模式——比如在代码审查中，它可能让模型A负责找逻辑bug，模型B专门检查安全漏洞，模型C做最终的质量把关，而这个组合每次都可能不同。

2. 不绑定单一厂商，规避出口管制风险

Fugu的模型池包含多个厂商的顶级模型（Claude、Gemini、GPT系列等），用户还可以自主选择排除特定厂商或模型以满足合规要求。这意味着：

没有单点故障——某个模型被禁或降级，Fugu会自动切换
性能天花板更高——多个模型的协作可以超越任何单一模型
合规灵活性——数据不出境、排除特定厂商等需求都能满足

三、性能实测：数据说话

Sakana官方公布了一系列严格的基准测试结果，Fugu Ultra（高性能版）在多个关键指标上表现亮眼：

基准测试	Fugu Ultra	GPT-5.5	Gemini 3.1 Pro	Opus 4.8
SWE Bench Pro	73.7	58.6	54.2	69.2
LiveCodeBench	93.2	85.3	88.5	87.8
Humanity's Last Exam	50.0	41.4	44.4	49.8
GPQA-D	95.5	93.6	94.3	92.0
MRCRv2	93.6	94.8	84.9	87.9

从数据可以看出，Fugu Ultra在软件工程（SWE Bench Pro）、编程（LiveCodeBench）和极限推理（Humanity's Last Exam）上均超越了所有单一模型。虽然在个别测试上略逊于某个对手，但综合表现确实达到了"前沿级别"。

四、真实场景案例

官方展示了几个很有说服力的定性案例：

1. 自主ML研究

给定一个"改进小型GPT训练配方"的任务，Fugu Ultra自主运行了14小时、完成123次实验，在AutoResearch框架下持续优化batch size、模型深度、学习率等参数，最终达到的BPB指标优于所有单一模型基线。

2. 古典日语文献解读

1610年的日本假名书信采用"散书"布局，文字分散在纸面上，连专业学者都难以判断阅读顺序。Fugu Ultra在这个任务上取得了NED 0.80的分数，而其他模型最高仅0.24——差距之大令人惊讶。

3. 盲棋对弈

在不显示棋盘的情况下，Fugu连续击败了3个顶级模型和2100-Elo的Stockfish引擎，全程凭记忆推理，最终都以将杀结束对局。这展示了其在长程上下文保持上的稳定性。

4. 安全评估自动化

一位安全工程师分享：仅凭一个范围定义，Fugu就完成了从信息收集、XSS/SQLi检测、认证审查到报告生成的完整安全评估，且始终保持在指定范围内，没有越界操作。

五、产品形态与定价

Fugu提供两个版本：

Fugu：标准版，平衡性能与延迟，适合日常编码、代码审查、客服机器人等场景
Fugu Ultra：高性能版，协调更深度的专家模型池，适合Kaggle竞赛、论文复现、安全分析等高难度任务

定价方面，Fugu Ultra采用固定费率：输入$5/百万token（超长上下文$10），输出$30/百万token（超长$45）。值得注意的是，多模型协作时不叠加收费——无论后台调用了几个模型，只按最高 tier 的单一费率计费。

此外还有月付订阅计划，适合个人开发者日常试用。

六、局限与思考

当然，Fugu并非完美：