【AI工具】Sakana Fugu深度评测:一个API调用多个顶级模型,多智能体编排新范式
当单一模型遇到瓶颈,让多个模型协同工作会成为下一个突破口吗?日本AI公司Sakana AI给出了他们的答案。
一、背景:为什么需要多智能体编排?
2026年的AI赛道已经进入白热化阶段。OpenAI的GPT-5.5、Google的Gemini 3.1 Pro、Anthropic的Claude Opus 4.8……各家大模型在各自擅长的领域各领风骚,但没有任何一个模型能在所有任务上做到最优。
更棘手的是,Anthropic的Fable 5和Mythos 5最近遭到美国政府出口管制禁售,让全球开发者和企业开始担忧:过度依赖单一厂商的模型,是否正在成为新的技术风险?
正是在这样的背景下,Sakana AI推出了 Sakana Fugu——一个将多智能体系统封装为单一API的全新产品,试图用"模型编排"而非"模型竞争"来解决问题。
二、Sakana Fugu是什么?
简单来说,Fugu是一个多智能体编排系统,但它对外只暴露一个OpenAI兼容的API。你发送一个请求,Fugu会在后台动态选择、协调多个顶级模型来完成任务,而你只需要和一个端点交互。
它的核心创新在于两点:
1. 动态模型编排,而非预设工作流
传统的多智能体系统通常需要人工设计角色分工和工作流程。Fugu则通过强化学习训练出的"协调器"(Conductor),让系统自己学习如何为每个任务组建最优的模型团队、分配角色、设计通信策略。
这种"自组织"能力意味着Fugu可以处理人根本想不到的协作模式——比如在代码审查中,它可能让模型A负责找逻辑bug,模型B专门检查安全漏洞,模型C做最终的质量把关,而这个组合每次都可能不同。
2. 不绑定单一厂商,规避出口管制风险
Fugu的模型池包含多个厂商的顶级模型(Claude、Gemini、GPT系列等),用户还可以自主选择排除特定厂商或模型以满足合规要求。这意味着:
- 没有单点故障——某个模型被禁或降级,Fugu会自动切换
- 性能天花板更高——多个模型的协作可以超越任何单一模型
- 合规灵活性——数据不出境、排除特定厂商等需求都能满足
三、性能实测:数据说话
Sakana官方公布了一系列严格的基准测试结果,Fugu Ultra(高性能版)在多个关键指标上表现亮眼:
| 基准测试 | Fugu Ultra | GPT-5.5 | Gemini 3.1 Pro | Opus 4.8 | | SWE Bench Pro | 73.7 | 58.6 | 54.2 | 69.2 | | LiveCodeBench | 93.2 | 85.3 | 88.5 | 87.8 | | Humanity's Last Exam | 50.0 | 41.4 | 44.4 | 49.8 | | GPQA-D | 95.5 | 93.6 | 94.3 | 92.0 | | MRCRv2 | 93.6 | 94.8 | 84.9 | 87.9 |
从数据可以看出,Fugu Ultra在软件工程(SWE Bench Pro)、编程(LiveCodeBench)和极限推理(Humanity's Last Exam)上均超越了所有单一模型。虽然在个别测试上略逊于某个对手,但综合表现确实达到了"前沿级别"。
四、真实场景案例
官方展示了几个很有说服力的定性案例:
1. 自主ML研究
给定一个"改进小型GPT训练配方"的任务,Fugu Ultra自主运行了14小时、完成123次实验,在AutoResearch框架下持续优化batch size、模型深度、学习率等参数,最终达到的BPB指标优于所有单一模型基线。
2. 古典日语文献解读
1610年的日本假名书信采用"散书"布局,文字分散在纸面上,连专业学者都难以判断阅读顺序。Fugu Ultra在这个任务上取得了NED 0.80的分数,而其他模型最高仅0.24——差距之大令人惊讶。
3. 盲棋对弈
在不显示棋盘的情况下,Fugu连续击败了3个顶级模型和2100-Elo的Stockfish引擎,全程凭记忆推理,最终都以将杀结束对局。这展示了其在长程上下文保持上的稳定性。
4. 安全评估自动化
一位安全工程师分享:仅凭一个范围定义,Fugu就完成了从信息收集、XSS/SQLi检测、认证审查到报告生成的完整安全评估,且始终保持在指定范围内,没有越界操作。
五、产品形态与定价
Fugu提供两个版本:
- Fugu:标准版,平衡性能与延迟,适合日常编码、代码审查、客服机器人等场景
- Fugu Ultra:高性能版,协调更深度的专家模型池,适合Kaggle竞赛、论文复现、安全分析等高难度任务
定价方面,Fugu Ultra采用固定费率:输入$5/百万token(超长上下文$10),输出$30/百万token(超长$45)。值得注意的是,多模型协作时不叠加收费——无论后台调用了几个模型,只按最高 tier 的单一费率计费。
此外还有月付订阅计划,适合个人开发者日常试用。
六、局限与思考
当然,Fugu并非完美:
- 透明度问题:Fugu不会告诉用户具体调用了哪些模型完成某个任务,这对需要审计和可解释性的企业场景可能是个障碍
- EU/EEA不可用:目前因GDPR合规问题尚未在欧盟上线
- 延迟考量:多模型协调必然带来额外延迟,虽然标准版做了优化,但对实时性要求极高的场景仍需谨慎评估
- 定价门槛:Ultra版$30的输出定价对高频调用场景不算便宜
七、总结:AI基础设施的新方向?
Sakana Fugu的出现,标志着AI行业可能正在从"模型竞争"转向"模型编排"的新阶段。它的核心洞察很朴素:与其赌哪个单一模型最好,不如让多个模型各展所长、协同作战。
对于开发者来说,这意味着:
- 不再需要为不同任务切换不同API
- 不再担心某个模型被禁或服务质量下降
- 可以用一个统一的接口获得超越任何单一模型的性能
如果多智能体编排成为主流,那么未来的AI基础设施可能不再是"选哪个模型",而是"如何编排模型"。Sakana Fugu在这个方向上迈出了重要一步,值得所有AI从业者关注。
讨论话题:
- 你看好多智能体编排这种模式吗?还是觉得单一模型的进步会更快?
- 如果Fugu这类产品普及,对大模型厂商的格局会有什么影响?
- 你最想用这个API做什么类型的项目?
本文基于Sakana AI官方技术报告、The Verge等公开信息整理,数据截至2026年6月23日。 |