闲社

标题: 【AI工具】Sakana Fugu深度评测:一个API调用多个顶级模型,多智能体编排新范式 [打印本页]

作者: 大海全是水    时间: 3 天前
标题: 【AI工具】Sakana Fugu深度评测:一个API调用多个顶级模型,多智能体编排新范式
【AI工具】Sakana Fugu深度评测:一个API调用多个顶级模型,多智能体编排新范式
当单一模型遇到瓶颈,让多个模型协同工作会成为下一个突破口吗?日本AI公司Sakana AI给出了他们的答案。

一、背景:为什么需要多智能体编排?

2026年的AI赛道已经进入白热化阶段。OpenAI的GPT-5.5、Google的Gemini 3.1 Pro、Anthropic的Claude Opus 4.8……各家大模型在各自擅长的领域各领风骚,但没有任何一个模型能在所有任务上做到最优。

更棘手的是,Anthropic的Fable 5和Mythos 5最近遭到美国政府出口管制禁售,让全球开发者和企业开始担忧:过度依赖单一厂商的模型,是否正在成为新的技术风险?

正是在这样的背景下,Sakana AI推出了 Sakana Fugu——一个将多智能体系统封装为单一API的全新产品,试图用"模型编排"而非"模型竞争"来解决问题。

二、Sakana Fugu是什么?

简单来说,Fugu是一个多智能体编排系统,但它对外只暴露一个OpenAI兼容的API。你发送一个请求,Fugu会在后台动态选择、协调多个顶级模型来完成任务,而你只需要和一个端点交互。

它的核心创新在于两点:

1. 动态模型编排,而非预设工作流

传统的多智能体系统通常需要人工设计角色分工和工作流程。Fugu则通过强化学习训练出的"协调器"(Conductor),让系统自己学习如何为每个任务组建最优的模型团队、分配角色、设计通信策略。

这种"自组织"能力意味着Fugu可以处理人根本想不到的协作模式——比如在代码审查中,它可能让模型A负责找逻辑bug,模型B专门检查安全漏洞,模型C做最终的质量把关,而这个组合每次都可能不同。

2. 不绑定单一厂商,规避出口管制风险

Fugu的模型池包含多个厂商的顶级模型(Claude、Gemini、GPT系列等),用户还可以自主选择排除特定厂商或模型以满足合规要求。这意味着:



三、性能实测:数据说话

Sakana官方公布了一系列严格的基准测试结果,Fugu Ultra(高性能版)在多个关键指标上表现亮眼:

基准测试Fugu UltraGPT-5.5Gemini 3.1 ProOpus 4.8
SWE Bench Pro73.758.654.269.2
LiveCodeBench93.285.388.587.8
Humanity's Last Exam50.041.444.449.8
GPQA-D95.593.694.392.0
MRCRv293.694.884.987.9


从数据可以看出,Fugu Ultra在软件工程(SWE Bench Pro)、编程(LiveCodeBench)和极限推理(Humanity's Last Exam)上均超越了所有单一模型。虽然在个别测试上略逊于某个对手,但综合表现确实达到了"前沿级别"。

四、真实场景案例

官方展示了几个很有说服力的定性案例:

1. 自主ML研究

给定一个"改进小型GPT训练配方"的任务,Fugu Ultra自主运行了14小时、完成123次实验,在AutoResearch框架下持续优化batch size、模型深度、学习率等参数,最终达到的BPB指标优于所有单一模型基线。

2. 古典日语文献解读

1610年的日本假名书信采用"散书"布局,文字分散在纸面上,连专业学者都难以判断阅读顺序。Fugu Ultra在这个任务上取得了NED 0.80的分数,而其他模型最高仅0.24——差距之大令人惊讶。

3. 盲棋对弈

在不显示棋盘的情况下,Fugu连续击败了3个顶级模型和2100-Elo的Stockfish引擎,全程凭记忆推理,最终都以将杀结束对局。这展示了其在长程上下文保持上的稳定性。

4. 安全评估自动化

一位安全工程师分享:仅凭一个范围定义,Fugu就完成了从信息收集、XSS/SQLi检测、认证审查到报告生成的完整安全评估,且始终保持在指定范围内,没有越界操作。

五、产品形态与定价

Fugu提供两个版本:



定价方面,Fugu Ultra采用固定费率:输入$5/百万token(超长上下文$10),输出$30/百万token(超长$45)。值得注意的是,多模型协作时不叠加收费——无论后台调用了几个模型,只按最高 tier 的单一费率计费。

此外还有月付订阅计划,适合个人开发者日常试用。

六、局限与思考

当然,Fugu并非完美:



七、总结:AI基础设施的新方向?

Sakana Fugu的出现,标志着AI行业可能正在从"模型竞争"转向"模型编排"的新阶段。它的核心洞察很朴素:与其赌哪个单一模型最好,不如让多个模型各展所长、协同作战。

对于开发者来说,这意味着:



如果多智能体编排成为主流,那么未来的AI基础设施可能不再是"选哪个模型",而是"如何编排模型"。Sakana Fugu在这个方向上迈出了重要一步,值得所有AI从业者关注。

讨论话题:



本文基于Sakana AI官方技术报告、The Verge等公开信息整理,数据截至2026年6月23日。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0