返回顶部
7*24新情报

【AI工具】Sakana Fugu深度评测:一个API调用多个顶级模型,多智能体编排新范式

[复制链接]
大海全是水 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
【AI工具】Sakana Fugu深度评测:一个API调用多个顶级模型,多智能体编排新范式
当单一模型遇到瓶颈,让多个模型协同工作会成为下一个突破口吗?日本AI公司Sakana AI给出了他们的答案。

一、背景:为什么需要多智能体编排?

2026年的AI赛道已经进入白热化阶段。OpenAI的GPT-5.5、Google的Gemini 3.1 Pro、Anthropic的Claude Opus 4.8……各家大模型在各自擅长的领域各领风骚,但没有任何一个模型能在所有任务上做到最优。

更棘手的是,Anthropic的Fable 5和Mythos 5最近遭到美国政府出口管制禁售,让全球开发者和企业开始担忧:过度依赖单一厂商的模型,是否正在成为新的技术风险?

正是在这样的背景下,Sakana AI推出了 Sakana Fugu——一个将多智能体系统封装为单一API的全新产品,试图用"模型编排"而非"模型竞争"来解决问题。

二、Sakana Fugu是什么?

简单来说,Fugu是一个多智能体编排系统,但它对外只暴露一个OpenAI兼容的API。你发送一个请求,Fugu会在后台动态选择、协调多个顶级模型来完成任务,而你只需要和一个端点交互。

它的核心创新在于两点:

1. 动态模型编排,而非预设工作流

传统的多智能体系统通常需要人工设计角色分工和工作流程。Fugu则通过强化学习训练出的"协调器"(Conductor),让系统自己学习如何为每个任务组建最优的模型团队、分配角色、设计通信策略。

这种"自组织"能力意味着Fugu可以处理人根本想不到的协作模式——比如在代码审查中,它可能让模型A负责找逻辑bug,模型B专门检查安全漏洞,模型C做最终的质量把关,而这个组合每次都可能不同。

2. 不绑定单一厂商,规避出口管制风险

Fugu的模型池包含多个厂商的顶级模型(Claude、Gemini、GPT系列等),用户还可以自主选择排除特定厂商或模型以满足合规要求。这意味着:


  • 没有单点故障——某个模型被禁或降级,Fugu会自动切换
  • 性能天花板更高——多个模型的协作可以超越任何单一模型
  • 合规灵活性——数据不出境、排除特定厂商等需求都能满足


三、性能实测:数据说话

Sakana官方公布了一系列严格的基准测试结果,Fugu Ultra(高性能版)在多个关键指标上表现亮眼:

基准测试Fugu UltraGPT-5.5Gemini 3.1 ProOpus 4.8
SWE Bench Pro73.758.654.269.2
LiveCodeBench93.285.388.587.8
Humanity's Last Exam50.041.444.449.8
GPQA-D95.593.694.392.0
MRCRv293.694.884.987.9


从数据可以看出,Fugu Ultra在软件工程(SWE Bench Pro)、编程(LiveCodeBench)和极限推理(Humanity's Last Exam)上均超越了所有单一模型。虽然在个别测试上略逊于某个对手,但综合表现确实达到了"前沿级别"。

四、真实场景案例

官方展示了几个很有说服力的定性案例:

1. 自主ML研究

给定一个"改进小型GPT训练配方"的任务,Fugu Ultra自主运行了14小时、完成123次实验,在AutoResearch框架下持续优化batch size、模型深度、学习率等参数,最终达到的BPB指标优于所有单一模型基线。

2. 古典日语文献解读

1610年的日本假名书信采用"散书"布局,文字分散在纸面上,连专业学者都难以判断阅读顺序。Fugu Ultra在这个任务上取得了NED 0.80的分数,而其他模型最高仅0.24——差距之大令人惊讶。

3. 盲棋对弈

在不显示棋盘的情况下,Fugu连续击败了3个顶级模型和2100-Elo的Stockfish引擎,全程凭记忆推理,最终都以将杀结束对局。这展示了其在长程上下文保持上的稳定性。

4. 安全评估自动化

一位安全工程师分享:仅凭一个范围定义,Fugu就完成了从信息收集、XSS/SQLi检测、认证审查到报告生成的完整安全评估,且始终保持在指定范围内,没有越界操作。

五、产品形态与定价

Fugu提供两个版本:


  • Fugu:标准版,平衡性能与延迟,适合日常编码、代码审查、客服机器人等场景
  • Fugu Ultra:高性能版,协调更深度的专家模型池,适合Kaggle竞赛、论文复现、安全分析等高难度任务


定价方面,Fugu Ultra采用固定费率:输入$5/百万token(超长上下文$10),输出$30/百万token(超长$45)。值得注意的是,多模型协作时不叠加收费——无论后台调用了几个模型,只按最高 tier 的单一费率计费。

此外还有月付订阅计划,适合个人开发者日常试用。

六、局限与思考

当然,Fugu并非完美:


  • 透明度问题:Fugu不会告诉用户具体调用了哪些模型完成某个任务,这对需要审计和可解释性的企业场景可能是个障碍
  • EU/EEA不可用:目前因GDPR合规问题尚未在欧盟上线
  • 延迟考量:多模型协调必然带来额外延迟,虽然标准版做了优化,但对实时性要求极高的场景仍需谨慎评估
  • 定价门槛:Ultra版$30的输出定价对高频调用场景不算便宜


七、总结:AI基础设施的新方向?

Sakana Fugu的出现,标志着AI行业可能正在从"模型竞争"转向"模型编排"的新阶段。它的核心洞察很朴素:与其赌哪个单一模型最好,不如让多个模型各展所长、协同作战。

对于开发者来说,这意味着:


  • 不再需要为不同任务切换不同API
  • 不再担心某个模型被禁或服务质量下降
  • 可以用一个统一的接口获得超越任何单一模型的性能


如果多智能体编排成为主流,那么未来的AI基础设施可能不再是"选哪个模型",而是"如何编排模型"。Sakana Fugu在这个方向上迈出了重要一步,值得所有AI从业者关注。

讨论话题:


  • 你看好多智能体编排这种模式吗?还是觉得单一模型的进步会更快?
  • 如果Fugu这类产品普及,对大模型厂商的格局会有什么影响?
  • 你最想用这个API做什么类型的项目?


本文基于Sakana AI官方技术报告、The Verge等公开信息整理,数据截至2026年6月23日。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表