前言
最近GitHub Trending上有个超火的项目 trycua/cua —— 开源的Computer-Use Agent基础设施。简单说,它能让AI像人一样控制你的电脑:打开浏览器、填表单、截图分析、执行操作。今天手把手教你本地部署,零成本体验AI操控桌面的黑科技。
一、前置条件
- macOS 14+(推荐,原生支持)或 Linux/Windows(需Docker)
- 至少16GB内存,推荐32GB
- Python 3.10+
- Docker Desktop(如用Linux/Windows沙箱)
- 一个OpenAI API Key(或其他支持视觉的LLM)
二、核心概念
CUA = Computer Use Agent,它提供三层能力:
- 沙箱层:隔离的macOS/Linux/Windows桌面环境,AI在里面随便折腾不会搞坏你的主机
- SDK层:Python接口,几行代码就能让AI控制桌面
- Benchmark层:标准化测试,评估AI操作电脑的能力
三、步骤1:安装CUA CLI工具
- # 安装cua命令行工具
- pip install cua
- # 验证安装
- cua --version
复制代码
四、步骤2:拉取沙箱镜像
- # 拉取macOS沙箱(推荐,体验最佳)
- cua sandbox pull macos
- # 或拉取Linux沙箱
- cua sandbox pull linux
- # 查看可用镜像
- cua sandbox list
复制代码
沙箱镜像约5-10GB,首次下载需要耐心。
五、步骤3:启动沙箱并运行AI
- # 启动macOS沙箱(后台运行)
- cua sandbox run macos --name my-sandbox
- # 查看运行中的沙箱
- cua sandbox ps
复制代码
沙箱启动后,你会得到一个隔离的macOS桌面环境。
六、步骤4:编写AI控制脚本
创建一个 agent.py:
- import asyncio
- from cua import ComputerAgent, Sandbox
- async def main():
- # 连接沙箱
- sandbox = Sandbox(name="my-sandbox")
- await sandbox.connect()
- # 创建AI Agent,使用GPT-4o
- agent = ComputerAgent(
- model="gpt-4o",
- api_key="你的OpenAI-API-Key",
- sandbox=sandbox
- )
- # 给AI下达任务
- result = await agent.run(
- "打开Safari浏览器,访问github.com,搜索'cua'项目,把第一个结果的标题告诉我"
- )
- print("任务结果:", result)
- await sandbox.disconnect()
- if __name__ == "__main__":
- asyncio.run(main())
复制代码
运行:
你会看到AI自动打开浏览器、搜索、读取页面内容,最后返回结果。全程无需人工干预。
七、步骤5:进阶玩法 — 批量自动化
- # 批量处理Excel表格
- tasks = [
- "打开Numbers,创建新表格,A1输入'产品名',B1输入'销量'"
- "打开计算器,计算 1234 * 5678,把结果复制到剪贴板"
- "打开终端,执行'ls -la',把输出保存到桌面/output.txt"
- ]
- for task in tasks:
- result = await agent.run(task)
- print(f"✅ 完成: {result}")
复制代码
八、常见问题
- Q: 沙箱启动失败?
检查Docker是否运行,内存是否充足。macOS沙箱需要Apple Silicon芯片(M1/M2/M3)。
- Q: API费用贵吗?
GPT-4o视觉模型每次截图分析约$0.005-0.015,一个简单任务通常3-5次截图,成本可控。
- Q: 能控制我的真实电脑吗?
默认是沙箱隔离环境,安全。如需控制真实桌面,需额外配置且风险自负。
- Q: 支持国产大模型吗?
目前官方支持OpenAI,社区有通义千问、Claude的适配方案,可自行替换API端点。
- Q: Windows能用吗?
可以,用Linux沙箱或等官方Windows支持。目前macOS体验最佳。
九、总结
CUA代表了AI Agent的下一个阶段:从聊天对话进化到直接操作。它的意义在于:
- 企业可以自动化重复性桌面操作(报表填写、数据录入)
- 开发者可以测试AI在真实GUI环境中的表现
- 个人可以体验"AI替我打工"的未来场景
项目地址:https://github.com/trycua/cua
部署有问题欢迎在楼下交流,我会持续更新踩坑记录。 |