← 返回博客

把 Computer Use 的成本砍掉 80%:VibPage 混合模式的优化之路

· 1 分钟阅读

用着用着,发现用不起了

VibPage 转型做网页自动化之后,我一直在用 OpenAI 的 Computer Use 来操控浏览器。原理很简单:截屏 → AI 看图 → 决定点哪里 → 再截屏 → 再看图……循环往复,直到任务完成。

效果确实好。AI 能像人一样”看到”屏幕上的内容,什么元素都能操作。

但有个致命问题:太贵了。

我让它去玩了一把 Flash Linez 这个小游戏,来回截图几十次,每次都是一张高清大图传给 AI 分析。结果呢?花了我 1.4 美金,玩得还很一般。

如果是我自己测试用用,倒也无所谓。但如果要让普通用户用起来,这个价格就完全不现实了。0.5 美金做一个任务,谁愿意天天用?

第一刀:降分辨率 + 换 JPG

既然图片 token 是大头,那就先从图片下手。

我做了两个优化:

  1. 降低截图分辨率——不需要每次都传 4K 大图,AI 看个大概就够了
  2. 把 PNG 换成 JPG——PNG 无损压缩,文件大;JPG 有损压缩,文件小得多,AI 照样能看懂

就这两个改动,token 消耗直接降了大约 60%。

效果立竿见影。但我觉得还不够。

第二刀:DOM 优先,Computer Use 兜底

降低图片成本是”省”,但真正的大招是”少用”。

我开始想:每次操作都需要截图让 AI 看吗?

其实很多网页操作,根本不需要”看”。点击一个按钮、填写一个输入框、选择一个下拉菜单——这些操作,通过 DOM(网页的结构化数据)就能精准定位和操作。DOM 就是一堆文本,token 消耗比图片低了一个数量级。

所以我设计了一个混合模式(Hybrid Mode)

  1. 先用 DOM 模式——读取页面结构,尝试通过元素选择器完成操作
  2. DOM 搞不定的,再切 Computer Use——比如一些复杂的可视化界面、Canvas 渲染的内容、或者需要精确坐标点击的场景

实测下来,大部分网页操作(70-80%)用 DOM 就能搞定。 只有少数情况需要回退到 Computer Use。

这一刀砍下去,token 消耗又降了大约 90%。

算笔账

把两步优化叠加起来,效果很明显:

模式一个典型任务的成本
纯 Computer Use(优化前)~$0.50
降分辨率 + JPG~$0.20
混合模式(DOM 优先)~$0.10

从 0.5 美金降到 0.1 美金,整体节省约 80%。

0.1 美金做一个自动化任务,这个价格就合理多了。如果是批量执行一些简单的定时任务,成本还能更低。

为什么不一开始就用 DOM?

你可能会问:既然 DOM 这么好,为什么不一开始就全用 DOM?

因为 DOM 有局限性:

  • 有些页面结构极其复杂,DOM 树嵌套几十层,AI 很难从中找到正确的元素
  • 有些内容是动态渲染的,DOM 里看不到实际显示的内容
  • 有些操作需要视觉判断,比如”点击页面中间那个红色按钮”,纯靠 DOM 很难定位

Computer Use 的优势就是”所见即所得”——AI 看到什么就操作什么,跟人的操作方式一样。这种兜底能力不能丢。

所以最好的方案不是二选一,而是混合使用:能用 DOM 就用 DOM,搞不定再上 Computer Use。

一点感想

做优化这件事其实挺有意思的。

一开始我只是觉得”太贵了,得想办法降成本”,没想到一步步优化下来,成本能砍掉 80%。而且优化的思路也不复杂——先减少数据量,再减少调用次数。

这让我想到一个更普遍的道理:很多时候,技术方案的第一版都是”先跑起来再说”。真正的优化空间,往往在你跑起来之后才能看到。

VibPage 现在用混合模式跑,效果和纯 Computer Use 几乎一样,但成本只有原来的五分之一。这意味着更多人可以用得起 AI 网页自动化了——这才是我想要的。

项目依然完全开源: