把 Computer Use 的成本砍掉 80%：VibPage 混合模式的优化之路

用着用着，发现用不起了

VibPage 转型做网页自动化之后，我一直在用 OpenAI 的 Computer Use 来操控浏览器。原理很简单：截屏 → AI 看图 → 决定点哪里 → 再截屏 → 再看图……循环往复，直到任务完成。

效果确实好。AI 能像人一样”看到”屏幕上的内容，什么元素都能操作。

但有个致命问题：太贵了。

我让它去玩了一把 Flash Linez 这个小游戏，来回截图几十次，每次都是一张高清大图传给 AI 分析。结果呢？花了我 1.4 美金，玩得还很一般。

如果是我自己测试用用，倒也无所谓。但如果要让普通用户用起来，这个价格就完全不现实了。0.5 美金做一个任务，谁愿意天天用？

既然图片 token 是大头，那就先从图片下手。

我做了两个优化：

就这两个改动，token 消耗直接降了大约 60%。

效果立竿见影。但我觉得还不够。

降低图片成本是”省”，但真正的大招是”少用”。

我开始想：每次操作都需要截图让 AI 看吗？

其实很多网页操作，根本不需要”看”。点击一个按钮、填写一个输入框、选择一个下拉菜单——这些操作，通过 DOM（网页的结构化数据）就能精准定位和操作。DOM 就是一堆文本，token 消耗比图片低了一个数量级。

所以我设计了一个混合模式（Hybrid Mode）：

实测下来，大部分网页操作（70-80%）用 DOM 就能搞定。 只有少数情况需要回退到 Computer Use。

这一刀砍下去，token 消耗又降了大约 90%。

把两步优化叠加起来，效果很明显：

从 0.5 美金降到 0.1 美金，整体节省约 80%。

0.1 美金做一个自动化任务，这个价格就合理多了。如果是批量执行一些简单的定时任务，成本还能更低。

你可能会问：既然 DOM 这么好，为什么不一开始就全用 DOM？

因为 DOM 有局限性：

Computer Use 的优势就是”所见即所得”——AI 看到什么就操作什么，跟人的操作方式一样。这种兜底能力不能丢。

所以最好的方案不是二选一，而是混合使用：能用 DOM 就用 DOM，搞不定再上 Computer Use。

做优化这件事其实挺有意思的。

一开始我只是觉得”太贵了，得想办法降成本”，没想到一步步优化下来，成本能砍掉 80%。而且优化的思路也不复杂——先减少数据量，再减少调用次数。

这让我想到一个更普遍的道理：很多时候，技术方案的第一版都是”先跑起来再说”。真正的优化空间，往往在你跑起来之后才能看到。

VibPage 现在用混合模式跑，效果和纯 Computer Use 几乎一样，但成本只有原来的五分之一。这意味着更多人可以用得起 AI 网页自动化了——这才是我想要的。

项目依然完全开源：