目录
背景
尴尬:Mac数据,几乎为零
工具
怎么用
说到底还是数据
看到一篇AI的研究文章,提到AI不认识Mac,觉得很有意思,分享一下,里面的工具看来要搞个Mac以后玩一玩。
首先声明,我几乎不用Mac,主要感觉还是性价比不高,平时也没时间陪她玩。
背景
过去一年,computer-use AI从"哇好酷"变成了"哇好用"。Gartner预测,到2026年底,40%的企业应用会内置AI Agent——去年这个数字还不到5%。
换句话说,这个赛道已经不是"未来可期",是未来已来。
但问题来了。
尴尬:Mac数据,几乎为零
AI学用电脑,靠的是"看"——看截图、看界面元素、看操作流。训练数据越多样,AI就越聪明。
然而,目前公开的研究数据集,几乎全是Windows和Android的。
我们扒了一下OS-ATLAS——业界最大的开源GUI数据集之一,1300万个界面元素——你猜macOS占多少?
0.06%。
没打错。一万个样本里,六个是Mac的。
原因也不复杂:macOS的接口不像Windows和Android那样好抓。苹果的辅助功能API虽然强大,但要大规模采集,需要懂行的人写专门的工具。而这种工具?之前根本不存在。
于是结果就是:全行业拿着几乎没有Mac数据的语料,训练出了一堆"Windows很熟、Mac一脸懵"的AI Agent。
工具
GUIrilla就是这个工具。开源了三样东西:
| 名字 | 干嘛的 | 一句话总结 |
|---|---|---|
| GUIrilla 框架 | 自动安装Mac应用、逐屏探索、生成界面图谱 | 不需要人,AI自己把App"看"一遍 |
| GUIrilla-Task 数据集 | 27,171个任务,覆盖1,108个Mac应用 | 目前最大的公开Mac交互数据集,没有之一 |
| macapptree 库 | 一个Python小工具,提取任何Mac App的界面结构 | 不懂Mac开发也能用,三行代码拿到界面树 |
备注:论文在arXiv,数据在Hugging Face,代码在GitHub。
怎么用
如果你在训练电脑AI Agent→ GUIrilla-Task直接加进你的训练 pipeline,补上Mac这块短板。
如果你在做UI理解benchmark→ 数据集自带截图+结构化数据,视觉模型和结构模型都能跑。
如果你只是想程序化地读懂一个Mac App→ macapptree,最轻量的选择,没有之一。
说到底还是数据
AI在Mac上表现差,不是模型的问题,是数据的问题。
模型再强,没见过Mac的界面,它也猜不对那个按钮在哪。而模型用什么数据,取决于开源社区提供什么数据。
我们正在经历的所谓"Software 3.0"——AI替你操作电脑而不只是跟你聊天——这件事要在Mac上跑通,首先得有人把Mac的数据补上。
GUIrilla、GUIrilla-Task、macapptree,就是我们的答案。
希望对你也有用。