似乎很火,但不知道效果如何
都用于什么方面呢?爬虫?
如果搞一个 app use 会有人用吗
1
BingoW 64 天前
之前用过,效果一般。现在用 codex 配合 chrome Devtools mcp ,效果挺不错的。你自己研究搞搞可以的,想商用赚钱就算了,因为大厂出新产品太快了,你细细打磨一年的产品,人家看到了觉得不错,分分钟出个替代品。
|
2
sacuba 64 天前
还有 nana browser ,都是反应太慢了,得有特定场景然后针对性微调模型之后才可用。
|
3
ygweric 64 天前
我研究过源码,写的很精妙。
用处主要是:智能助力、UI 测试,这样子成本可以和应届生的工资比较便宜很多。 爬虫不可能,非常慢,而且 token 的图片识别还是非常贵的,不划算。 |
4
yejjgo 64 天前
最开始尝试用来结合大模型做自动化测试,效果不稳定,后来换成生成自动化脚本再使用的方式还挺不错
|
6
cz5424 64 天前
一般用来让 ai 调试网页进行 debug
|
7
coefu 64 天前
底层实现是用的 playwright ,只是把人看到的 web 页面上的 物件 利用 LLM 对话 映射到 playwright 里的组件,做的就是中间这层转换。实际效果不会太好。
|
8
gongym 64 天前
说到无头浏览器,我发现了这个好像很牛
https://github.com/lightpanda-io/browser |
9
GiantHard 64 天前
我试了 playwright-mcp 跟 chrome-devtools-mcp ,主要场景是用 claude code 帮我执行 UI 测试,这俩 mcp 主要用 Accessbility API 给 LLM 描述页面的状态,在 playwright-mcp 中,这个功能叫 snapshot ;而现有的系统在可访问性方面做的不太好,以至于 GLM 4.5/Claude Sonnet 4 都会被很简单 UI 交互卡住,例如,滚动 Antd 4 Tree 组件的虚拟列表,我手动截图页面让 LLM 识别的话,LLM 都能知道应该用滚轮事件向下滚动,但如果只提供 Snapshot 的话,这些模型会被卡住很久并最终撂挑子。所以个人感觉在 UI 测试的场景中,还是基于视觉( screenshot )的方案更优。
最近再调研的时候,发现 Google 整了一个新的 Computer Use 模型,能够基于截图跟浏览器交互,看演示视频的效果还不错,但是限定只能用 gemini-2.5 的一个实验性版本。 |
10
Cheez PRO @ygweric 你可能想错了。以前是 website -> 手写代码 -> data or error -> 再次手写代码
现在是 website -> AI 代码 -> data or error -> 再次 AI 代码 也就是说,是用 AI 来制作 website to data 的算法,而不是让 AI 去当这个“算法”。 |
12
xjiang1982154112 PRO 不管是 browser-use 、computer-use 还是 app-use ,都非常有前途,我也坚信这个技术会在近期出现杀手级应用。但是啊,做通用方向的落地难度远超想象,我的建议是,落到具体的某个场景去,这个场景越小越好,仅仅只是替代某个现实岗位的某个日常任务中,他的价值都难以想象。加油!
|