有大佬用过 browser use 吗？效果怎么样？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 64 天前的主题，其中的信息可能已经有所发展或是发生改变。

似乎很火，但不知道效果如何

都用于什么方面呢？爬虫？

如果搞一个 app use 会有人用吗

第 1 条附言 · 64 天前

https://github.com/mobile-dev-inc/maestro

我昨天发现这个

感觉很牛逼的样子

所以特此来问问有什么应用场景

browser use

app use

爬虫

12 条回复 • 2025-12-17 11:09:57 +08:00

BingoW

64 天前

之前用过，效果一般。现在用 codex 配合 chrome Devtools mcp ，效果挺不错的。你自己研究搞搞可以的，想商用赚钱就算了，因为大厂出新产品太快了，你细细打磨一年的产品，人家看到了觉得不错，分分钟出个替代品。

sacuba

64 天前

还有 nana browser ，都是反应太慢了，得有特定场景然后针对性微调模型之后才可用。

ygweric

64 天前

我研究过源码，写的很精妙。

用处主要是：智能助力、UI 测试，这样子成本可以和应届生的工资比较便宜很多。

爬虫不可能，非常慢，而且 token 的图片识别还是非常贵的，不划算。

yejjgo

64 天前

最开始尝试用来结合大模型做自动化测试，效果不稳定，后来换成生成自动化脚本再使用的方式还挺不错

guiyumin

64 天前 via iPhone

@yejjgo 嗯，对的，大模型还是不稳定

cz5424

64 天前

一般用来让 ai 调试网页进行 debug

coefu

64 天前

底层实现是用的 playwright ，只是把人看到的 web 页面上的物件利用 LLM 对话映射到 playwright 里的组件，做的就是中间这层转换。实际效果不会太好。

gongym

64 天前

说到无头浏览器，我发现了这个好像很牛
https://github.com/lightpanda-io/browser

GiantHard

64 天前

我试了 playwright-mcp 跟 chrome-devtools-mcp ，主要场景是用 claude code 帮我执行 UI 测试，这俩 mcp 主要用 Accessbility API 给 LLM 描述页面的状态，在 playwright-mcp 中，这个功能叫 snapshot ；而现有的系统在可访问性方面做的不太好，以至于 GLM 4.5/Claude Sonnet 4 都会被很简单 UI 交互卡住，例如，滚动 Antd 4 Tree 组件的虚拟列表，我手动截图页面让 LLM 识别的话，LLM 都能知道应该用滚轮事件向下滚动，但如果只提供 Snapshot 的话，这些模型会被卡住很久并最终撂挑子。所以个人感觉在 UI 测试的场景中，还是基于视觉（ screenshot ）的方案更优。

最近再调研的时候，发现 Google 整了一个新的 Computer Use 模型，能够基于截图跟浏览器交互，看演示视频的效果还不错，但是限定只能用 gemini-2.5 的一个实验性版本。

Cheez

PRO

64 天前

@ygweric 你可能想错了。以前是 website -> 手写代码 -> data or error -> 再次手写代码
现在是 website -> AI 代码 -> data or error -> 再次 AI 代码

也就是说，是用 AI 来制作 website to data 的算法，而不是让 AI 去当这个“算法”。

andyJado

60 天前

@gongym 这个可以替换掉 bu 里的 chrome 吗？

xjiang1982154112

PRO

1 天前

不管是 browser-use 、computer-use 还是 app-use ，都非常有前途，我也坚信这个技术会在近期出现杀手级应用。但是啊，做通用方向的落地难度远超想象，我的建议是，落到具体的某个场景去，这个场景越小越好，仅仅只是替代某个现实岗位的某个日常任务中，他的价值都难以想象。加油！