V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  xjiang1982154112  ›  全部回复第 1 页 / 共 2 页
回复总数  24
1  2  
@pyhfuweihong 自动翻页和页面下探功能,我们正在实验,要同时保证准确度和 tokens 成本,还是有点难度的,相信我们,请您耐心等待 /抱拳
@necopp 马上开放邮箱注册和非登录用户体验功能,抱歉给您带来了不好的体验
9 小时 14 分钟前
回复了 xjiang1982154112 创建的主题 分享创造 我把 AI 用到了爬虫上,做了一款工具
@Blanke 感谢兄弟的建议
1 、反爬确实是一个核心问题,我们的原则是:首先控制频率(最低 15 分钟一次),不会造成破坏性攻击。然后,我们这个产品是做提醒服务的,不做内容搬运,很难触碰到“实质性替代”原则,如果还出现验证码这样的拦截手段,我们是打算不处理的。
2 、app 这个场景,我们还在研究实验,目前的技术路线是打算通过真机或虚机环境,利用视觉或者 ADB 提取数据。不做逆向 api

实质性替代原则,参考最高检对爬虫行为的最新解释(没有形成实质性替代,很难入罪):
厘定边界合理规制网络爬虫行为
https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml
要有声音的话,效果就更好了~~
建议开放 API ,让别人可以配置自己的 Agent 上牌桌玩。
13 小时 25 分钟前
回复了 Aleks 创建的主题 分享创造 拯救词穷:一个提效 git 工具
程序员最怕的两件事
1 、取变量名
2 、写 commit message
14 小时 9 分钟前
回复了 lifenglu 创建的主题 分享创造 投了 500 份简历后,我终于看清求职平台的真面目
你忘记发你的产品链接发出来了
17 小时 43 分钟前
回复了 xjiang1982154112 创建的主题 问与答 我想收集一些爬虫的需求场景
@shilyx 好需求
18 小时 13 分钟前
回复了 xjiang1982154112 创建的主题 问与答 我想收集一些爬虫的需求场景
@216zj 我应该去找这样想法的人,然后把工具卖给他
19 小时 3 分钟前
回复了 xjiang1982154112 创建的主题 分享创造 我把 AI 用到了爬虫上,做了一款工具
@MEIerer 马上改进
19 小时 6 分钟前
回复了 RITd 创建的主题 职场话题 我的人生好像有点坏掉了,请大家给点建议
@sss393 -_-! 我认识的绝大部分已婚的男的,给我的反馈都是,如果离婚了,要是再结婚就是狗。虽然这些人家庭都挺美满的
19 小时 8 分钟前
回复了 RITd 创建的主题 职场话题 我的人生好像有点坏掉了,请大家给点建议
你这样已经算相当不错了。。
人生是一个非常非常漫长的旅途,也是一场容错率极高的游戏。
往前走,不管是家庭还是事业,只要继续往前走,就算很慢,就算会停下来休息一段时间,不要有愧疚感,只要你还能再动起来,只要你没有退,你基本已经赢了大部分同龄人。
和光同尘也好,特立独行也罢;嗷嗷叫的奋斗也行,躺平摆烂不思进取也是一个选择。只要你还能收拾心情继续走就行。
30 岁是个很有意思的分界线,会有人劝你考编,告诉你年纪再大就考不了了,铁饭碗才是真;完全没错,但是你完全不用纠结,考不考,会不会错失啥好机会,根本不重要,重要的是你的心态,不乱不退就行,人这一生措施的机会和缘分,数不胜数,不差这一次的。

我说的全是屁话~~你想要的“人生建议”也都是屁话。人活自己,如人饮水,冷暖自知
20 小时 10 分钟前
回复了 xjiang1982154112 创建的主题 问与答 我想收集一些爬虫的需求场景
@lisxour 感谢提醒,我们马上改进
20 小时 12 分钟前
回复了 xjiang1982154112 创建的主题 问与答 我想收集一些爬虫的需求场景
@FireKnight 这是我们考虑不周,马上改进,添加邮箱登录
22 小时 26 分钟前
回复了 xjiang1982154112 创建的主题 问与答 我想收集一些爬虫的需求场景
@zbuhui2013 这两个工具都需要配置 xpath 这样的操作,非程序员很难使用。我这个工具不需要配置任何东西,用一句大白话说明你要关注的内容就行。
22 小时 44 分钟前
回复了 guiyumin 创建的主题 程序员 有大佬用过 browser use 吗?效果怎么样?
不管是 browser-use 、computer-use 还是 app-use ,都非常有前途,我也坚信这个技术会在近期出现杀手级应用。但是啊,做通用方向的落地难度远超想象,我的建议是,落到具体的某个场景去,这个场景越小越好,仅仅只是替代某个现实岗位的某个日常任务中,他的价值都难以想象。加油!
22 小时 50 分钟前
回复了 pureGirl 创建的主题 程序员 现在大型的爬虫项目用的是什么框架, scrapy 过时了吗
考虑真实性模拟,最简单的是 playwright ,甚至可以直接拿一个 mac mini ,操作真实浏览器(非无头);方便程度超出你的想象~~
一般场景用 scrapy 够了
你说的大型,如果是指数据量巨大,那其实爬虫不是重点,手搓 python 脚本都不是问题,问题是 IP 池等各种"反-反爬"处理。
如果指的是网站类型超多(几百几千,甚至几万种),要吗人肉堆脚本,要吗用 AI (安利一下我们的东西:猫头鹰 AI:mtywatch.com
如果指的是"突破"难度很大,那么你重点研究的是法律风险
23 小时 1 分钟前
回复了 xjiang1982154112 创建的主题 分享创造 我把 AI 用到了爬虫上,做了一款工具
@dacapoday 合理合规使用,没问题的。
最高检,2025 年 11 月 29 号 刚发的解释:厘定边界合理规制网络爬虫行为 https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml
@lswlray /抱拳/抱拳 多谢建议,您建议的产品功能正在开发中
@shouh @zhangk23 马上上线邮箱登录
1  2  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5724 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 01:54 · PVG 09:54 · LAX 17:54 · JFK 20:54
♥ Do have faith in what you're doing.