想爬数据做个服务,但被登录和用户通知卡住

背景:

想爬一个游戏交易网站的数据,然后做个小程序之类的来访问,并且提供商品上新提醒,但是遇到两个问题。

问题一:登录需要点击文字验证

当频繁访问商品详情的时候,会触发登录,遇到下面这种验证,按网上把图片二值化再识别的方法行不通,因为这里的字颜色和背景色的深浅是随机的。估计只能借助超级鹰这种平台了,但我这也不是商业产品,比较尴尬。

image.png

问题二:如何做用户提醒

如果问题一解决不了,我打算不爬商品详情,只爬商品列表(不触发登录验证),用来提供用户订阅提醒也可以。我希望用户通过移动端能订阅,小程序是一个很好的载体,但是现在的订阅消息只能一次性订阅,不是特别方便,做个 APP 又怕没人愿意下载。

哪位老哥能给些提示,Orz

  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    92 引用 • 239 回帖
  • 产品
    64 引用 • 463 回帖 • 2 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    1756 引用 • 11526 回帖 • 580 关注
1 操作
Mess663 在 2020-07-19 23:03:50 更新了该帖

赞助商 我要投放

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250 1 1 评论

    从业务角度不建议做这样的爬虫。

    数据是一个公司非常重要的资产,做抓取可能涉及侵权。基于抓取的应用,也许会有挺多人用,但是用的人多了开发者面临的风险就很大,轻则被发律师函要求下架,重则直接被提诉赔偿。之前有人做过豆瓣的抓取,做了小程序、公众号等一系列服务,前不久被豆瓣发律师函了。

    从技术角度,问题一应该可以通过切换代理请求解决,问题二是微信平台的策略,主动推送一直都比较受限。

    多谢解答 ~
    Mess663
  • 其他回帖
  • 553774989

    您好,我应该还算是萌新。最近也想自己做个登录网站签到的爬虫,遇到了登录的问题。这里想请求大佬指教一下,我使用的是 htmlUnit,前端代码没有 form 标签,主要通过 JS 向后台服务器发送 AJAX 请求,htmlUnit 中已加载 JS 和 CSS,没有任何形式的验证码,通过 htmlUnit 给 input 输入账号和密码后,已确认点击了 button 按钮,但登录失败。希望能指点一下。给您添麻烦了。