小小爬虫

本贴最后更新于 2253 天前,其中的信息可能已经事过景迁

简单爬虫

代码地址 https://github.com/zousiliang/pacon

最近花了一点时间研究一下爬虫,没有使用第三方爬虫框架,当然你也可以使用第三方框架 如:

1.分布式爬虫:Nutch
2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector
3.非JAVA单机爬虫:scrapy、pyspider
废话不多说,先看结果,爬取熊猫 tv 主播数据 并进行降序排列:
rank 1  : Misaya若风lol  : 89.7万
rank 2  : 贾克虎丶虎神  : 62.7万
rank 3  : 蓝战非  : 60.2万
rank 4  : 瓦莉拉的小伙伴  : 57.8万
rank 5  : ToveLo  : 32.5万
rank 6  : 君克解说  : 24.2万
rank 7  : 风行云  : 21.6万
rank 8  : RNG丶MLXG  : 20.9万
rank 9  : QG无敌老飞牛  : 14.8万
rank 10  : 爷大干丶  : 13.4万
rank 11  : 萝莉图阿  : 12.2万
rank 12  : 一阵雨不是一阵奶  : 10.0万
rank 13  : LOL丶摇摆哥  : 7.5万
rank 14  : 真正的村长ALEX  : 6.8万
rank 15  : RNG1letme1  : 6.4万
rank 16  : lol稳贱骨炼金  : 6.0万
爬虫文件为:

spider/spider.py

执行代码为:

python3 spider.py
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    536 引用 • 672 回帖
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 2 关注

相关帖子

1 回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...