python 爬虫(SGMLParser)

本贴最后更新于 2817 天前,其中的信息可能已经时过境迁

`# -- coding: utf-8 --
import requests
import urllib2
import sys
from sgmllib import SGMLParser
from cgitb import text
reload(sys)
sys.setdefaultencoding('utf8')

class CLAS_EXPERT_LIST(SGMLParser):
def init(self):
reload(sys)
SGMLParser.init(self)
self.is_a = ""
self.name = []
self.urls = []

def start_a(self, attrs):  
    for k, v in attrs :
        if k=='href'  and v.count('detail') > 0  :
            self.is_a = 1
            self.urls.append(v)
def end_a(self):
    self.is_a = 0
    
    
def handle_data(self, text):
    if self.is_a  == 1:
        self.name.append(text)

class EXPERT(SGMLParser):

def __init__(self):
    SGMLParser.__init__(self)
    self.is_div =  0 
    self.is_h3 =  0 
    self.is_div_p = 0 
    self.p_cnt = 0
    self.image = {}
    
    self.is_div_expert = 0 
    self.is_div_expert_p = 0 
    self.is_div_expert_p_cnt = 0 

def start_div(self, attrs):  
    for k, v in attrs :
        if k=='class'  and v.count('name') > 0  :
            self.is_div = 1
        if k=='class'  and v.count('expert_content') > 0  :
            self.is_div_expert = 1
            
def end_div(self):
    if self.is_div == 1 : 
        self.is_div = 0
    elif self.is_div_expert == 1 : 
        self.is_div_expert = 0

def start_h3(self, attrs):  
    if self.is_div : 
        self.is_h3 = 1
        
def end_h3(self):
    self.is_h3 = 0
 
def start_p(self, attrs):  
    if self.is_div == 1 : 
        self.is_div_p = 1
    elif self.is_div_expert == 1 : 
        self.is_div_expert_p = 1
        self.is_div_expert_p_cnt = self.is_div_expert_p_cnt + 1
        
def end_p(self):
    if self.is_div : 
        self.is_div_p = 0
        self.p_cnt = self.p_cnt + 1 
    elif self.is_div_expert == 1 : 
        self.is_div_expert_p = 0
    
                                 
def handle_data(self, text):
    try:
        if self.is_div  == 1:
            if self.is_h3 == 1 :
                self.image["name"] = text
            if self.is_div_p == 1 :
                if self.p_cnt == 0 :
                    self.image["job"] = text
                else:
                    self.image["title"] = text
        if self.is_div_expert  == 1:
            if self.is_div_expert_p == 1 :
                #print self.is_div_expert_p_cnt,text
                if self.is_div_expert_p_cnt == 2:
                    self.image["employer"] = text
                elif self.is_div_expert_p_cnt == 6:
                    self.image["filed"] = text
                elif self.is_div_expert_p_cnt == 16:
                    self.image["conn_info"] = text
                    
            #print text
            #print self.image["name"] ,  self.image["title"] , self.image["job"] , self.image["employer"] , self.image["filed"] , self.image["conn_info"]
        
        
    except Exception,e:
        print e

def list_expert():
headers = {
"Connection": "keep-alive",
"Cookie":"Ecp_IpLoginFail=160726111.205.187.18; kc_cnki_net_uid=ff38e944-e46c-2d76-349c-24a97e03ded8; ASP.NET_SessionId=ysbae4exnu0vkugigsdnknps; AutoIpLogin=; LID=; SID=122103; CNZZDATA4922505=cnzz_eid%3D1343153553-1469773415-%26ntime%3D1469782211; FileNameM=cnki%3A; c_m_LinID=LinID=WEEvREcwSlJHSldTTGJhYlRtMVNwOTZ6Q1UzaHdWOFN2RzR2MEEyUkJPWmE=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=07/29/2016 18:16:04",
"Host":"elib.cnki.net",
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate",
"Accept-Language":"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Referer":"http://www.example.com/",
"User-Agent":" Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0"
}
r = requests.get('http://www.chinathinktanks.org.cn/content/expert' )
content=r.text
listname = CLAS_EXPERT_LIST()
listname.feed(content)
rn = zip(listname.urls,listname.name)
return rn

def get_expert(url,name):
headers = {
"Connection": "keep-alive",
"Cookie":"Ecp_IpLoginFail=160726111.205.187.18; kc_cnki_net_uid=ff38e944-e46c-2d76-349c-24a97e03ded8; ASP.NET_SessionId=ysbae4exnu0vkugigsdnknps; AutoIpLogin=; LID=; SID=122103; CNZZDATA4922505=cnzz_eid%3D1343153553-1469773415-%26ntime%3D1469782211; FileNameM=cnki%3A; c_m_LinID=LinID=WEEvREcwSlJHSldTTGJhYlRtMVNwOTZ6Q1UzaHdWOFN2RzR2MEEyUkJPWmE=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=07/29/2016 18:16:04",
"Host":"elib.cnki.net",
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate",
"Accept-Language":"utf-8,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Referer":"http://www.example.com/",
"User-Agent":" Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0"
}
r = requests.get(url)
content=r.text
expert = EXPERT()
expert.feed(content)
return expert.image

if name == "main":
try:
i = 0
import chardet
with open("/tmp/expert.txt","w") as f:
exports = list_expert()
for k,v in exports:
v = get_expert(k,v)
name,job,title,employer,filed,conn_info=None,None,None,None,None,None
if "name" in v:
name= v["name"]
if "job" in v:
job= v["job"]
if "title" in v:
title= v["title"]
if "employer" in v:
employer= v["employer"]
if "filed" in v:
filed= v["filed"]
if "conn_info" in v:
conn_info= v["conn_info"]

            print  "{0}#{1}#{2}#{3}#{4}#{5}".format(name,job,title,employer,filed,conn_info) 
            f.write("{0}#{1}#{2}#{3}#{4}#{5}\n".format(name,job,title,employer,filed,conn_info))
            f.flush()
            i = i + 1 
            left = divmod(i,50)
            if  left[1] == 0 : 
                print i

except Exception,e :
    print e
`
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    22 引用 • 31 回帖 • 3 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 24 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    940 引用 • 1458 回帖 • 159 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 69 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    116 引用 • 99 回帖 • 266 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    5 引用 • 26 回帖 • 493 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 2 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    76 引用 • 390 回帖 • 1 关注
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 682 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    10 引用 • 85 回帖
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    129 引用 • 793 回帖
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    491 引用 • 1383 回帖 • 374 关注
  • Ant-Design

    Ant Design 是服务于企业级产品的设计体系,基于确定和自然的设计价值观上的模块化解决方案,让设计者和开发者专注于更好的用户体验。

    17 引用 • 23 回帖 • 1 关注
  • Facebook

    Facebook 是一个联系朋友的社交工具。大家可以通过它和朋友、同事、同学以及周围的人保持互动交流,分享无限上传的图片,发布链接和视频,更可以增进对朋友的了解。

    4 引用 • 15 回帖 • 454 关注
  • 自由行
    1 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 437 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖 • 4 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 346 关注
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 693 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    164 引用 • 407 回帖 • 526 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 4 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 4 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    53 引用 • 85 回帖
  • V2Ray
    1 引用 • 15 回帖
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    675 引用 • 535 回帖