python 爬虫（SGMLParser）

`# -- coding: utf-8 --
import requests
import urllib2
import sys
from sgmllib import SGMLParser
from cgitb import text
reload(sys)
sys.setdefaultencoding('utf8')

class CLAS_EXPERT_LIST(SGMLParser):
def init(self):
reload(sys)
SGMLParser.init(self)
self.is_a = ""
self.name = []
self.urls = []

def start_a(self, attrs):  
    for k, v in attrs :
        if k=='href'  and v.count('detail') > 0  :
            self.is_a = 1
            self.urls.append(v)
def end_a(self):
    self.is_a = 0
    
    
def handle_data(self, text):
    if self.is_a  == 1:
        self.name.append(text)

class EXPERT(SGMLParser):

def __init__(self):
    SGMLParser.__init__(self)
    self.is_div =  0 
    self.is_h3 =  0 
    self.is_div_p = 0 
    self.p_cnt = 0
    self.image = {}
    
    self.is_div_expert = 0 
    self.is_div_expert_p = 0 
    self.is_div_expert_p_cnt = 0 

def start_div(self, attrs):  
    for k, v in attrs :
        if k=='class'  and v.count('name') > 0  :
            self.is_div = 1
        if k=='class'  and v.count('expert_content') > 0  :
            self.is_div_expert = 1
            
def end_div(self):
    if self.is_div == 1 : 
        self.is_div = 0
    elif self.is_div_expert == 1 : 
        self.is_div_expert = 0

def start_h3(self, attrs):  
    if self.is_div : 
        self.is_h3 = 1
        
def end_h3(self):
    self.is_h3 = 0
 
def start_p(self, attrs):  
    if self.is_div == 1 : 
        self.is_div_p = 1
    elif self.is_div_expert == 1 : 
        self.is_div_expert_p = 1
        self.is_div_expert_p_cnt = self.is_div_expert_p_cnt + 1
        
def end_p(self):
    if self.is_div : 
        self.is_div_p = 0
        self.p_cnt = self.p_cnt + 1 
    elif self.is_div_expert == 1 : 
        self.is_div_expert_p = 0
    
                                 
def handle_data(self, text):
    try:
        if self.is_div  == 1:
            if self.is_h3 == 1 :
                self.image["name"] = text
            if self.is_div_p == 1 :
                if self.p_cnt == 0 :
                    self.image["job"] = text
                else:
                    self.image["title"] = text
        if self.is_div_expert  == 1:
            if self.is_div_expert_p == 1 :
                #print self.is_div_expert_p_cnt,text
                if self.is_div_expert_p_cnt == 2:
                    self.image["employer"] = text
                elif self.is_div_expert_p_cnt == 6:
                    self.image["filed"] = text
                elif self.is_div_expert_p_cnt == 16:
                    self.image["conn_info"] = text
                    
            #print text
            #print self.image["name"] ,  self.image["title"] , self.image["job"] , self.image["employer"] , self.image["filed"] , self.image["conn_info"]
        
        
    except Exception,e:
        print e

def list_expert():
headers = {
"Connection": "keep-alive",
"Cookie":"Ecp_IpLoginFail=160726111.205.187.18; kc_cnki_net_uid=ff38e944-e46c-2d76-349c-24a97e03ded8; ASP.NET_SessionId=ysbae4exnu0vkugigsdnknps; AutoIpLogin=; LID=; SID=122103; CNZZDATA4922505=cnzz_eid%3D1343153553-1469773415-%26ntime%3D1469782211; FileNameM=cnki%3A; c_m_LinID=LinID=WEEvREcwSlJHSldTTGJhYlRtMVNwOTZ6Q1UzaHdWOFN2RzR2MEEyUkJPWmE=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=07/29/2016 18:16:04",
"Host":"elib.cnki.net",
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate",
"Accept-Language":"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Referer":"http://www.example.com/",
"User-Agent":" Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0"
}
r = requests.get('http://www.chinathinktanks.org.cn/content/expert' )
content=r.text
listname = CLAS_EXPERT_LIST()
listname.feed(content)
rn = zip(listname.urls,listname.name)
return rn

def get_expert(url,name):
headers = {
"Connection": "keep-alive",
"Cookie":"Ecp_IpLoginFail=160726111.205.187.18; kc_cnki_net_uid=ff38e944-e46c-2d76-349c-24a97e03ded8; ASP.NET_SessionId=ysbae4exnu0vkugigsdnknps; AutoIpLogin=; LID=; SID=122103; CNZZDATA4922505=cnzz_eid%3D1343153553-1469773415-%26ntime%3D1469782211; FileNameM=cnki%3A; c_m_LinID=LinID=WEEvREcwSlJHSldTTGJhYlRtMVNwOTZ6Q1UzaHdWOFN2RzR2MEEyUkJPWmE=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=07/29/2016 18:16:04",
"Host":"elib.cnki.net",
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate",
"Accept-Language":"utf-8,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Referer":"http://www.example.com/",
"User-Agent":" Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0"
}
r = requests.get(url)
content=r.text
expert = EXPERT()
expert.feed(content)
return expert.image

if name == "main":
try:
i = 0
import chardet
with open("/tmp/expert.txt","w") as f:
exports = list_expert()
for k,v in exports:
v = get_expert(k,v)
name,job,title,employer,filed,conn_info=None,None,None,None,None,None
if "name" in v:
name= v["name"]
if "job" in v:
job= v["job"]
if "title" in v:
title= v["title"]
if "employer" in v:
employer= v["employer"]
if "filed" in v:
filed= v["filed"]
if "conn_info" in v:
conn_info= v["conn_info"]

            print  "{0}#{1}#{2}#{3}#{4}#{5}".format(name,job,title,employer,filed,conn_info) 
            f.write("{0}#{1}#{2}#{3}#{4}#{5}\n".format(name,job,title,employer,filed,conn_info))
            f.flush()
            i = i + 1 
            left = divmod(i,50)
            if  left[1] == 0 : 
                print i

except Exception,e :
    print e
`

Python 爬虫系列（二）基本库的使用

[图片] urllib 的使用 urlib 是 python 内置的请求库，不需要额外安装 urllib 包含如下 4 个模块： request：最基本的 http 请求模块，模拟请求发送 error：异常处理模块 parse：工具模块 robotparser：用来识别网站的 robots.txt，用的很少 urlop ..

python 爬虫简介

re 模块的使用在 Python 中，我们可以使用内置的 re 模块来使用正则表达式 import re ''' re.findall通过正则表达式筛选出文本中所有符合条件的数据 ''' # info = re.findall('python', 'hello this is python3.8 and python ..

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

1. 前景提要在网上冲浪的时候看到原来 NASA 航天局有科普网站，每天一张科普图片，而且是非常高清的那种，很想下载下来做壁纸。所以打算写一个 Java 爬虫爬取所有的图片，也可以加入一些通知，每天晚上进行检查，当检查到有更新的时候，第二天早上起床推送到手机端。当然这个功能还没有实现。 2. 进行开发 2.1 开发 ..

网站为什么要反爬虫？

互联网有很多业务或者说网页，是不需要用户进行登录的，这些不需要登录的页面，往往会包含大量的聚合信息，比如新闻门户网站、视频门户网站、搜索引擎，这些信息是公开的，是可以被爬虫抓取的。一、网站为什么要反爬虫？ 1、爬虫占总 PV 比例较高，浪费服务器资源通过程序进行 URL 请求去获得数据的成本是很低的，这就造成大量低 ..

某解析 b 站 MP4 视频的逆向获取

直接获取 B 站视频找到的都是分段的合成视频，于是乎在网上看到一个工具他做的视频解析可以解析出 mp4 的地址，遂转而直接研究从解析网站拿到视频地址，分析思路：首先模拟正常的请求，发现网址在这个地方，禁止 js 之后发现这个位置就空白了，很明显这段显示是 js 动态处理了 [图片] 然后，我猜测是不是，有 aja ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

python 爬虫（SGMLParser）

相关帖子

Python 爬虫系列（二）基本库的使用

python 爬虫简介

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

网站为什么要反爬虫？

猿人学（三）Webpack 初体验 - js 调试过程

某解析 b 站 MP4 视频的逆向获取

ajax post

欢迎来到这里！

近期热议

推荐标签标签

最新标签

python 爬虫（SGMLParser）

相关帖子

Python 爬虫系列（二）基本库的使用

python 爬虫简介

你有多久没有看星星了呢？【爬取 NASA 的科普网站上的所有图片】

网站为什么要反爬虫？

猿人学（三）Webpack 初体验 - js 调试过程

某解析 b 站 MP4 视频的逆向获取

ajax post

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签