python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪喜欢彩双色球开奖数据实例

日期:2020-09-15/ 分类:实时观察

python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪喜欢彩双色球开奖数据实例

新浪喜欢彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/

最后输出效果格式如:2015075期开奖号码:6,11,13,19,21,32, 蓝球:4

直接用python源码写的抓取双色球最新开奖数据的代码,没行使框架,直接用字符串截取的手段写的,通过测试速度照样很快的

行使pyspider能够轻盈分析出必要的内容,不过必要安放框架对只抓取特定内容的幼行使来说也没众大必要清淡的抓取网页的行使 beautifulsoup就有余了,pyspider真实做爬虫类的行使才必要用到

python3.4学习笔记(十七) 网络爬虫行使Beautifulsoup4抓取内容 - 流风,飘然的风 - 博客园http://www.cnblogs.com/zdz8207/p/python_learn_note_17.html

行使BeautifulSoup4对比直接行使字符串查找截取的手段要更添直不悦目和简洁。

把代码行为开源项现在了,炎血狂徒 / zyspider - 代码托管 - 开源中国社区http://git.oschina.net/coos/zyspider

====================================

 1 import urllib.request
 2 import urllib.parse
 3 import re
 4 import urllib.request,urllib.parse,http.cookiejar
 5 
 6 def getHtml(url):
 7     cj=http.cookiejar.CookieJar()
 8     opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
 9     opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
10 
11     urllib.request.install_opener(opener)
12     
13     html_bytes = urllib.request.urlopen( url ).read()
14     html_string = html_bytes.decode( 'utf-8' )
15     return html_string
16 
17 #url = http://zst.aicai.com/ssq/openInfo/
18 #最后输出效果格式如:2015075期开奖号码:6,11,13,19,21,32, 蓝球:4
19 html = getHtml("http://zst.aicai.com/ssq/openInfo/")
20 #<table class="fzTab nbt"> </table>
21 
22 table = html[html.find('<table class="fzTab nbt">') : html.find('</table>')]
23 #print (table)
24 #<tr onmouseout="this.style.background=''" onmouseover="this.style.background='#fff7d8'">
25 #<tr \r\n\t\t                  onmouseout=
26 tmp = table.split('<tr \r\n\t\t                  onmouseout=',1)
27 #print(tmp)
28 #print(len(tmp))
29 trs = tmp[1]
30 tr = trs[: trs.find('</tr>')]
31 #print(tr)
32 number = tr.split('<td   >')[1].split('</td>')[0]
33 print(number + '期开奖号码:',end='')
34 redtmp = tr.split('<td  class="redColor sz12" >')
35 reds = redtmp[1:len(redtmp)-1]#往失踪第一个和末了一个没用的元素
36 #print(reds)
37 for redstr in reds:
38     print(redstr.split('</td>')[0] + ",",end='')
39 print('蓝球:',end='')
40 blue = tr.split('<td  class="blueColor sz12" >')[1].split('</td>')[0]
41 print(blue)

 

上一篇:11任选5开奖效果查询    下一篇:彩票大赢家