|
|
|
|
移动端

Python爬虫实战之豆瓣音乐、微打赏、阳光电影(附代码)

本文作者分享了通过Python代码爬取豆瓣音乐、微打赏、阳光电影网站的过程,喜欢爬虫的伙伴们过来看看吧。

作者:罗攀来源:Python中文社区|2018-01-11 10:20

技术沙龙 | 6月30日与多位专家探讨技术高速发展下如何应对运维新挑战!


一、豆瓣音乐

今天爬的是豆瓣音乐top250,比较简单,主要是练练手。

1、加了请求头,本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因;

2、这次是进入信息页爬的数据,上次爬电影没采用这种方法,缺少了部分数据;

3、数据的预处理用了很多if函数

数据分析

1、部分数据可以见上图

2、中国音乐作者还是很多的。

3、随着音乐设备和网络的普及,流行音乐的发展,可以看出2000年后作品越来越多,到2010年又积极下滑(经典就是经典,无法吐槽现在的音乐)

4、风格大家可以看出流行,摇滚,民谣占了一大半。

5、最后弄了一首周董的《不能说的秘密》做词云,想想小时候都是回忆啊。

代码片段

  1. import requests 
  2. import re 
  3. from bs4 import BeautifulSoup 
  4. import time 
  5. import pymongo 
  6. client = pymongo.MongoClient('localhost', 27017) 
  7. douban = client['douban'
  8. musictop = douban['musictop'
  9. headers = {    
  10. 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' 
  11. urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for  i  in  range 250 25 )] 
  12. def  get_url_music url ): 
  13.     wb_data   requests get url headers headers 
  14.     soup    BeautifulSoup wb_data text 'lxml' 
  15.     music_hrefs   soup select 'a.nbg' 
  16.      
  17. for  music_href  in  music_hrefs 
  18.         get_music_info music_href 'href' ]) 
  19.         time sleep  

二、微打赏

网站分析

打开网站,翻页网页不变,看看是post的请求,很好办,直接把参数怼进去,这里只要切换page就能进行翻页。

json格式,这里post返回的是json数据,解析json数据就行,小技巧:看preview,解析起来嗖嗖哒。这里需要提取活动的名称,id和参与打赏的人数。这个后面详细页用的到。

详细页,依旧是post,依旧是json数据,这里的参数pro_id为之前的爬取的id,这一页20个信息,通过前面的参与打赏人数构造出有多少页,继续怼参数。

代码片段

  1. import  requests 
  2.  
  3. import  json 
  4.  
  5. import  math 
  6.  
  7. def  get_sup_info  url page ): 
  8.   
  9. params 
  10.  
  11. 'ajaxtype'          
  12.  
  13. 'page' page          
  14.  
  15. 'category'          
  16.  
  17. 'pageSize'     
  18.  
  19.  
  20.   cookies         
  21.  
  22. 'User-Agent' 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'          
  23.  
  24. 'Cookie''acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com; 
  25.  
  26.     } 
  27.  
  28.     html = requests.post(url, data=params, headers=cookies) 
  29.  
  30.     json_data = json.loads(html.text) 
  31.  
  32.     des = json_data[' des '] 
  33.  
  34.     for data in des: 
  35.  
  36.         name = data['  name '] 
  37.  
  38.         id = data[' id '] 
  39.  
  40.         pay_count = data[' pay_count '] 
  41.  
  42.         all_page = math.ceil(int(pay_count)/20) 
  43.  
  44.         for i in range(1,int(all_page)+1): 
  45.  
  46.             get_app_info(i,id,name

三、阳光电影

爬虫分析

这里涉及跨页的爬取,需要理清爬虫的思路。首先打开网站,需爬取前11个分类的电影数据,经典影片格式不一样,爬虫时过滤掉了。

进入电影列表页后,正则爬取页数和电影的分类标签,以此构造分页url,然后爬取电影的名字和url。

最后在详细页爬取电影的下载地址,爬取结果如下:

代码片段

  1. import requests 
  2.  
  3. import re 
  4.  
  5. from lxml import etree 
  6.  
  7. import csv 
  8.  
  9. def get_resource(url,cate_name,cate_url,movie_name): 
  10.  
  11.     res = requests.get(url)    
  12.  
  13.     res.encoding = 'gb2312' 
  14.  
  15.     html = etree.HTML(res.text) 
  16.  
  17.     movie_resource = html.xpath('//tbody//tr/td/a/text()')[0] 
  18.  
  19.     writer.writerow((cate_name,cate_url,movie_name,url,movie_resource))     
  20.  
  21.     print(movie_resource)  

【编辑推荐】

  1. 用Python爬取各Android市场应用下载量(3分钟学会)
  2. 关于Python数据抓取、分析、挖掘、机器学习和Python分布式计算内容分享
  3. 用python爬虫抓站的一些技巧总结
  4. 100行Python代码自动抢火车票!
  5. 编程语言1月排行榜:C是年度语言,Python增长量第二
【责任编辑:庞桂玉 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

精通JBuilder 2006

JBuilder 2006是一款强大的Java企业级开发平台,其集成了几乎所有的Java技术,涵盖了软件开发生命周期的各个过程。本书深入浅出地介绍了JBu...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊