|
|
|
|
公众号矩阵

Python爬虫实战:采集淘宝商品信息并导入EXCEL表格

本文简单使用python的requests库及re正则表达式对淘宝的商品信息(商品名称,商品价格,生产地区,以及销售额)进行了爬取,并最后用xlsxwriter库将信息放入Excel表格。

作者:青灯教育Python学院来源:今日头条|2020-11-06 08:28

文章目录

前言

  • 一、解析淘宝URL组成
  • 二、查看网页源码并用re库提取信息
  • 1.查看源码2.re库提取信息
  • 三:函数填写
  • 四:主函数填写
  • 五:完整代码

前言

本文简单使用python的requests库及re正则表达式对淘宝的商品信息(商品名称,商品价格,生产地区,以及销售额)进行了爬取,并最后用xlsxwriter库将信息放入Excel表格。最后的效果图如下:

提示:以下是本篇文章正文内容

一、解析淘宝URL组成

1.我们的第一个需求就是要输入商品名字返回对应的信息

所以我们这里随便选一个商品来观察它的URL,这里我们选择的是书包,打开网页,可知他的URL为:

https://s.taobao.com/search?q=%E4%B9%A6%E5%8C%85&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

可能单单从这个url里我们看不出什么,但是我们可以从图中看出一些端倪

我们发现q后面的参数就是我们要获取的物品的名字

2.我们第二个需求就是根据输入的数字来爬取商品的页码

所以我们来观察一下后面几页URL的组成

由此我们可以得出分页的依据是最后s的值=(44(页数-1))

二、查看网页源码并用re库提取信息

1.查看源码

这里的几个信息都是我们所需要的

2.re库提取信息

  1. a = re.findall(r'"raw_title":"(.*?)"', html) 
  2.    b = re.findall(r'"view_price":"(.*?)"', html) 
  3.    c = re.findall(r'"item_loc":"(.*?)"', html) 
  4.    d = re.findall(r'"view_sales":"(.*?)"', html) 

三:函数填写

这里我写了三个函数,第一个函数来获取html网页,代码如下:

  1. def GetHtml(url): 
  2.     r = requests.get(url,headers =headers) 
  3.     r.raise_for_status() 
  4.     r.encoding = r.apparent_encoding 
  5.     return r 

第二个用于获取网页的URL代码如下:

  1. def Geturls(q, x): 
  2.     url = "https://s.taobao.com/search?q=" + q + "&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm" \ 
  3.                                                  "=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306 " 
  4.     urls = [] 
  5.     urls.append(url) 
  6.     if x == 1: 
  7.         return urls 
  8.     for i in range(1, x ): 
  9.         url = "https://s.taobao.com/search?q="+ q + "&commend=all&ssid=s5-e&search_type=item" \ 
  10.               "&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306" \ 
  11.               "&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=" + str( 
  12.             i * 44) 
  13.         urls.append(url) 
  14.     return urls 

第三个用于获取我们需要的商品信息并写入Excel表格代码如下:

  1. def GetxxintoExcel(html): 
  2.     global count#定义一个全局变量count用于后面excel表的填写 
  3.     a = re.findall(r'"raw_title":"(.*?)"', html)#(.*?)匹配任意字符 
  4.     b = re.findall(r'"view_price":"(.*?)"', html) 
  5.     c = re.findall(r'"item_loc":"(.*?)"', html) 
  6.     d = re.findall(r'"view_sales":"(.*?)"', html) 
  7.     x = [] 
  8.     for i in range(len(a)): 
  9.         try: 
  10.             x.append((a[i],b[i],c[i],d[i]))#把获取的信息放入新的列表中 
  11.         except IndexError: 
  12.             break 
  13.     i = 0 
  14.     for i in range(len(x)): 
  15.         worksheet.write(count + i + 1, 0, x[i][0])#worksheet.write方法用于写入数据,第一个数字是行位置,第二个数字是列,第三个是写入的数据信息。 
  16.         worksheet.write(count + i + 1, 1, x[i][1]) 
  17.         worksheet.write(count + i + 1, 2, x[i][2]) 
  18.         worksheet.write(count + i + 1, 3, x[i][3]) 
  19.     count = count +len(x) #下次写入的行数是这次的长度+1 
  20.     return print("已完成"

四:主函数填写

  1. if __name__ == "__main__"
  2.     count = 0 
  3.     headers = { 
  4.         "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36" 
  5.         ,"cookie":""#cookie 是每个人独有的,因为反爬机制的缘故,爬取太快可能到后面要重新刷新一下自己的Cookie。 
  6.                 } 
  7.     q = input("输入货物"
  8.     x = int(input("你想爬取几页")) 
  9.     urls = Geturls(q,x) 
  10.     workbook = xlsxwriter.Workbook(q+".xlsx"
  11.     worksheet = workbook.add_worksheet() 
  12.     worksheet.set_column('A:A', 70) 
  13.     worksheet.set_column('B:B', 20) 
  14.     worksheet.set_column('C:C', 20) 
  15.     worksheet.set_column('D:D', 20) 
  16.     worksheet.write('A1''名称'
  17.     worksheet.write('B1''价格'
  18.     worksheet.write('C1''地区'
  19.     worksheet.write('D1''付款人数'
  20.     for url in urls: 
  21.         html = GetHtml(url) 
  22.         s = GetxxintoExcel(html.text) 
  23.         time.sleep(5) 
  24.     workbook.close()#在程序结束之前不要打开excel,excel表在当前目录下 

五:完整代码

  1. import re 
  2. import  requests 
  3. import xlsxwriter 
  4. import  time 
  5.  
  6. def GetxxintoExcel(html): 
  7.     global count 
  8.     a = re.findall(r'"raw_title":"(.*?)"', html) 
  9.     b = re.findall(r'"view_price":"(.*?)"', html) 
  10.     c = re.findall(r'"item_loc":"(.*?)"', html) 
  11.     d = re.findall(r'"view_sales":"(.*?)"', html) 
  12.     x = [] 
  13.     for i in range(len(a)): 
  14.         try: 
  15.             x.append((a[i],b[i],c[i],d[i])) 
  16.         except IndexError: 
  17.             break 
  18.     i = 0 
  19.     for i in range(len(x)): 
  20.         worksheet.write(count + i + 1, 0, x[i][0]) 
  21.         worksheet.write(count + i + 1, 1, x[i][1]) 
  22.         worksheet.write(count + i + 1, 2, x[i][2]) 
  23.         worksheet.write(count + i + 1, 3, x[i][3]) 
  24.     count = count +len(x) 
  25.     return print("已完成"
  26.  
  27.  
  28. def Geturls(q, x): 
  29.     url = "https://s.taobao.com/search?q=" + q + "&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm" \ 
  30.                                                  "=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306 " 
  31.     urls = [] 
  32.     urls.append(url) 
  33.     if x == 1: 
  34.         return urls 
  35.     for i in range(1, x ): 
  36.         url = "https://s.taobao.com/search?q="+ q + "&commend=all&ssid=s5-e&search_type=item" \ 
  37.               "&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306" \ 
  38.               "&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=" + str( 
  39.             i * 44) 
  40.         urls.append(url) 
  41.     return urls 
  42.  
  43.  
  44. def GetHtml(url): 
  45.     r = requests.get(url,headers =headers) 
  46.     r.raise_for_status() 
  47.     r.encoding = r.apparent_encoding 
  48.     return r 
  49.  
  50. if __name__ == "__main__"
  51.     count = 0 
  52.     headers = { 
  53.         "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36" 
  54.         ,"cookie":"" 
  55.                 } 
  56.     q = input("输入货物"
  57.     x = int(input("你想爬取几页")) 
  58.     urls = Geturls(q,x) 
  59.     workbook = xlsxwriter.Workbook(q+".xlsx"
  60.     worksheet = workbook.add_worksheet() 
  61.     worksheet.set_column('A:A', 70) 
  62.     worksheet.set_column('B:B', 20) 
  63.     worksheet.set_column('C:C', 20) 
  64.     worksheet.set_column('D:D', 20) 
  65.     worksheet.write('A1''名称'
  66.     worksheet.write('B1''价格'
  67.     worksheet.write('C1''地区'
  68.     worksheet.write('D1''付款人数'
  69.     xx = [] 
  70.     for url in urls: 
  71.         html = GetHtml(url) 
  72.         s = GetxxintoExcel(html.text) 
  73.         time.sleep(5) 
  74.     workbook.close() 

【编辑推荐】

  1. 红帽开放混合云 助力企业成为数字原生企业
  2. 分析鸿蒙系统helloworld程序是如何被调用,SYS_RUN做什么事情
  3. 5G为何突然间就“不火”了?
  4. 新方向、新功能:Python3.9 完整版面世了
  5. 请停止在Python中无休止使用列表
【责任编辑:姜华 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

云原生架构实践

云原生架构实践

新技术引领移动互联网进入急速赛道
共3章 | KaliArch

27人订阅学习

数据中心和VPDN网络建设案例

数据中心和VPDN网络建设案例

漫画+案例
共20章 | 捷哥CCIE

189人订阅学习

搭建数据中心实验Lab

搭建数据中心实验Lab

实验平台Datacenter
共5章 | ITGO(老曾)

119人订阅学习

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微