利用python爬取淘宝的评论数据-天下标王

程序员最近都爱上了这个网站  程序员们快来瞅瞅吧!  it98k网:it98k.com

本站消息

站长简介/公众号

  出租广告位,需要合作请联系站长

+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

利用python爬取淘宝的评论数据

发布于2020-06-18 22:56     阅读(1269)     评论(0)     点赞(18)     收藏(3)


以淘宝的联想拯救者为例,界面如下

目标是爬取下方的评论数据

代码如下,首先载入必须的库

  1. import requests
  2. import csv
  3. import re
  4. import numpy as np
  5. import pandas as pd
  6. import time
  7. import random

然后右键检查,依次点击network,搜索符号,然后在框框里复制粘贴一段评论,如下图

然后找到general下面url,将其复制下来(这里是真实的网址,也就是藏有评论信息的网址)

将这个网址赋值粘贴赋值给url,如下:

url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=616836000618&spuId=1628872455&sellerId=126446588&order=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvi9vavNUvUvCkvvvvvjiPnLqW1j1nn2SpzjthPmP91jt8nLdhtjDvP2s91jiPdphvhIovd8ivvvCxcmZNLXcXrb8qKOhCvv147tgvUn147DdYEY%2FrvpvBCvheU0pvvnvQEBYb3Oy3%2B2eCvpvW7D6e9Wsw7Di4YVjNdphvhUWC8AYLvvCHZbhSpaVxnsItvpvhvvCvpvwCvva47rMNzHlZiQhvCvvvpZoEvpvVvpCmp%2F2WuphvmvvvpLP0vIi8Kphv8vvvphvvvvvvvvCVB9vvvxhvvhXVvvmCWvvvByOvvUhwvvCVB9vv9BQEvpCWvrqITC0xdBKKdox%2Ftj7KHd8rakS6D40OV8tK2O71n3oAdcZIibmAdXuKNxYrSBh7rEgDNrBl5tu4V5xPAWv4VBOqb64B9Cka%2Bfvsx9hCvvOv9hCvvvvPvpvhvv2MMsyCvvpvvhCv3QhvCvmvphmrvpvBCUV45uhvvv7YEBYb3Oy3%2B2ervpvEvvjigLZvvW31dphvmpvCTNynvv28Q46Cvvyv9OVZi9vvL29tvpvhvvCvp86Cvvyv9EkaJvvv6ZptvpvhvvCvp86Cvvyv9E8ZmQvv6TArvpvo3vHufTwvvnOQEBYnDae6%2BdKt9phvHHifDp2vzHi473L5tMsd7ux40nYERphvCvvvphmCvpvZ7D11v8jw7Di48Lf5MEi49lusz6kCvpvW7D%2B0vvbw7Di4bEdN&needFold=0&_ksTS=1592317241348_1901&callback=jsonp1902'

然后去找游览器信息,去模拟游览器,如下依次点击,然后在Headers下面,找到referer,user-agent和cookie复制下来

像这样放入Headers里面,注意加入引号

  1. headers = {
  2. 'referer': 'https://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.1.5549375alBtq95&id=616836000618&areaId=330300&standard=1&user_id=126446588&cat_id=2&is_b=1&rn=83c67105:103646;20122:15515349',
  3. #referer我是从哪个页面发起的服务器请求
  4. 'user-agent': 'Moz x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36',
  5. 'cookie': 'sm4=330300; cna=KJpgF1FQkiwCAXAOZ/s8g0Y1; dnk=%5Cu9ED1%5Cu8840zzy; hng=HK%7Czh-TW%7CHKD%7C344; uc1=pas=0&cookie21=VT5L2FSpccLuJBreK%2BBd&cookie14=UoTV7gLdFWuX4g%3D%3D&existShop=false&cookie16=W5iHLLyFl=eBgLgff7QYN',
  6. }

像这样设置好了之后,就可以正式爬取,比较安全

  1. url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=616836000618&spuId=1628872455&sellerId=126446588&order=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvi9vavNUvUvCkvvvvvjiPnLqW1j1nn2SpzjthPmP91jt8nLdhtjDvP2s91jiPdphvhIovd8ivvvCxcmZNLXcXrb8qKOhCvv147tgvUn147DdYEY%2FrvpvBCvheU0pvvnvQEBYb3Oy3%2B2eCvpvW7D6e9Wsw7Di4YVjNdphvhUWC8AYLvvCHZbhSpaVxnsItvpvhvvCvpvwCvva47rMNzHlZiQhvCvvvpZoEvpvVvpCmp%2F2WuphvmvvvpLP0vIi8Kphv8vvvphvvvvvvvvCVB9vvvxhvvhXVvvmCWvvvByOvvUhwvvCVB9vv9BQEvpCWvrqITC0xdBKKdox%2Ftj7KHd8rakS6D40OV8tK2O71n3oAdcZIibmAdXuKNxYrSBh7rEgDNrBl5tu4V5xPAWv4VBOqb64B9Cka%2Bfvsx9hCvvOv9hCvvvvPvpvhvv2MMsyCvvpvvhCv3QhvCvmvphmrvpvBCUV45uhvvv7YEBYb3Oy3%2B2ervpvEvvjigLZvvW31dphvmpvCTNynvv28Q46Cvvyv9OVZi9vvL29tvpvhvvCvp86Cvvyv9EkaJvvv6ZptvpvhvvCvp86Cvvyv9E8ZmQvv6TArvpvo3vHufTwvvnOQEBYnDae6%2BdKt9phvHHifDp2vzHi473L5tMsd7ux40nYERphvCvvvphmCvpvZ7D11v8jw7Di48Lf5MEi49lusz6kCvpvW7D%2B0vvbw7Di4bEdN&needFold=0&_ksTS=1592317241348_1901&callback=jsonp1902'
  2. type_one =[]
  3. type_two=[]
  4. type_three = []
  5. for i in range(1,3):
  6. url2 = 'https://rate.tmall.com/list_detail_rate.htm?itemId=616836000618&spuId=1628872455&sellerId=126446588&order=3&currentPage='+str(i)+'&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvi9vavNUvUvCkvvvvvjiPnLqW1j1nn2SpzjthPmP91jt8nLdhtjDvP2s91jiPdphvhIovd8ivvvCxcmZNLXcXrb8qKOhCvv147tgvUn147DdYEY%2FrvpvBCvheU0pvvnvQEBYb3Oy3%2B2eCvpvW7D6e9Wsw7Di4YVjNdphvhUWC8AYLvvCHZbhSpaVxnsItvpvhvvCvpvwCvva47rMNzHlZiQhvCvvvpZoEvpvVvpCmp%2F2WuphvmvvvpLP0vIi8Kphv8vvvphvvvvvvvvCVB9vvvxhvvhXVvvmCWvvvByOvvUhwvvCVB9vv9BQEvpCWvrqITC0xdBKKdox%2Ftj7KHd8rakS6D40OV8tK2O71n3oAdcZIibmAdXuKNxYrSBh7rEgDNrBl5tu4V5xPAWv4VBOqb64B9Cka%2Bfvsx9hCvvOv9hCvvvvPvpvhvv2MMsyCvvpvvhCv3QhvCvmvphmrvpvBCUV45uhvvv7YEBYb3Oy3%2B2ervpvEvvjigLZvvW31dphvmpvCTNynvv28Q46Cvvyv9OVZi9vvL29tvpvhvvCvp86Cvvyv9EkaJvvv6ZptvpvhvvCvp86Cvvyv9E8ZmQvv6TArvpvo3vHufTwvvnOQEBYnDae6%2BdKt9phvHHifDp2vzHi473L5tMsd7ux40nYERphvCvvvphmCvpvZ7D11v8jw7Di48Lf5MEi49lusz6kCvpvW7D%2B0vvbw7Di4bEdN&needFold=0&_ksTS=1592317241348_1901&callback=jsonp1902'
  7. time.sleep(random.randint(3,9))
  8. data = requests.get(url2,headers = headers).text
  9. pat = re.compile('"rateContent":"(.*?)","fromMall"')
  10. pata = re.compile('"rateDate":"(.*?)","rateContent"')
  11. patb = re.compile('"auctionSku":"(.*?)","anony"')
  12. type_one.extend(pat.findall(data))
  13. type_two.extend(pata.findall(data))
  14. type_three.extend(patb.findall(data))
  15. print('第'+ str(i) + '页爬取完毕')
  16. dict = {'时间':type_one,
  17. '类型':type_two,
  18. '评论':type_three}
  19. new_frame = pd.DataFrame(dict)
  20. new_frame

上面是爬取了总共2页,可以通过设置range里的值,比如range(1,10)就是爬取9页了,这里注意time.sleep函数的作用是模拟人观看网址的状态,因为爬虫速度可以很快,瞬间爬完一页面就可以翻页了,这样很容易被网址判断为爬虫,然后你的IP就会被记住,网址就暂时不对你开放了,所以我设置了随机生成3-9秒,当然你可以设置更小一点,不过安全性就会降低,这里我为了保险起见,还是设置比较高。

上图为爬取结果,如果有任何问题,欢迎留言。

原文链接:https://blog.csdn.net/z463544804/article/details/106797987



所属网站分类: 技术文章 > 博客

作者:徐蓉蓉

链接:https://www.pythonheidong.com/blog/article/424132/731984614021d3da8298/

来源:python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

18 0
收藏该文
已收藏

评论内容:(最多支持255个字符)





相关内容推荐

新站网站优化教程曲阜网站优化推广威海商城网站优化公司宁波怎么优化网站西宁哪里有网站优化网站后端代码优化南湖网站优化计划网站快速优化排名方法站群有利于网站优化高新区网站seo优化推荐衡阳网站优化费用多少黑龙江质量网站优化产品介绍优化公司网站太简单易速达南宁优化网站网络服务外贸网站优化建设广州木工机械网站SEO优化沧州网站优化出售优化网站权重官方网站优化公司哪个好许昌百度营销网站优化南宫seo网站优化昆明如何网站优化海曙区网站优化建安区网站优化的收费网站图片优化推广企业网站如何优化价值专业网站seo优化案例行唐优化网站价格网站排名优化_乐云践新完整版的网站优化萝岗公司网站优化推广教程优化网站软件只选vs火17星侯马如何优化网站网站重复度是怎样优化的大型网站优化费用多少莆田营销型网站优化平台网站文章自动优化网站优化营销推广哪家好海口优化推广网站广州专业网站百度排名优化外包网站目录优化注意哪些佛山网站的优化推广罗湖站长网站优化怎么做网站优化排名推广厂家报价长泰县网站seo优化排名博客类网站怎么优化百度优化网站关键词排优化网站排名 推荐速升云搜狗网站优化电话厦门专业网站seo优化原阳网站优化通州网站优化推广哪家好深圳免费的网站优化公司哪个好平顶山企业网站优化滨州网站排名优化东莞校园网站优化托管广州网站优化网站深圳网站专题优化网站关键词排名优化怎么做古冶靠谱的网站优化哪家好上海网站优化价格怎么算盘锦企业网站优化黄山网站排名优化模式有哪些龙岩网站优化报价常德网站seo优化公司潮州企业网站关键词优化公司麻章最优企业网站优化濮阳网站优化效果谁可以做网站优化排名推广南沙百度网站优化定制版网站优化有哪些莲花网站优化遵义网站优化哪家好搜索框如何设计优化网站自动网站优化多少钱上海好的婚纱摄影网站优化云南网站排名优化公司邳州网站优化工作室优化结合网站操作现在网站优化最新方案网站的页面优化ppt大鹏网站优化服务商邹城优化网站天津专业seo网站排名优化专业的网站如何seo优化引流南宁网站优化技巧公司网站优化报告模板怎样优化网站wq扌云速捷樟木头网站优化哪个好优化网站一般几个关键词网站整站优化能带来业务吗湖南网站优化搜行者SEO四川成都网站优化邛崃网站优化网站权重优化套餐绍兴网站排名优化海城seo网站排名优化 快排青岛网站优化技术徐州网站seo如何优化价格滕州网站优化价格龙岗网站优化排名电话西湖区网站优化怎么做大板网站优化公司网站排名优化尉嘶云速捷没错网站建设优化当火2星优秀南昌网站优化推广网站页面优化的益处和田网站优化推广哪家好个人seo优化网站日照网站优化哪家专业怎么刷优化自己网站排名深圳受欢迎的免费网站优化怀柔什么是网站优化有关婚纱店的网站优化单个网站怎么优化适应式网站好优化信号肽优化网站教育网站如何优化seo网站优化方案范文便宜的网站优化的有效方式优化公司如何优化网站璧山优化网站排名嘉定区百度网站优化费用优化升级办公网站 请示石家庄网站优化培训学校企业网站优化信息企业网站排名优化就约火17星网站运营及优化象山网站优化哪家好优化网站排名SEO网站的优化快选它云速捷选择亦庄网站推广优化方案陇南市专业的网站优化沁阳网站自然优化哪里靠谱如何重构优化网站寻乌网站优化平台新沂网站优化公司企业湖北正规网站优化价格淮安网站seo优化服务洛阳官网网站优化系统阜康网站seo优化哪家好网络运营如何优化网站阜阳网站优化推荐中国企业商务网站优化招远全网营销网站优化企业网站如何优化十点建议南沙网站优化哪家好seo网站外链的优化红河湖南网站优化推广下城区百度网站优化福州信誉好的网站优化台州网站优化公司报价厦门网站优化工程师网站自然优化排名哪些渠道有用甘南网站优化推广多少钱马鞍山市网站seo优化温江网站优化公司厦门网站优化服务有哪些如何优化网站文章标题武汉光谷优化网站网站推广优化陆金手指科捷3莱芜多语言网站优化秦皇岛网站搜索引擎优化成都市网站优化价格百度优化网站关键词排名价格网站关键词排名优化哪家正规网站结构的优化好几个软件同时优化网站南城网站搜索引擎优化工具寮步优化网站设计李沧网站优化汉阳网站seo优化方案家电网站seo优化方法独立网站优化是什么有实力的企业网站优化哪家专业唐山海外网站优化廊坊市网站seo优化排名鹤壁网站优化推广渠道营口湖南网站优化推广网站优化骗局金华网站seo优化报价鹤壁淇县网站优化洪梅网站优化推广百度网站优化 site双辽百度网站优化贵阳温州seo网站优化方案网站排名优化れ在宙斯温馨网站图片优化推广网站周日有必要优化吗网站seo优化服务哪家实惠如何优化网站一流火4星完美网站优化厂商湖北很好的网站优化用户体验徐州网站百度快照优化怎么优化网站33云刂速刂捷四川网站优化免费咨询网站导航优化主要包括主导航栏秦皇岛优化网站报价新站优化网站开封市网站seo优化排名

合作伙伴

天下标王

龙岗网络公司
深圳网站优化
龙岗网站建设
坪山网站建设
百度标王推广
天下网标王
SEO优化按天计费
SEO按天计费系统