大家好,我是@马哥python说 ,一枚10年程序猿。
今天分享一期python爬虫案例,爬取目标是大麦网近期演出活动:
(资料图)
https://search.damai.cn/search.html?keyword=
爬取结果截图:
含10个字段:
页码,演出标题,链接地址,演出时间,演出城市,演出地点,售价,演出类别,演出子类别,售票状态。
演示视频:
以上。
首先,导入需要用到的库:
定义一个请求头:
其中,cookie的获取方式如下:
定义请求地址url:
定义请求参数params,从PayLoad中获取:
发送请求,并且用json格式解析数据:
以"演出标题"字段为例:
其他字段同理,不再赘述。
最后是保存到csv文件:
其中,encoding参数设置为utf_8_sig,目的是防止csv文件产生乱码,不便读取。
整个代码中,还含有:设置sleep随机等待、判断循环停止条件、防止多次写入表头、用户input输入过滤条件、往csv文件名添加时间戳等功能,篇幅有限,详细请见原始代码。
代码演示:
爱学习的小伙伴,本次分析过程的完整python源码及结果数据,我已打包好,并上传至我的微信公众号"老男孩的平凡之路",后台回复"爬大麦"即可获取。
我是@马哥python说,一名10年程序猿,近期持续分享python干货中!
X 关闭
Copyright © 2015-2022 华中机械网版权所有 备案号:京ICP备12018864号-26 联系邮箱:2 913 236 @qq.com