
【授课时间】1天,6小时/天
【授课对象】Python开发工程师,Python数据分析工程师,Python爬虫工程师,Python数据挖掘工程师
【课程目标】通过本模块的学习,学员可以了解网络爬虫的原理,它的大致思路是什么
【授课方式】现场教学,代码演示
【课程大纲】
第一部分: 初见网络爬虫
① 什么是网络爬虫
② 网络爬虫基本原理
③ 网页的构造
④ HTTP介绍
⑤ 网络爬虫的“盗亦有道”
第二部分: 数据提取
① 正则表达式简介
② BeautifulSoup库简介
③ Xpath简介
④ 结构化数据与非结构化数据提取
第三部分: 反爬虫策略
① 如何让网络爬虫看起来像人类
② 修改请求头
③ 处理cookie
第四部分: 存储数据
① 把数据存储到CSV
② 把数据存储到MySQL
③ 如何处理微软word和excel
返回课程列表