第1 章 Python 环境搭建及基础学习 ……………………………………… 1
本章要点 …………………………………………………………………………… 1
思政目标 …………………………………………………………………………… 1
1. 1 Python 的安装配置 ……………………………………………………… 1
1. 2 IDE 工具安装……………………………………………………………… 5
1. 3 Python 基础语法 ………………………………………………………… 13
1. 4 字符串及其操作 ………………………………………………………… 19
1. 5 组合数据类型 …………………………………………………………… 22
1. 6 控制语句 ………………………………………………………………… 28
1. 7 函数 ……………………………………………………………………… 33
1. 8 文件的读写操作 ………………………………………………………… 34
1. 9 面向对象 ………………………………………………………………… 35
小结 ……………………………………………………………………………… 36
思政视窗 ………………………………………………………………………… 37
课后习题 ………………………………………………………………………… 37
第2 章 爬虫和网络基础……………………………………………………… 38
本章要点 ………………………………………………………………………… 38
思政目标 ………………………………………………………………………… 38
2. 1 认识爬虫 ………………………………………………………………… 38
2. 2 爬虫的意义 ……………………………………………………………… 39
2. 3 爬虫的原理 ……………………………………………………………… 40
2. 4 爬虫的分类 ……………………………………………………………… 41
2. 5 爬虫的抓取策略 ………………………………………………………… 43
2. 6 爬虫之爬亦有道———Robots 协议 ……………………………………… 45
2. 7 反爬虫与反反爬虫 ……………………………………………………… 47
2. 8 网络基础 ………………………………………………………………… 51
小结 ……………………………………………………………………………… 55
思政视窗 ………………………………………………………………………… 55
课后习题 ………………………………………………………………………… 55
第3 章 网页数据爬取———urllib 与 Requests ………………………… 56
本章要点 ………………………………………………………………………… 56
思政目标 ………………………………………………………………………… 56
3. 1 浏览器开发者工具 ……………………………………………………… 56
3. 2 urllib 库…………………………………………………………………… 58
3. 3 Requests 库 ……………………………………………………………… 67
3. 4 案例: 亚马逊、 京东网页数据爬取 …………………………………… 79
小结 ……………………………………………………………………………… 84
思政视窗 ………………………………………………………………………… 85
课后习题 ………………………………………………………………………… 85
第4 章 BeautifulSoup 爬虫 ………………………………………………… 86
本章要点 ………………………………………………………………………… 86
思政目标 ………………………………………………………………………… 86
4. 1 BeautifulSoup 库的安装 ………………………………………………… 86
4. 2 BeautifulSoup 库的基本元素 …………………………………………… 88
4. 3 bs4 库的 HTML 内容遍历方法 ………………………………………… 90
4. 4 bs4 库的 HTML 格式输出 ……………………………………………… 93
4. 5 信息标记与提取 ………………………………………………………… 95
4. 6 案例: 租房信息 ……………………………………………………… 103
小结 ……………………………………………………………………………… 107
思政视窗 ………………………………………………………………………… 107
课后习题 ………………………………………………………………………… 108
第5 章 Re 正则表达式详解 ……………………………………………… 109
本章要点 ………………………………………………………………………… 109
思政目标 ………………………………………………………………………… 109
5. 1 正则表达式概述 ……………………………………………………… 109
5. 2 正则表达式的语法 …………………………………………………… 111
5. 3 Re 库的基本使用 ……………………………………………………… 113
5. 4 Re 库的贪婪匹配和最小匹配 ………………………………………… 118
5. 5 案例: 抓取商品价格信息 …………………………………………… 119
小结 ……………………………………………………………………………… 128
思政视窗 ………………………………………………………………………… 128
课后习题 ………………………………………………………………………… 128
第6 章 lxml 与 XPath ……………………………………………………… 129
本章要点 ………………………………………………………………………… 129
思政目标 ………………………………………………………………………… 129
6. 1 lxml 基础 ……………………………………………………………… 129
6. 2 XPath …………………………………………………………………… 134
6. 3 案例: 利用 lxml 的 XPath 爬取网页内容 …………………………… 146
小结 ……………………………………………………………………………… 155
思政视窗 ………………………………………………………………………… 155
课后习题 ………………………………………………………………………… 155
第7 章 数据存储 …………………………………………………………… 157
本章要点 ………………………………………………………………………… 157
思政目标 ………………………………………………………………………… 157
7. 1 数据的基本存储 (TXT、 CSV、 JSON) ……………………………… 157
7. 2 数据存储至 MySQL 数据库 …………………………………………… 163
7. 3 数据存储至 MongoDB ………………………………………………… 168
小结 ……………………………………………………………………………… 175
思政视窗 ………………………………………………………………………… 175
课后习题 ………………………………………………………………………… 176
第8 章 Selenium 模拟浏览器……………………………………………… 178
本章要点 ………………………………………………………………………… 178
思政目标 ………………………………………………………………………… 178
8. 1 安装 Selenium 模拟浏览器 …………………………………………… 178
8. 2 安装 WebDriver ………………………………………………………… 179
8. 3 Selenium 的基本使用方法……………………………………………… 182
8. 4 案例: 豆瓣读书信息爬取 …………………………………………… 194
小结 ……………………………………………………………………………… 197
思政视窗 ………………………………………………………………………… 197
课后习题 ………………………………………………………………………… 197
第9 章 Scrapy 框架 ………………………………………………………… 199
本章要点 ………………………………………………………………………… 199
思政目标 ………………………………………………………………………… 199
9. 1 Scrapy 爬虫框架介绍…………………………………………………… 199
9. 2 Scrapy 爬虫框架解析…………………………………………………… 202
9. 3 Scrapy 爬虫基本使用…………………………………………………… 205
9. 4 案例: 机票信息爬取 ………………………………………………… 209
小结 ……………………………………………………………………………… 215
思政视窗 ………………………………………………………………………… 215
课后习题 ………………………………………………………………………… 215
参考文献 ………………………………………………………………………… 216