Python网络爬虫高级技术（微课版）双色

首页 > 图书分类 > 计算机系列 >

Python网络爬虫高级技术（微课版）双色

ISBN：978-7-5647-9632-7

主编：潘峰

出版社：电子科技大学出版社

出版/修订日期：2026.1

￥49.80元

图书简介
目录
资源下载

本书共分为9 章:

第1 章主要介绍Python 的安装、配置和主要开发环境的使用, 以及Python 的基础语法、字符串、数据类型、控制结构、函数和文件等;

第2 章主要介绍爬虫的概念、意义、原理、分来、抓取策略和Robots 协议,以及反爬虫与反反爬虫的相关概念和网络基础知识;

第3 章主要介绍了网页数据爬取常用的urllib 库和Requests 库的安装方法、浏览器开发者工具的使用、urllib 库的基本使用方法和Requests 库的基本使用方法;

第4 章主要介绍了BeautifulSoup 库的安装、BeautifulSoup 库的基本元素, 以及bs4 库的HTML 内容遍历方法、bs4 库的HTML 格式输出、信息标记与提取等;

第5 章主要介绍了RE 正则表达式的概念、语法、基本使用以及RE 库的贪婪匹配和最小匹配;

第6 章主要介绍了lxml 基础与Xpath 基本使用方法;

第7 章主要介绍了网络爬虫涉及的数据存储方式, 包括数据的基本存储、储存至MySQL 数据库和存储至MongoDB;

第8 章主要介绍了Selenium 模拟浏览器的使用, 包括Selenium 安装、Web-Driver 的安装以及Selenium 的基本使用方法;

第9 章主要介绍了Scrapy 框架, 包括Scrapy 框架介绍、Scrapy 框架解析、Scrapy 爬虫的基本使用方法。

本书特色

一、夯实基础, 注重实践。本书根据“理论与实践相结合” 的教学原则, 结合课程特点, 首先通过由浅入深地介绍相关理论知识, 然后在夯实理论知识的基础上, 每个章节都设置综合案例展示, 做到理实一体。最后通过课后习题, 帮助

读者练习和巩固本项目所学知识和技能。

二、课政有机融入。本书结合相关知识点设置了“思政视窗” 模块内容。在知识目标、能力目标和思政目标的指引下, 实现能力教育与思想政治教育同向同行的理念, 从而培养高思想、高素质、高技能的专业型人才。

三、数字资源丰富多彩。本书提供了微课视频, 且微课时间大多不超过10分钟。另外, 本书还提供了习题答案、示例源代码、优质课件等配套教学资源。

第1 章　 Python 环境搭建及基础学习 1

　本章要点 1

　思政目标 1

　　 1.1　 Python 的安装配置 1

　　 1.2　 IDE 工具安装 5

　　 1.3　 Python 基础语法 13

　　 1.4　字符串及其操作 19

　　 1.5　组合数据类型 22

　　 1.6　控制语句 28

　　 1.7　函数 33

　　 1.8　文件的读写操作 34

　　 1.9　面向对象 35

　小结 36

　思政视窗 37

　课后习题 37

第2 章　爬虫和网络基础 38

　本章要点 38

　思政目标 38

　　 2.1　认识爬虫 38

　　 2.2　爬虫的意义 39

　　 2.3　爬虫的原理 40

　　 2.4　爬虫的分类 41

　　 2.5　爬虫的抓取策略 43

　　 2.6　爬虫之爬亦有道———Robots 协议 45

　　 2.7　反爬虫与反反爬虫 47

　　 2.8　网络基础 51

小结 55

　思政视窗 55

　课后习题 55

第3 章　网页数据爬取———urllib 与 Requests 56

　本章要点 56

　思政目标 56

　　 3.1　浏览器开发者工具 56

　　 3.2　 urllib 库 58

　　 3.3　 Requests 库 67

　　 3.4　案例: 亚马逊、京东网页数据爬取 79

　小结 84

　思政视窗 85

　课后习题 85

第4 章　 BeautifulSoup 爬虫 86

　本章要点 86

　思政目标 86

　　 4.1　 BeautifulSoup 库的安装 86

　　 4.2　 BeautifulSoup 库的基本元素 88

　　 4.3　 bs4 库的 HTML 内容遍历方法 90

　　 4.4　 bs4 库的 HTML 格式输出 93

　　 4.5　信息标记与提取 95

　　 4.6　案例: 租房信息 103

　小结 107

　思政视窗 107

　课后习题 108

第5 章　 Re 正则表达式详解 109

　本章要点 109

　思政目标 109

　　 5.1　正则表达式概述 109

　　 5.2　正则表达式的语法 111

　　 5.3　 Re 库的基本使用 113

　　 5.4　 Re 库的贪婪匹配和最小匹配 118

　　 5.5　案例: 抓取商品价格信息 119

　小结 128

　思政视窗 128

　课后习题 128

第6 章　 lxml 与 XPath 129

　本章要点 129

　思政目标 129

　　 6.1　 lxml 基础 129

　　 6.2　 XPath 134

　　 6.3　案例: 利用 lxml 的 XPath 爬取网页内容 146

　小结 155

　思政视窗 155

　课后习题 155

第7 章　数据存储 157

　本章要点 157

　思政目标 157

7.1　数据的基本存储 (TXT、 CSV、 JSON) 157

　　 7.2　数据存储至 MySQL 数据库 163

　　 7.3　数据存储至 MongoDB 168

　小结 175

　思政视窗 175

　课后习题 176

第8 章　 Selenium 模拟浏览器 178

　本章要点 178

　思政目标 178

　　 8.1　安装 Selenium 模拟浏览器 178

　　 8.2　安装 WebDriver 179

　　 8.3　 Selenium 的基本使用方法 182

　　 8.4　案例: 豆瓣读书信息爬取 194

　小结 197

　思政视窗 197

　课后习题 197

第9 章　 Scrapy 框架 199

　本章要点 199

　思政目标 199

　　 9.1　 Scrapy 爬虫框架介绍 199

　　 9.2　 Scrapy 爬虫框架解析 202

　　 9.3　 Scrapy 爬虫基本使用 205

　　 9.4　案例: 机票信息爬取 209

　小结 215

　思政视窗 215

　课后习题 215

参考文献 216

Python网络爬虫高级技术（微课版）双色

热门文章

常见问题解答