本书共分为9 章:
第1 章主要介绍Python 的安装、配置和主要开发环境的使用, 以及Python 的基础语法、字符串、数据类型、控制结构、函数和文件等;
第2 章主要介绍爬虫的概念、意义、原理、分来、抓取策略和Robots 协议,以及反爬虫与反反爬虫的相关概念和网络基础知识;
第3 章主要介绍了网页数据爬取常用的urllib 库和Requests 库的安装方法、浏览器开发者工具的使用、urllib 库的基本使用方法和Requests 库的基本使用方法;
第4 章主要介绍了BeautifulSoup 库的安装、BeautifulSoup 库的基本元素, 以及bs4 库的HTML 内容遍历方法、bs4 库的HTML 格式输出、信息标记与提取等;
第5 章主要介绍了RE 正则表达式的概念、语法、基本使用以及RE 库的贪婪匹配和最小匹配;
第6 章主要介绍了lxml 基础与Xpath 基本使用方法;
第7 章主要介绍了网络爬虫涉及的数据存储方式, 包括数据的基本存储、储存至MySQL 数据库和存储至MongoDB;
第8 章主要介绍了Selenium 模拟浏览器的使用, 包括Selenium 安装、Web-Driver 的安装以及Selenium 的基本使用方法;
第9 章主要介绍了Scrapy 框架, 包括Scrapy 框架介绍、Scrapy 框架解析、Scrapy 爬虫的基本使用方法。
本书特色
一、夯实基础, 注重实践。本书根据“理论与实践相结合” 的教学原则, 结合课程特点, 首先通过由浅入深地介绍相关理论知识, 然后在夯实理论知识的基础上, 每个章节都设置综合案例展示, 做到理实一体。最后通过课后习题, 帮助
读者练习和巩固本项目所学知识和技能。
二、课政有机融入。本书结合相关知识点设置了“思政视窗” 模块内容。在知识目标、能力目标和思政目标的指引下, 实现能力教育与思想政治教育同向同行的理念, 从而培养高思想、高素质、高技能的专业型人才。
三、数字资源丰富多彩。本书提供了微课视频, 且微课时间大多不超过10分钟。另外, 本书还提供了习题答案、示例源代码、优质课件等配套教学资源。