留言咨询
首页 > 图书分类 > 计算机系列 >
Python网络爬虫高级技术(微课版)双色

Python网络爬虫高级技术(微课版)双色

ISBN:978-7-5647-9632-7

主编:潘峰

出版社:电子科技大学出版社

出版/修订日期:2022.4

¥49.80元

本书共分为9 章:

      第1 章主要介绍Python 的安装、配置和主要开发环境的使用, 以及Python 的基础语法、字符串、数据类型、控制结构、函数和文件等;

      第2 章主要介绍爬虫的概念、意义、原理、分来、抓取策略和Robots 协议,以及反爬虫与反反爬虫的相关概念和网络基础知识;

      第3 章主要介绍了网页数据爬取常用的urllib 库和Requests 库的安装方法、浏览器开发者工具的使用、urllib 库的基本使用方法和Requests 库的基本使用方法;

     第4 章主要介绍了BeautifulSoup 库的安装、BeautifulSoup 库的基本元素, 以及bs4 库的HTML 内容遍历方法、bs4 库的HTML 格式输出、信息标记与提取等;

      第5 章主要介绍了RE 正则表达式的概念、语法、基本使用以及RE 库的贪婪匹配和最小匹配;

      第6 章主要介绍了lxml 基础与Xpath 基本使用方法;

      第7 章主要介绍了网络爬虫涉及的数据存储方式, 包括数据的基本存储、储存至MySQL 数据库和存储至MongoDB;

      第8 章主要介绍了Selenium 模拟浏览器的使用, 包括Selenium 安装、Web-Driver 的安装以及Selenium 的基本使用方法;

      第9 章主要介绍了Scrapy 框架, 包括Scrapy 框架介绍、Scrapy 框架解析、Scrapy 爬虫的基本使用方法。

本书特色

      一、夯实基础, 注重实践。本书根据“理论与实践相结合” 的教学原则, 结合课程特点, 首先通过由浅入深地介绍相关理论知识, 然后在夯实理论知识的基础上, 每个章节都设置综合案例展示, 做到理实一体。最后通过课后习题, 帮助

读者练习和巩固本项目所学知识和技能。

      二、课政有机融入。本书结合相关知识点设置了“思政视窗” 模块内容。在知识目标、能力目标和思政目标的指引下, 实现能力教育与思想政治教育同向同行的理念, 从而培养高思想、高素质、高技能的专业型人才。

      三、数字资源丰富多彩。本书提供了微课视频, 且微课时间大多不超过10分钟。另外, 本书还提供了习题答案、示例源代码、优质课件等配套教学资源。

1 章  Python 环境搭建及基础学习  1

  本章要点  1

  思政目标  1

    1.1  Python 的安装配置  1

    1.2  IDE 工具安装 5

    1.3  Python 基础语法  13

    1.4  字符串及其操作  19

    1.5  组合数据类型  22

    1.6  控制语句  28

    1.7  函数  33

    1.8  文件的读写操作  34

    1.9  面向对象  35

  小结  36

  思政视窗  37

  课后习题  37

2 章  爬虫和网络基础 38

  本章要点  38

  思政目标  38

    2.1  认识爬虫  38

    2.2  爬虫的意义  39

    2.3  爬虫的原理  40

    2.4  爬虫的分类  41

    2.5  爬虫的抓取策略  43

    2.6  爬虫之爬亦有道———Robots 协议  45

    2.7  反爬虫与反反爬虫  47

    2.8  网络基础  51

     小结  55

  思政视窗  55

  课后习题  55

3 章  网页数据爬取———urllib 与 Requests  56

  本章要点  56

  思政目标  56

    3.1  浏览器开发者工具  56

    3.2  urllib 库 58

    3.3  Requests 库  67

    3.4  案例: 亚马逊、 京东网页数据爬取  79

  小结  84

  思政视窗  85

  课后习题  85

4 章  BeautifulSoup 爬虫  86

  本章要点  86

  思政目标  86

    4.1  BeautifulSoup 库的安装  86

    4.2  BeautifulSoup 库的基本元素  88

    4.3  bs4 库的 HTML 内容遍历方法  90

    4.4  bs4 库的 HTML 格式输出  93

    4.5  信息标记与提取  95

    4.6  案例: 租房信息  103

  小结  107

  思政视窗  107

  课后习题  108

5 章  Re 正则表达式详解  109

  本章要点  109

  思政目标  109

    5.1  正则表达式概述  109

    5.2  正则表达式的语法  111

    5.3  Re 库的基本使用  113

    5.4  Re 库的贪婪匹配和最小匹配  118

    5.5  案例: 抓取商品价格信息  119

  小结  128

  思政视窗  128

  课后习题  128

6 章  lxml 与 XPath  129

  本章要点  129

  思政目标  129

    6.1  lxml 基础  129

    6.2  XPath  134

    6.3  案例: 利用 lxml 的 XPath 爬取网页内容  146

  小结  155

  思政视窗  155

  课后习题  155

7 章  数据存储  157

  本章要点  157

  思政目标  157

         7.1 数据的基本存储 (TXT、 CSV、 JSON)  157

    7.2  数据存储至 MySQL 数据库  163

    7.3  数据存储至 MongoDB  168

  小结  175

  思政视窗  175

  课后习题  176

8 章  Selenium 模拟浏览器 178

  本章要点  178

  思政目标  178

    8.1  安装 Selenium 模拟浏览器  178

    8.2  安装 WebDriver  179

    8.3  Selenium 的基本使用方法 182

    8.4  案例: 豆瓣读书信息爬取  194

  小结  197

  思政视窗  197

  课后习题  197

9 章  Scrapy 框架  199

  本章要点  199

  思政目标  199

    9.1  Scrapy 爬虫框架介绍 199

    9.2  Scrapy 爬虫框架解析 202

    9.3  Scrapy 爬虫基本使用 205

    9.4  案例: 机票信息爬取  209

  小结  215

  思政视窗  215

  课后习题  215

参考文献  216

配套资源下载

登录下载

目录下载

登录下载

样章下载

下载
还有疑问? 马上咨询在线专业老师, 快速回复 解答您的教材问题! 邮件咨询