留言咨询
首页 > 图书分类 > 计算机系列 >
Python网络爬虫高级技术(微课版)双色

Python网络爬虫高级技术(微课版)双色

ISBN:978-7-5647-9632-7

主编:潘峰

出版社:电子科技大学出版社

出版/修订日期:2022.04

¥49.80

本书共分为9 章:

      第1 章主要介绍Python 的安装、配置和主要开发环境的使用, 以及Python 的基础语法、字符串、数据类型、控制结构、函数和文件等;

      第2 章主要介绍爬虫的概念、意义、原理、分来、抓取策略和Robots 协议,以及反爬虫与反反爬虫的相关概念和网络基础知识;

      第3 章主要介绍了网页数据爬取常用的urllib 库和Requests 库的安装方法、浏览器开发者工具的使用、urllib 库的基本使用方法和Requests 库的基本使用方法;

     第4 章主要介绍了BeautifulSoup 库的安装、BeautifulSoup 库的基本元素, 以及bs4 库的HTML 内容遍历方法、bs4 库的HTML 格式输出、信息标记与提取等;

      第5 章主要介绍了RE 正则表达式的概念、语法、基本使用以及RE 库的贪婪匹配和最小匹配;

      第6 章主要介绍了lxml 基础与Xpath 基本使用方法;

      第7 章主要介绍了网络爬虫涉及的数据存储方式, 包括数据的基本存储、储存至MySQL 数据库和存储至MongoDB;

      第8 章主要介绍了Selenium 模拟浏览器的使用, 包括Selenium 安装、Web-Driver 的安装以及Selenium 的基本使用方法;

      第9 章主要介绍了Scrapy 框架, 包括Scrapy 框架介绍、Scrapy 框架解析、Scrapy 爬虫的基本使用方法。

本书特色

      一、夯实基础, 注重实践。本书根据“理论与实践相结合” 的教学原则, 结合课程特点, 首先通过由浅入深地介绍相关理论知识, 然后在夯实理论知识的基础上, 每个章节都设置综合案例展示, 做到理实一体。最后通过课后习题, 帮助

读者练习和巩固本项目所学知识和技能。

      二、课政有机融入。本书结合相关知识点设置了“思政视窗” 模块内容。在知识目标、能力目标和思政目标的指引下, 实现能力教育与思想政治教育同向同行的理念, 从而培养高思想、高素质、高技能的专业型人才。

      三、数字资源丰富多彩。本书提供了微课视频, 且微课时间大多不超过10分钟。另外, 本书还提供了习题答案、示例源代码、优质课件等配套教学资源。

第1 章  Python 环境搭建及基础学习 ……………………………………… 1
  本章要点 …………………………………………………………………………… 1
  思政目标 …………………………………………………………………………… 1
    1. 1  Python 的安装配置 ……………………………………………………… 1
    1. 2  IDE 工具安装……………………………………………………………… 5
    1. 3  Python 基础语法 ………………………………………………………… 13
    1. 4  字符串及其操作 ………………………………………………………… 19
    1. 5  组合数据类型 …………………………………………………………… 22
    1. 6  控制语句 ………………………………………………………………… 28
    1. 7  函数 ……………………………………………………………………… 33
    1. 8  文件的读写操作 ………………………………………………………… 34
    1. 9  面向对象 ………………………………………………………………… 35
  小结 ……………………………………………………………………………… 36
  思政视窗 ………………………………………………………………………… 37
  课后习题 ………………………………………………………………………… 37
第2 章  爬虫和网络基础……………………………………………………… 38
  本章要点 ………………………………………………………………………… 38
  思政目标 ………………………………………………………………………… 38
    2. 1  认识爬虫 ………………………………………………………………… 38
    2. 2  爬虫的意义 ……………………………………………………………… 39
    2. 3  爬虫的原理 ……………………………………………………………… 40
    2. 4  爬虫的分类 ……………………………………………………………… 41
    2. 5  爬虫的抓取策略 ………………………………………………………… 43
    2. 6  爬虫之爬亦有道———Robots 协议 ……………………………………… 45
    2. 7  反爬虫与反反爬虫 ……………………………………………………… 47
    2. 8  网络基础 ………………………………………………………………… 51
     小结 ……………………………………………………………………………… 55
  思政视窗 ………………………………………………………………………… 55
  课后习题 ………………………………………………………………………… 55
第3 章  网页数据爬取———urllib 与 Requests ………………………… 56
  本章要点 ………………………………………………………………………… 56
  思政目标 ………………………………………………………………………… 56
    3. 1  浏览器开发者工具 ……………………………………………………… 56
    3. 2  urllib 库…………………………………………………………………… 58
    3. 3  Requests 库 ……………………………………………………………… 67
    3. 4  案例: 亚马逊、 京东网页数据爬取 …………………………………… 79
  小结 ……………………………………………………………………………… 84
  思政视窗 ………………………………………………………………………… 85
  课后习题 ………………………………………………………………………… 85
第4 章  BeautifulSoup 爬虫 ………………………………………………… 86
  本章要点 ………………………………………………………………………… 86
  思政目标 ………………………………………………………………………… 86
    4. 1  BeautifulSoup 库的安装 ………………………………………………… 86
    4. 2  BeautifulSoup 库的基本元素 …………………………………………… 88
    4. 3  bs4 库的 HTML 内容遍历方法 ………………………………………… 90
    4. 4  bs4 库的 HTML 格式输出 ……………………………………………… 93
    4. 5  信息标记与提取 ………………………………………………………… 95
    4. 6  案例: 租房信息 ……………………………………………………… 103
  小结 ……………………………………………………………………………… 107
  思政视窗 ………………………………………………………………………… 107
  课后习题 ………………………………………………………………………… 108
第5 章  Re 正则表达式详解 ……………………………………………… 109
  本章要点 ………………………………………………………………………… 109
  思政目标 ………………………………………………………………………… 109
    5. 1  正则表达式概述 ……………………………………………………… 109
    5. 2  正则表达式的语法 …………………………………………………… 111
    5. 3  Re 库的基本使用 ……………………………………………………… 113
    5. 4  Re 库的贪婪匹配和最小匹配 ………………………………………… 118
    5. 5  案例: 抓取商品价格信息 …………………………………………… 119
  小结 ……………………………………………………………………………… 128
  思政视窗 ………………………………………………………………………… 128
  课后习题 ………………………………………………………………………… 128
第6 章  lxml 与 XPath ……………………………………………………… 129
  本章要点 ………………………………………………………………………… 129
  思政目标 ………………………………………………………………………… 129
    6. 1  lxml 基础 ……………………………………………………………… 129
    6. 2  XPath …………………………………………………………………… 134
    6. 3  案例: 利用 lxml 的 XPath 爬取网页内容 …………………………… 146
  小结 ……………………………………………………………………………… 155
  思政视窗 ………………………………………………………………………… 155
  课后习题 ………………………………………………………………………… 155
第7 章  数据存储 …………………………………………………………… 157
  本章要点 ………………………………………………………………………… 157
  思政目标 ………………………………………………………………………… 157
         7. 1 数据的基本存储 (TXT、 CSV、 JSON) ……………………………… 157
    7. 2  数据存储至 MySQL 数据库 …………………………………………… 163
    7. 3  数据存储至 MongoDB ………………………………………………… 168
  小结 ……………………………………………………………………………… 175
  思政视窗 ………………………………………………………………………… 175
  课后习题 ………………………………………………………………………… 176
第8 章  Selenium 模拟浏览器……………………………………………… 178
  本章要点 ………………………………………………………………………… 178
  思政目标 ………………………………………………………………………… 178
    8. 1  安装 Selenium 模拟浏览器 …………………………………………… 178
    8. 2  安装 WebDriver ………………………………………………………… 179
    8. 3  Selenium 的基本使用方法……………………………………………… 182
    8. 4  案例: 豆瓣读书信息爬取 …………………………………………… 194
  小结 ……………………………………………………………………………… 197
  思政视窗 ………………………………………………………………………… 197
  课后习题 ………………………………………………………………………… 197
第9 章  Scrapy 框架 ………………………………………………………… 199
  本章要点 ………………………………………………………………………… 199
  思政目标 ………………………………………………………………………… 199
    9. 1  Scrapy 爬虫框架介绍…………………………………………………… 199
    9. 2  Scrapy 爬虫框架解析…………………………………………………… 202
    9. 3  Scrapy 爬虫基本使用…………………………………………………… 205
    9. 4  案例: 机票信息爬取 ………………………………………………… 209
  小结 ……………………………………………………………………………… 215
  思政视窗 ………………………………………………………………………… 215
  课后习题 ………………………………………………………………………… 215
参考文献 ………………………………………………………………………… 216

配套资源下载

登录下载

目录下载

登录下载

样章下载

下载

热门文章

  • 各省、自治区、直辖市新闻出版局,各相关印刷、发行单位:教材建设事关党对教育工作的领导,事关意识形态安全和国家长治久安。为切实做好2022—2023学年中小学教科书印制发行工作,现将有关事项通知如下。
    4361 次阅读2022年10月01日
  • 首届职业本科生的“远大前程”近日,应届生郭宇豪将入职一家电气行业的上市公司,成为一名嵌入式软件开发工程师。吸引他的,除了11万元的年薪,还有公司的综合实力和发展前景。他把这个工作机会归功于职业本科期间的学习,“学校在理论和技能方面为我插上了双翼。
    5952 次阅读2022年10月01日
  • 百年大计,教育为本。立德树人,培根铸魂。2019年3月18日,中共中央总书记、国家主席、中央军委主席习近平在北京主持召开学校思想政治理论课教师座谈会并发表重要讲话。习近平总书记指出,推动思想政治理论课改革创新,要不断增强思政课的思想性、理论性和亲和力、针对性,并提出“八个相统一”教学要求。
    7314 次阅读2022年10月01日
  • 近日,教育部印发《新时代马克思主义理论研究和建设工程教育部重点教材建设推进方案》,强调要整体推进不同学段、不同类型高校哲学社会科学相关学科专业教材建设,用5年时间,重点建设200种精品教材,形成以马克思主义为指导、体现中国特色的高校哲学社会科学教材系列。
    10105 次阅读2022年10月01日
  • 近日,教育部举行党组理论学习中心组集体学习暨教育信息化首场辅导报告会。中国科学院院士、南京大学校长吕建作题为《数字经济健康发展的若干思考与认识》的报告。
    13840 次阅读2022年01月01日
遇到教材问题?
专业老师 咨询更可靠
快速咨询
还有疑问? 马上咨询在线专业老师, 快速回复 解答您的教材问题! 邮件咨询