课程简介
本课程是一门体系化的Python网络爬虫专业教程,旨在帮助学习者从零基础成长为能够处理复杂数据抓取任务的爬虫工程师。课程内容全面覆盖网络爬虫核心技术栈,包括HTTP协议、网页数据解析(XPath、BeautifulSoup、正则表达式)、动态网页处理(Selenium)、验证码识别(OCR/Tesseract)以及数据存储(MongoDB)。课程重点深入讲解了业界主流的Scrapy框架,从架构原理、项目创建到Spiders编写与Item Pipeline定制,并进阶至Scrapy-Redis分布式爬虫的搭建与部署,应对大规模数据抓取需求。通过学习,您将系统掌握从简单静态页面抓取到应对反爬机制、再到构建高效分布式爬虫系统的完整技能链,具备独立开发企业级爬虫项目的能力。
下载地址
课程目录
01 爬虫基础与网络原理
第1-8节:爬虫背景、定义、分类、用途及通用与聚焦爬虫工作原理、robots.txt等。
02 HTTP协议与Fiddler工具
第9-20节:HTTP请求响应格式、Fiddler工作原理、配置与使用、捕获会话等。
03 urllib库与请求处理
第21-36节:urllib库使用、请求构造、GET/POST处理、Headers伪装、异常处理等。
04 数据解析技术
第37-55节:网页结构、XPath、lxml、BeautifulSoup、JSON、JSONPath等数据解析方法。
05 动态网页与Selenium
第56-67节:Selenium与PhantomJS概述、安装、元素定位、表单填充、弹窗处理等。
06 多线程与协程爬虫
第68-72节:多线程爬虫流程、queue模块、Queue类、协程流程及gevent库。
07 图像识别与验证码处理
第73-81节:OCR技术、tesseract安装、PIL库、图像处理、验证码分类与识别。
08 数据存储与MongoDB
第82-88节:MongoDB介绍、安装、PyMongo操作及与MySQL术语比较。
09 Scrapy框架基础
第89-98节:Scrapy框架介绍、架构、安装、项目创建、目标明确与爬取。
10 Scrapy核心组件
第99-106节:Scrapy shell启用、Spiders、Item Pipeline、Middleware及Settings定制。
11 CrawlSpider与链接提取
第107-110节:CrawlSpider类原理、Rule类规则及LinkExtractor链接提取。
12 Scrapy-Redis分布式爬虫
第111-123节:Scrapy-Redis架构、组件、安装、Redis配置、分布式策略与实战。
--- 点击展开详细目录 ---
|