云栈社区»论坛 › 后端 & 架构「 Backend 」 › Python › Python爬虫从入门到精通 Scrapy框架与分布式爬虫实战指南 ...

发回帖发新帖

4008 积分	0 好友	528 主题

发消息

Python爬虫从入门到精通 Scrapy框架与分布式爬虫实战指南

发表于 2025-10-5 22:37:03 | 查看: 234| 回复: 0

课程简介

本课程是Python爬虫领域的全面教程，涵盖从基础到高级的核心技术。课程以Scrapy框架为核心，深入讲解爬虫工作流程、数据解析、模拟登录、中间件开发等关键技术，并包含Scrapy-Redis分布式爬虫、Splash动态页面处理、Gerapy爬虫管理等高级内容。学员将掌握requests、lxml、Selenium、Appium等主流技术栈，学会处理反爬机制、数据存储与部署运维。通过多个实战项目，包括网易招聘、京东商品、百度贴吧等案例，帮助学员构建完整的爬虫知识体系，具备独立开发企业级爬虫系统的能力。

下载地址

游客，如果您要查看本帖隐藏内容请回复

课程目录

01 爬虫基础与HTTP协议

第1–9节：爬虫概念、分类、流程、HTTP协议与请求响应头等基础知识

02 数据提取与解析

第10–14节：XPath、JSONPath、LXML模块与百度贴吧案例

03 Requests模块应用

第15–29节：请求发送、参数设置、代理、Session与模拟登录

04 Selenium自动化

第30–43节：Selenium工作原理、元素定位、窗口切换与斗鱼案例

05 反爬与JS解析

第44–58节：反爬手段、验证码处理、JS解析与人机交互

06 MongoDB数据库

第59–75节：MongoDB安装、增删改查、聚合、索引与Python交互

07 Scrapy框架基础

第76–93节：Scrapy概念、项目开发、请求对象与模拟登录

08 Scrapy进阶应用

第94–108节：管道、中间件、CrawlSpider与随机代理

09 分布式与部署

第109–123节：Scrapy-Redis分布式、Splash组件、日志与部署管理

10 Appium移动端自动化

第124–127节：Appium环境搭建、设备控制与数据提取

--- 点击展开详细目录 ---

PART1

01_爬虫基础

01_爬虫基础

🎬 01.爬虫特点介绍-[].flv

🎬 02.课程结构-[].flv

🎬 03.爬虫的概念-[].flv

🎬 04.爬虫的作用-[].flv

🎬 05.爬虫的分类-[].flv

🎬 06.爬虫的流程-[].flv

🎬 07.http与https的区别-[].flv

🎬 08.常见的请求头与响应头-[].flv

🎬 09.创建的响应状态码-[].flv

🎬 10.浏览器运行过程-[].flv

02_requests模块

02_requests模块

🎬 1.requests模块-简介-安装-使用.flv

🎬 2.requests模块-响应对象的text与content之间的区别.flv

🎬 3.requests模块-响应对象常用的参数和方法.flv

🎬 4.requests模块-发送带请求头的请求.flv

🎬 5.requests模块-发送带参数的请求.flv

🎬 6.requests模块-在headers中设置cookies参数.flv

🎬 7.requests模块-cookies参数的使用.flv

🎬 8.requests模块-cookiejar对象的处理.flv

🎬 9.requests模块-timeout参数.flv

🎬 10.requests模块-代理proxies使用.flv

🎬 11.requests模块-verify参数与ca证书.flv

🎬 12.requests模块-post请求_金山翻译案例.flv

🎬 13.requests-post数据来源.flv

🎬 14.requests模块-session.flv

🎬 15.案例-github模拟登陆.flv

03_数据提取

03_数据提取

🎬 01.数据提取-响应内容的分类.flv

🎬 02.xml与html.flv

🎬 03.常用数据解析方法.flv

🎬 04.jsonpath-场景-安装-使用.flv

🎬 05.jsonpath-练习.flv

🎬 06.jsonpath-案例-拉钩.flv

🎬 07.lxml简介.flv

🎬 08.xpathhelper简介_安装.flv

🎬 09.xpath语法-基础节点选择.flv

🎬 10.xpath语法-节点修饰语法.flv

🎬 11.xpath语法-其他常用语法.flv

🎬 12.lxml使用.flv

🎬 13.百度贴吧.flv

🎬 14.tostring.flv

PART2

04_selenium

04_selenium

🎬 01.selenium-介绍_效果展示.flv

🎬 02.selenium的工作原理.flv

🎬 03.selenium-模块与driver的安装.flv

🎬 04.selenium-简单使用.flv

🎬 05.selenium-driver属性和方法.flv

🎬 06.selenium-元素定位.flv

🎬 07.selenium-元素操作.flv

🎬 08.selenium-标签切换.flv

🎬 09.selenium-窗口切换.flv

🎬 10.selenium-cookies操作.flv

🎬 11.selenium-执行js.flv

🎬 12.selenium-页面等待.flv

🎬 13.selenium-配置对象.flv

🎬 14.selenium-案例-斗鱼直播.flv

05_反爬与反反爬

05_反爬与反反爬

🎬 01.反爬与反反爬-反爬原因-[].flv

🎬 02.反爬与反反爬-什么样的爬虫会被反-[].flv

🎬 03.反爬与反反爬-常见概念与反爬方向-[].flv

🎬 04.反爬与反反爬-基于身份识别的反爬-[].flv

🎬 05.反爬与反反爬-及与爬虫行为的反爬-[].flv

🎬 06.反爬与反反爬-基于数据加密进行反爬-[].flv

🎬 07.验证码-验证码的知识-[].flv

🎬 08.验证码-图像识别引擎-[].flv

🎬 09.验证码-打码平台-[].flv

🎬 10.chrome浏览器的使用-[].flv

🎬 11.js解析-人人网登录分析-[].flv

🎬 12.js解析-定位js文件-[].flv

🎬 13.js解析-js代码分析-[].flv

🎬 14.js解析-js2py使用-[].flv

🎬 15.js解析-人人网登陆-[].flv

🎬 16.有道翻译分析-[].flv

🎬 17.hashlib使用-[].flv

🎬 18.有道翻译实现-[].flv

06_MongoDB数据库

06_MongoDB数据库

🎬 01.mongodb的介绍-[].flv

🎬 02.mongodb的安装-[].flv

🎬 03.mongodb简单使用-测试启动-[].flv

🎬 04.mongodb简单使用-生产启动-[].flv

🎬 05.mongodb简单使用-数据库操作-[].flv

🎬 06.mongdb简单使用-集合操作-[].flv

🎬 07.mongodb的数据类型-[].flv

🎬 08.mongdb插入数据-[].flv

🎬 09.mongodb查询数据-[].flv

🎬 10.mongodb查询结果操作-[].flv

🎬 11.mongodb-修改&删除-[].flv

🎬 12.聚合管道-分组管道-[].flv

🎬 13.聚合管道-其他管道-[].flv

🎬 14.mongodb-索引-[].flv

🎬 15.mongodb的权限管理-管理用户-[].flv

🎬 16.mongodb权限管理-普通用户-[].flv

🎬 17.pymongo使用-[].flv

07_scrapy基础

07_scrapy基础

🎬 01.scrapy-概念&作用.flv

🎬 02.scrapy-工作流程.flv

🎬 03.scrapy-各模块功能.flv

🎬 04.项目开发流程-1框架安装&流程简介.flv

🎬 05.项目开发流程-2创建项目.flv

🎬 06.项目开发流程-3创建爬虫.flv

🎬 07.项目开发流程-4完成爬虫.flv

🎬 08.项目开发流程-5保存数据.flv

🎬 09.项目开发流程-数据建模&流程完善.flv

🎬 10.请求对象-请求&网易招聘简介.flv

🎬 11.请求对象-案例-网易招聘.flv

🎬 12.请求对象-其他参数.flv

🎬 13.请求对象-meta传参.flv

🎬 14.scrapy模拟登陆-cookies参数使用.flv

🎬 15.scrapy模拟登陆-FormRequest发送post请求.flv

🎬 16.scrapy管道的使用.flv

🎬 17.crawlspider.flv

🎬 18.tencent_crawl.flv

🎬 19.中间件-分类与作用.flv

🎬 20.中间件-豆瓣爬虫.flv

🎬 21.中间件-随机请求头.flv

🎬 22.中间件-随机ip代理.flv

🎬 23.中间件-selenium动态加载.flv

PART3

08_scrapy-redis

08_scrapy-redis

🎬 01.scrapy-redis-分布式的概念_原理-[].flv

🎬 02.scrapy-redis-断点续爬-[].flv

🎬 04.scrapy-redis-分布式爬虫实现-[].flv

🎬 05.scrapy-redis-分布式爬虫编写流程-[].flv

🎬 06.scrapy-redis-京东爬虫-简介-[].flv

🎬 07.scrapy-redis-京东爬虫-图书分类页面-[].flv

🎬 08.scrapy-redis-京东爬虫-图书列表页面-[].flv

🎬 09.scrapy-redis-京东爬虫-图书价格-[].flv

🎬 10.scrapy-redis-京东爬虫-修改成分布式爬虫-[].flv

09_scrapy其他

09_scrapy其他

🎬 01.splash-介绍_环境配置.flv

🎬 02.splash-使用.flv

🎬 03.scrapy-日志信息.flv

🎬 04.scrpay配置-常用配置.flv

🎬 05.scrapy配置-其他配置.flv

🎬 06.使用scrapyd进行爬虫部署.flv

🎬 07.使用Gerapy进行爬虫管理.flv

10_appium

10_appium

🎬 01.appium简介.flv

🎬 02.appium环境搭建.flv

🎬 03.appium环境联调测试.flv

🎬 04.appium使用.flv

资料

第10节 appium

1.课件

images

2. 其他资料(空)

3.代码

第1节爬虫基础

1.课件

images

2. 其他资料(空)

3. 代码(空)

第2节 requests模块

1.课件

images

2. 其他资料(空)

3.代码

第3节数据提取

1.课件

images

2. 其他资料(空)

3.代码

第4节 selenium

1.课件

images

2. 其他资料(空)

浏览器插件

MacOS X

Windows

3.代码

第5节反爬与反反爬

1.课件

images

2. 其他资料(空)

3.代码

第6节 MongoDB数据库

1.课件

images

2. 其他资料(空)

3.代码

第7节 scrapy基础

1.课件

images

2. 其他资料(空)

3.代码

AQI

AQI

pycache

spiders

pycache

Douban

Douban

pycache

spiders

pycache

github

github

pycache

spiders

pycache

myspider

myspider

pycache

spiders

pycache

wangyi

wangyi

pycache

spiders

pycache

第8节 scrapy-redis

1.课件

2. 其他资料(空)

3.代码

JD

JD

pycache

spiders

pycache

scrapy-redis

example-project

example

pycache

spiders

pycache

tests

第9节 scrapy其他

1.课件

2. 其他资料(空)

3.代码

deploy

dbs

eggs

Tencent

Splash

Splash

pycache

spiders

pycache

📦 爬虫课件完整版本(HTML版本).zip

上一篇：Python Web开发从入门到精通 Web2py框架与RESTful API实战指南
下一篇：Python爬虫从入门到精通全面教程 Scrapy框架与分布式爬虫实战解析

scrapy, scrapy_redis, 爬虫, 数据采集, 分布式

Python爬虫从入门到精通 Scrapy框架与分布式爬虫实战指南

课程简介

下载地址

课程目录

01 爬虫基础与HTTP协议

02 数据提取与解析

03 Requests模块应用

04 Selenium自动化

05 反爬与JS解析

06 MongoDB数据库

07 Scrapy框架基础

08 Scrapy进阶应用

09 分布式与部署

10 Appium移动端自动化

PART1

01_爬虫基础

01_爬虫基础

02_requests模块

02_requests模块

03_数据提取

03_数据提取

PART2

04_selenium

04_selenium

05_反爬与反反爬

05_反爬与反反爬

06_MongoDB数据库

06_MongoDB数据库

07_scrapy基础

07_scrapy基础

PART3

08_scrapy-redis

08_scrapy-redis

09_scrapy其他

09_scrapy其他

10_appium

10_appium

资料

第10节 appium

1.课件

images

2. 其他资料(空)

3.代码

第1节 爬虫基础

1.课件

images

2. 其他资料(空)

3. 代码(空)

第2节 requests模块

1.课件

images

2. 其他资料(空)

3.代码

第3节 数据提取

1.课件

images

2. 其他资料(空)

3.代码

第4节 selenium

1.课件

images

2. 其他资料(空)

浏览器插件

MacOS X

Windows

3.代码

第5节 反爬与反反爬

1.课件

images

2. 其他资料(空)

3.代码

第6节 MongoDB数据库

1.课件

images

2. 其他资料(空)

3.代码

第7节 scrapy基础

1.课件

images

2. 其他资料(空)

第1节爬虫基础

第3节数据提取

第5节反爬与反反爬