课程简介
本课程是面向中高级开发者的Python爬虫实战课程,涵盖爬虫系统架构设计、异步任务处理、数据去重、请求管理、反爬应对等核心技术。课程通过京东爬虫、失信人名单等真实项目案例,深入讲解爬虫系统的完整实现方案。学员将掌握Docker环境配置、Scrapy框架应用、消息队列集成、布隆过滤器等关键技术,具备构建高可用、高性能爬虫系统的能力。课程配套完整的项目代码、课件资料,帮助学员快速提升爬虫开发技能,满足企业级爬虫开发需求。
下载地址
课程目录
01 Docker核心技术原理及其应用
第1–22节:Docker容器、镜像、网络、数据管理、Compose等核心技术原理与应用实践。
02 Python爬虫开发环境与Docker
第1–30节:Pycharm与Docker集成、HTTP/HTTPS协议、Selenium/Appium环境搭建、数据抓包工具使用。
03 爬虫数据去重方案
第1–26节:去重原理、信息摘要算法、布隆过滤器、SimHash算法等数据去重技术与实现。
04 爬虫请求管理
第1–55节:请求去重、队列管理、Redis分布式锁、Kafka/RabbitMQ消息队列、断点续爬等请求管理策略。
05 爬虫数据处理
第1–25节:正则表达式、XPath、CSS选择器、数据解析、存储方案(MySQL/MongoDB/文件)与数据清洗。
06 爬虫异步任务设计
第1–24节:Asyncio、Gevent、Twisted、Celery等异步库使用,IO模型、协程、并发任务设计原理。
07 爬虫技术架构及实战
第1–34节:爬虫系统架构设计、组件介绍、豆瓣图书爬虫改造、异步并发、日志监控与ELK集成。
08 爬虫技术架构实战之京东爬虫
第1–17节:京东全网爬虫需求分析、数据模型定义、分类信息抓取、下载器中间件实现与项目总结。
09 反爬策略的应对机制
第1–8节:反爬识别原理、UA池、代理池、Cookie池、ADSL拨号、加密参数与验证码自动化解决方案。
10 爬虫项目之失信人被执行人名单
第1–17节:失信人名单爬虫项目开发、百度与最高人民法院数据抓取、国家企业信用系统爬虫实现与总结。
--- 点击展开详细目录 ---
|