找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3840

积分

0

好友

532

主题
发表于 15 小时前 | 查看: 2| 回复: 0

Scrapling 是一个设计精良的 Python Web 抓取框架,它声称能够优雅地处理从简单的单页请求到复杂的大规模并发爬取任务。它究竟是如何做到这一点的?其核心在于一套融合了智能解析、反机器人绕过与灵活架构的系统。

项目简介

Scrapling 的独特之处在于它的“自适应”能力。其解析器可以从网站的结构变化中学习,并在页面更新后自动重新定位目标元素。更关键的是,它的 Fetcher 模块宣称能够开箱即用地绕过包括 Cloudflare Turnstile 在内的多种反机器人系统。而它的 Spider 框架则允许你通过几行代码就扩展到并发、多 Session 的爬取,支持暂停/恢复和自动代理轮换。它试图在一个库内实现“零妥协”。

from scrapling.fetchers import Fetcher, AsyncFetcher, StealthyFetcher, DynamicFetcher
StealthyFetcher.adaptive = True
p = StealthyFetcher.fetch('https://example.com', headless=True, network_idle=True)  # 隐秘地获取网站!
products = p.css('.product', auto_save=True)                                        # 抓取在网站设计变更后仍能存活的数据!
products = p.css('.product', adaptive=True)                                         # 之后,如果网站结构改变,传递 `adaptive=True` 来找到它们!

或者,你也可以将其扩展为一个完整的爬虫:

from scrapling.spiders import Spider, Response

class MySpider(Spider):
    name = "demo"
    start_urls = ["https://example.com/"]

    async def parse(self, response: Response):
        for item in response.css('.product'):
            yield {"title": item.css('h2::text').get()}

MySpider().start()

主要特性

Spider — 完整的爬取框架

  • 🕷️ 类 Scrapy 的 Spider API:使用 start_urls、async parse callback 和 Request/Response 对象定义 Spider。
  • ⚡ 并发爬取:可配置的并发限制、按域名节流和下载延迟。
  • 🔄 多 Session 支持:统一接口,支持 HTTP 请求和隐秘无头浏览器在同一个 Spider 中使用——通过 ID 将请求路由到不同的 Session。
  • 💾 暂停与恢复:基于 Checkpoint 的爬取持久化。按 Ctrl+C 优雅关闭;重启后从上次停止的地方继续。
  • 📡 Streaming 模式:通过 async for item in spider.stream() 以实时统计 Streaming 抓取的数据——非常适合 UI、管道和长时间运行的爬取。
  • 🛡️ 被阻止请求检测:自动检测并重试被阻止的请求,支持自定义逻辑。
  • 📦 内置导出:通过钩子和您自己的管道导出结果,或使用内置的 JSON/JSONL,分别通过 result.items.to_json()/result.items.to_jsonl()

支持 Session 的高级网站获取

  • HTTP 请求:使用 Fetcher 类进行快速和隐秘的 HTTP 请求。可以模拟浏览器的 TLS fingerprint、标头并使用 HTTP/3。
  • 动态加载:通过 DynamicFetcher 类使用完整的浏览器自动化获取动态网站,支持 Playwright 的 Chromium 和 Google Chrome。
  • 反机器人绕过:使用 StealthyFetcher 的高级隐秘功能和 fingerprint 伪装。可以轻松自动绕过所有类型的 Cloudflare Turnstile/Interstitial。
  • Session 管理:使用 FetcherSessionStealthySessionDynamicSession 类实现持久化 Session 支持,用于跨请求的 cookie 和状态管理。
  • Proxy 轮换:内置 ProxyRotator,支持轮询或自定义策略,适用于所有 Session 类型,并支持按请求覆盖 Proxy。
  • 域名屏蔽:在基于浏览器的 Fetcher 中屏蔽对特定域名(及其子域名)的请求。
  • Async 支持:所有 Fetcher 和专用 async Session 类的完整 async 支持。

自适应抓取和 AI 集成

  • 🔄 智能元素跟踪:使用智能相似性算法在网站更改后重新定位元素。
  • 🎯 智能灵活选择:CSS 选择器、XPath 选择器、基于过滤器的搜索、文本搜索、正则表达式搜索等。
  • 🔍 查找相似元素:自动定位与已找到元素相似的元素。
  • 🤖 与 AI 一起使用的 MCP 服务器:内置 MCP 服务器用于 AI 辅助 Web Scraping 和数据提取。MCP 服务器具有强大的自定义功能,利用 Scrapling 在将内容传递给 AI(Claude/Cursor 等)之前提取目标内容,从而加快操作并通过最小化 token 使用来降低成本。

高性能和经过实战测试的架构

  • 🚀 闪电般快速:优化性能超越大多数 Python 抓取库。
  • 🔋 内存高效:优化的数据结构和延迟加载,最小内存占用。
  • ⚡ 快速 JSON 序列化:比标准库快 10 倍。
  • 🏗️ 经过实战测试:Scrapling 不仅拥有 92% 的测试覆盖率和完整的类型提示覆盖率,而且在过去一年中每天被数百名 Web Scraper 使用。

对开发者/Web Scraper 友好的体验

  • 🎯 交互式 Web Scraping Shell:可选的内置 IPython Shell,具有 Scrapling 集成、快捷方式和新工具,可加快 Web Scraping 脚本开发,例如将 curl 请求转换为 Scrapling 请求并在浏览器中查看请求结果。
  • 🚀 直接从终端使用:可选地,您可以使用 Scrapling 抓取 URL 而无需编写任何代码!
  • 🛠️ 丰富的导航 API:使用父级、兄弟级和子级导航方法进行高级 DOM 遍历。
  • 🧬 增强的文本处理:内置正则表达式、清理方法和优化的字符串操作。
  • 📝 自动选择器生成:为任何元素生成强大的 CSS/XPath 选择器。
  • 🔌 熟悉的 API:类似于 Scrapy/BeautifulSoup,使用与 Scrapy/Parsel 相同的伪元素。
  • 📘 完整的类型覆盖:完整的类型提示,出色的 IDE 支持和代码补全。整个代码库在每次更改时都会自动使用 PyRightMyPy 扫描。
  • 🔋 现成的 Docker 镜像:每次发布时,包含所有浏览器的 Docker 镜像会自动构建和推送。

入门

让我们通过几个快速示例来展示 Scrapling 的核心功能,无需深入细节。

基本用法

支持 Session 的 HTTP 请求

from scrapling.fetchers import Fetcher, FetcherSession

with FetcherSession(impersonate='chrome') as session:  # 使用Chrome的最新版本TLS fingerprint
    page = session.get('https://quotes.toscrape.com/', stealthy_headers=True)
    quotes = page.css('.quote .text::text').getall()

# 或使用一次性请求
page = Fetcher.get('https://quotes.toscrape.com/')
quotes = page.css('.quote .text::text').getall()

高级隐秘模式

from scrapling.fetchers import StealthyFetcher, StealthySession

with StealthySession(headless=True, solve_cloudflare=True) as session:  # 保持浏览器打开直到完成
    page = session.fetch('https://nopecha.com/demo/cloudflare', google_search=False)
    data = page.css('#padded_content a').getall()

# 或使用一次性请求样式,为此请求打开浏览器,完成后关闭
page = StealthyFetcher.fetch('https://nopecha.com/demo/cloudflare')
data = page.css('#padded_content a').getall()

完整的浏览器自动化

from scrapling.fetchers import DynamicFetcher, DynamicSession

with DynamicSession(headless=True, disable_resources=False, network_idle=True) as session:  # 保持浏览器打开直到完成
    page = session.fetch('https://quotes.toscrape.com/', load_dom=False)
    data = page.xpath('//span[@class="text"]/text()').getall()  # 如果您偏好XPath选择器

# 或使用一次性请求样式,为此请求打开浏览器,完成后关闭
page = DynamicFetcher.fetch('https://quotes.toscrape.com/')
data = page.css('.quote .text::text').getall()

Spider

构建具有并发请求、多种 Session 类型和暂停/恢复功能的完整爬虫:

from scrapling.spiders import Spider, Request, Response

class QuotesSpider(Spider):
    name = "quotes"
    start_urls = ["https://quotes.toscrape.com/"]
    concurrent_requests = 10

    async def parse(self, response: Response):
        for quote in response.css('.quote'):
            yield {
                "text": quote.css('.text::text').get(),
                "author": quote.css('.author::text').get(),
            }

        next_page = response.css('.next a')
        if next_page:
            yield response.follow(next_page[0].attrib['href'])

result = QuotesSpider().start()
print(f"抓取了 {len(result.items)} 条引用")
result.items.to_json("quotes.json")

在单个 Spider 中使用多种 Session 类型:

from scrapling.spiders import Spider, Request, Response
from scrapling.fetchers import FetcherSession, AsyncStealthySession

class MultiSessionSpider(Spider):
    name = "multi"
    start_urls = ["https://example.com/"]

    def configure_sessions(self, manager):
        manager.add("fast", FetcherSession(impersonate="chrome"))
        manager.add("stealth", AsyncStealthySession(headless=True), lazy=True)

    async def parse(self, response: Response):
        for link in response.css('a::attr(href)').getall():
            # 将受保护的页面路由到隐秘Session
            if "protected" in link:
                yield Request(link, sid="stealth")
            else:
                yield Request(link, sid="fast", callback=self.parse)  # 显式callback

通过如下方式运行 Spider 来暂停和恢复长时间爬取,使用 Checkpoint:

QuotesSpider(crawldir="./crawl_data").start()

Ctrl+C 优雅暂停——进度会自动保存。之后,当您再次启动 Spider 时,传递相同的 crawldir,它将从上次停止的地方继续。

高级解析与导航

from scrapling.fetchers import Fetcher

# 丰富的元素选择和导航
page = Fetcher.get('https://quotes.toscrape.com/')

# 使用多种选择方法获取引用
quotes = page.css('.quote')  # CSS选择器
quotes = page.xpath('//div[@class="quote"]')  # XPath
quotes = page.find_all('div', {'class': 'quote'})  # BeautifulSoup风格
# 等同于
quotes = page.find_all('div', class_='quote')
quotes = page.find_all(['div'], class_='quote')
quotes = page.find_all(class_='quote')  # 等等...
# 按文本内容查找元素
quotes = page.find_by_text('quote', tag='div')

# 高级导航
quote_text = page.css('.quote')[0].css('.text::text').get()
quote_text = page.css('.quote').css('.text::text').getall()  # 链式选择器
first_quote = page.css('.quote')[0]
author = first_quote.next_sibling.css('.author::text')
parent_container = first_quote.parent

# 元素关系和相似性
similar_elements = first_quote.find_similar()
below_elements = first_quote.below_elements()

如果您不想获取网站,可以直接使用解析器,如下所示:

from scrapling.parser import Selector

page = Selector("<html>...</html>")

用法完全相同!

Async Session 管理示例

import asyncio
from scrapling.fetchers import FetcherSession, AsyncStealthySession, AsyncDynamicSession

async with FetcherSession(http3=True) as session:  # `FetcherSession`是上下文感知的,可以在sync/async模式下工作
    page1 = session.get('https://quotes.toscrape.com/')
    page2 = session.get('https://quotes.toscrape.com/', impersonate='firefox135')

# Async Session用法
async with AsyncStealthySession(max_pages=2) as session:
    tasks = []
    urls = ['https://example.com/page1', 'https://example.com/page2']

    for url in urls:
        task = session.fetch(url)
        tasks.append(task)

    print(session.get_pool_stats())  # 可选 - 浏览器标签池的状态(忙/空闲/错误)
    results = await asyncio.gather(*tasks)
    print(session.get_pool_stats())

CLI 和交互式 Shell

启动交互式 Web Scraping Shell

scrapling shell

直接将页面提取到文件而无需编程(默认提取 body 标签内的内容)。如果输出文件以 .txt 结尾,则将提取目标的文本内容。如果以 .md 结尾,它将是 HTML 内容的 Markdown 表示;如果以 .html 结尾,它将是 HTML 内容本身。

scrapling extract get 'https://example.com' content.md
scrapling extract get 'https://example.com' content.txt --css-selector '#fromSkipToProducts' --impersonate 'chrome' # 所有匹配CSS选择器'#fromSkipToProducts'的元素
scrapling extract fetch 'https://example.com' content.md --css-selector '#fromSkipToProducts' --no-headless
scrapling extract stealthy-fetch 'https://nopecha.com/demo/cloudflare' captchas.html --css-selector '#padded_content a' --solve-cloudflare

[!NOTE]
还有许多其他功能,但我们希望保持此页面简洁,包括 MCP 服务器和交互式 Web Scraping Shell。查看完整文档这里

性能基准

Scrapling 不仅功能强大——它还速度极快。以下基准测试将 Scrapling 的解析器与其他流行库的最新版本进行了比较。

文本提取速度测试(5000 个嵌套元素)

# 时间(ms) vs Scrapling
1 Scrapling 2.02 1.0x
2 Parsel/Scrapy 2.04 1.01x
3 Raw Lxml 2.54 1.257x
4 PyQuery 24.17 ~12x
5 Selectolax 82.63 ~41x
6 MechanicalSoup 1549.71 ~767.1x
7 BS4 with Lxml 1584.31 ~784.3x
8 BS4 with html5lib 3391.91 ~1679.1x

元素相似性和文本搜索性能

Scrapling 的自适应元素查找功能明显优于替代方案:

时间(ms) vs Scrapling
Scrapling 2.39 1.0x
AutoScraper 12.45 5.209x

所有基准测试代表 100+ 次运行的平均值。请参阅 benchmarks.py 了解方法。

安装

Scrapling 需要 Python 3.10 或更高版本:

pip install scrapling

此安装仅包括解析器引擎及其依赖项,没有任何 Fetcher 或命令行依赖项。

可选依赖项

  1. 如果您要使用以下任何额外功能、Fetcher 或它们的类,您将需要安装 Fetcher 的依赖项和它们的浏览器依赖项,如下所示:

    pip install "scrapling[fetchers]"
    scrapling install

    这会下载所有浏览器,以及它们的系统依赖项和 fingerprint 操作依赖项。

  2. 额外功能:

    请记住,在安装任何这些额外功能后(如果您还没有安装),您需要使用 scrapling install 安装浏览器依赖项

    • 安装 MCP 服务器功能:
      pip install "scrapling[ai]"
    • 安装 Shell 功能(Web Scraping Shell 和 extract 命令):
      pip install "scrapling[shell]"
    • 安装所有内容:
      pip install "scrapling[all]"

Docker

您还可以使用以下命令从 DockerHub 安装包含所有额外功能和浏览器的 Docker 镜像:

docker pull pyd4vinci/scrapling

或从 GitHub 注册表下载:

docker pull ghcr.io/d4vinci/scrapling:latest

此镜像使用 GitHub Actions 和仓库主分支自动构建和推送。

项目地址

你可以在 GitHub 上找到 Scrapling 的完整中文文档和源码:https://github.com/D4Vinci/Scrapling/blob/main/docs/README_CN.md。对于这类融合了前沿爬虫技术与现代异步编程理念的开源项目,通常能在技术社区(如云栈社区)找到更深入的架构设计讨论和实战经验分享。




上一篇:ZimaOS 1.5 评测:基于独立Linux的个人云NAS系统,如何搭建与使用?
下一篇:深度解析企业级.NET架构:核心优势、关键局限与选型指南
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-27 18:46 , Processed in 0.396080 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表