你有没有发现,交易机器人往往是Polymarket上利润最高的玩家?
现在不少散户也在尝试创建自己的机器人,但结果往往出奇的一致:亏损。
原因很简单。那些真正能赚钱的机器人,背后往往是做过深入研究和分析的人。单靠一份指南、Claude这类AI工具,或者Rust这样的编程语言,很难帮助初学者跨越门槛。
这也是我撰写这份指南的初衷。
Polymarket是一个让用户对现实世界事件进行投注的平台。市场价格反映了事件的集体概率。例如,如果一个事件的 YES 代币交易价格为 $0.60,意味着市场认为该事件发生的概率是 60%。
当定价偏离这种基本逻辑时,套利机会就产生了。在二元市场中,YES 和 NO 代币的价格总和理论上应等于 $1。但由于流动性缺口、执行延迟或条件关联性,这个总和可能出现偏差。一旦发生,便可能产生无风险利润。
示例:如果 YES = $0.51,NO =$0.49,总和为 $0.99。这就存在定价错误——你相当于以$0.01 的折扣买到了价值 $1 的资产组合。
套利机器人的核心任务,就是自动捕捉并利用这些市场低效。但这绝非“免费午餐”,除非你真正理解其背后的机制。交易费用、滑点、Gas成本和执行失败,都可能迅速吞噬掉微薄的利润。
所以,在动手构建任何东西之前,深入研究这些低效为何存在至关重要。
论文 《Arbitrage in Prediction Markets》 分析了真实的Polymarket数据,揭示了单一条件和多条件市场中持续存在的套利机会。

上方的图表展示了按主题分类的月度市场数量与条件数量,可见交易量集中在政治和体育等主题。你可以自行验证,比如这个美联储决策的市场:https://polymarket.com/event/fed-decision-in-march-885?via=bored2boar 截至目前交易量已达 $1.45 亿。
通常,交易量越大,定价错误的机会就越多。这些市场往往比较“混乱”,因为信息流动不均匀且流动性呈现碎片化。
为何理论如此重要?
因为有些套利机会并不明显。表面上独立的市场,可能共享着隐藏的语义重叠。如果你的检测逻辑忽略了这一点,机器人就会产生大量误报。
跨平台的低效现象在论文 《Semantic Non-Fungibility》 中有所涵盖。研究表明,由于流动性碎片化,跨平台间存在约 5-10% 的价格偏差。如果你能同时扫描多个交易场所,这便是真正的超额收益(Alpha)。
对于组合市场(如锦标赛),推荐阅读 《Arbitrage-Free Combinatorial Market Making》。它解释了如何利用整数规划在事件树中维持一致的定价逻辑。

上图可视化了锦标赛结构。例如,如果A队赢得半决赛,它就必须出现在决赛中。你的机器人必须理解并利用这些依赖关系。
接着是自动化检测。论文 《Neural Networks for Static Arbitrage》 证明,机器学习可以在没有预定义定价模型的情况下识别套利机会,这对于规模化检测至关重要。
你需要准备的工具栈:
Python
Web3.py
Pandas
NumPy
SciPy

Polymarket API 概览:
- Gamma API: 用于获取市场、事件、标签等数据,是发现和浏览市场信息的主要接口。
- CLOB API: 用于获取订单簿数据、价差、价格历史,并处理订单提交、取消等交易操作(交易端点需要认证)。
所有这些接口都是公开且免费使用的。记住,从坚实的理论开始,能帮你避免很多低级错误。
Polymarket 上的核心套利概念
Polymarket 运行在 Polygon 区块链上,流动性由自动做市商(AMM)提供。YES 和 NO 代币均针对 USDC 进行交易。
主要有三种套利类型:
- 市场内套利 (Intra-market arbitrage): YES + NO ≠ $1。
- 市场间套利 (Inter-market arbitrage): 相关事件的定价出现逻辑错误。
- 跨平台套利 (Cross-platform arbitrage): 同一事件在不同预测市场的定价不同。
我们来逐一拆解。
单一条件套利

此图展示了某个市场中成交量加权平均价(VWAP)的价格偏差。
- 当偏差超过阈值(例如 0.02)时,机会窗口出现。
这些缺口通常源于订单执行的滞后。

该图显示,每笔交易的中位数利润往往大于 2 美分,尤其是在加密相关市场中。利润微薄,但机会高频,这就是游戏的本质。
多条件套利
这类市场将多个可能的结果捆绑在一起。

上图证明,政治类主题在多条件套利中占据主导地位。流动性分布极不均匀,排名靠前的结果吸收了绝大部分交易量。

你的机器人应当优先关注高流动性的条件。
组合套利
利用整数规划在庞大的结果空间(如锦标赛所有可能路径)中强制执行无套利约束。

可以将其理解为求解一个方程组。如果整个事件树的概率加总不一致,就存在套利空间。
语义套利
不同平台上描述相似事件的市场可能会出现价格漂移,偏差可达 5-10%。
例如:“候选人X会赢得选举吗?”与“候选人X所在的政党Y会赢得选举吗?”这两个问题高度重叠,但市场可能将它们视为独立事件进行处理。
这时可以使用自然语言处理(NLP)技术来对齐事件描述,从而检测语义相似性。
机器学习检测
论文 "NEURAL NETWORKS CAN DETECT MODEL-FREE STATIC ARBITRAGE STRATEGIES" 展示了如何在价格向量上训练神经网络来识别套利。

此表评估了不同模型的精确率和召回率。
- 相比于硬编码规则,基于机器学习的高维检测方法扩展性更佳。
理解这些为何至关重要?
因为在 Polygon 链上,每笔交易都有 Gas 费用。如果你的利润模型忽略了这些成本,所谓的“套利”可能只是幻象。
建议从简单的开始:通过 REST API 获取实时价格,检查 YES + NO 是否偏离阈值。验证可行后,再逐步扩展复杂策略。
设置你的开发环境
你需要一个干净、高效的基础设施。
推荐技术栈:
Python 3.12+
requests
web3.py
pandas
asyncio
torch (用于机器学习部分)
安装依赖:
pip install web3 requests pandas torch
Polymarket API 关键端点:
/markets 用于获取市场列表。
/orders 用于获取订单簿数据。
对于历史数据回测,可以使用 The Graph 上的子图(例如通过 docs.bitquery.io 查询 matic-markets)。
为何需要两者? 实时 API 用于捕捉当前的市场低效,而历史子图数据则用于策略回测和验证。
设置钱包:
- 安装 MetaMask 插件。
- 添加并切换到 Polygon 网络。
- 存入适量的 MATIC(用于支付Gas费)和 USDC(用于交易)。
测试区块链连接:
from web3 import Web3
w3 = Web3(Web3.HTTPProvider('polygon-rpc.com'))

上图显示了不同主题市场的流动性趋势。你的机器人需要能够过滤并专注于那些活跃度高、流动性好的市场。
对于组合逻辑,推荐使用 PuLP 库进行整数规划求解。对于语义匹配,可以利用 HuggingFace 的 transformers 库。
首先构建一个数据抓取脚本:例如每 10 秒查询一次市场数据,记录价格偏差。记住,稳定性优先,优化在后。
数据收集与机会检测实战
使用 /markets 端点列出所有活跃的市场条件,然后查询 /prices 端点获取成交量加权平均价(VWAP)。
建议将收集到的数据存储在本地的 SQLite 数据库中。
为何要存储? 因为套利窗口可能非常短暂。下图显示了买卖价差能以多快的速度消失:

市场内套利逻辑
- 如果 YES + NO > $1,则做空(卖出)定价过高的一方。
- 如果 YES + NO < $1,则买入(做多)定价过低的一方。
- 仅当偏差绝对值大于预设阈值(例如 0.005)时才执行交易,以覆盖成本和风险。
多市场关联逻辑
可以利用大语言模型(LLM)来识别市场间的语义依赖关系。下图展示了一个依赖关系集群的检测框架:

你也可以使用 OpenAI API 来对齐事件的语义描述。这种方法呼应了论文 "Semantic Non-Fungibility and Violations of the Law of One Price in Prediction Markets" 中的分析框架。
组合套利检测
将整个结果空间(如锦标赛的所有赛果组合)建模为一个整数规划问题,通过求解来发现价格不一致性。
神经网络检测
使用 torch.nn 搭建一个分类器模型。
- 输入:归一化的价格向量、交易量、价差等特征。
- 输出:二元分类(存在套利 / 无套利)。
- 目标:在保证较高精确率的前提下,尽可能提高召回率,避免错过机会。
使用历史子图数据进行充分的回测。

上图显示,单一条件的最大机会利润在提供约 $100 流动性时即达到上限。这意味着执行规模的大小至关重要。
异步并发扫描是必须的。在这个领域,速度就是优势。
高级检测技术
对于 NegRisk 再平衡机会,可以利用 SciPy 的优化库进行计算。下图展示了不同策略下的利润分布对比:

跨平台套利
通过 API 同时扫描 Kalshi、Manifold 等其他预测市场。论文 "Semantic Non-Fungibility and Violations of the Law of One Price in Prediction Markets" 发现,相似事件在不同平台间约有 5-10% 的价格偏差。捕捉这种因流动性碎片化产生的价差,是真正的 Alpha 来源。
整数规划实现示例(使用PuLP)
定义变量为各条件的头寸大小,约束条件为“无风险套利”的数学表达,目标函数是最大化利润。这直接实践了 "Arbitrage-Free Combinatorial Market Making via Integer Programming" 论文中的思想。
神经网络模型设计
- 架构:可尝试包含 5 个隐藏层的全连接网络。
- 学习率:可从 0.0001 开始调试。
- 特征:价格向量、交易量、买卖价差、市场年龄等。
在人工生成的或历史真实存在的定价错误数据上进行训练。简单的规则容易错过复杂的、涉及多个市场的套利机会,而机器学习模型能更好地在多维空间中进行模式识别。

上图表明,多条件市场中的机会表现往往优于单一条件市场。如果你要集中精力优化,这里应是重点。
执行、风险管理与策略优化
机会检测只是理论,执行环节才是真正决定盈亏的关键。
使用 CLOB API 的 /orders 端点提交订单,并通过 web3.py 进行交易签名。
实时估算Gas成本:w3.eth.gas_price
核心风险管控:
- 滑点:始终使用限价单,并基于订单簿深度模拟成交。
- 抢跑:考虑使用 Flashbots 或类似私有交易中继服务。
- 预言机风险:分散投资于不同决议来源的事件。
- 流动性风险:不要假设订单能全部按理想价格成交。
头寸管理:每笔交易的风险敞口应小于总资本的 1%。设置每日回撤上限(例如 5%),一旦触及即停止当日交易。
策略优化
基于历史数据集进行严格回测。体育赛事(如NBA)等具有固定赛程和重复模式的市场,是测试策略的绝佳选择。例如:https://polymarket.com/sports/nba/nba-bkn-okc-2026-02-20?via=bored2boar
监控策略的夏普比率,持续跟踪胜率和平均执行滑点。
使用 asyncio 实现高并发架构。将机器人部署在 AWS、Google Cloud 等云服务器上,确保 7x24 小时不间断运行。
超参数调优:对学习率、网络层数等超参数进行网格搜索。可参考 "NEURAL NETWORKS CAN DETECT MODEL-FREE STATIC ARBITRAGE STRATEGIES" 论文中的方法。
套利的本质在于,持续复利微小优势远胜于依赖偶然性的大额盈利。
结论与行动路线
至此,你已经拥有了一份构建Polymarket套利机器人的蓝图。
建议按照以下知识路径逐步深入:
- 理论基础:https://arxiv.org/pdf/2508.03474 (Arbitrage in Prediction Markets)
- 语义对齐:https://arxiv.org/pdf/2601.01706 (Semantic Non-Fungibility...)
- 组合定价:https://arxiv.org/pdf/1606.02825 (Arbitrage-Free Combinatorial Market Making...)
- 神经检测:https://arxiv.org/pdf/2306.16422 (Neural Networks for Static Arbitrage)
- API执行:https://docs.polymarket.com (官方文档)
这些正是我研究并用于构建自己机器人的核心资料。我的机器人自启动以来,已实现了 $7,800+ 的利润。虽然数额不大,但已验证了策略的有效性,假以时日,积累六位数的净利润并非遥不可及。
给你的行动指南:
- 构建市场监控器:稳定获取价格数据。
- 植入检测逻辑:从简单的价差检测开始。
- 全面回测:使用历史数据验证逻辑,计算真实收益。
- 接入执行层:小资金实盘测试,严格风控。
- 逐步扩展:添加多条件、跨平台、机器学习等高级策略。
观察多条件市场的利润如何随时间累积和扩展。

最后必须明确:套利机器人本身并不创造市场优势,它们只是市场低效的捕捉者。随着Polymarket规模增长,流动性碎片化现象也会加剧,而这恰恰在不断制造新的定价错误和机会。
但机会只属于那些严谨的构建者。积极测试,计入所有交易成本,充分模拟流动性影响。在云栈社区等技术论坛,你可以找到更多关于Python和量化交易的讨论。唯有自律、理性地构建,方能在这场效率游戏中长久获益。
理性构建,审慎套利。