在过去的十多年里,金融AI的技术范式经历了数次关键的演进:从以因子工程为核心的传统量化模型,到深度学习驱动的时间序列分析,再到如今迅速崛起的、以大型语言模型和智能体为核心的新一代金融决策系统。
然而,技术的演进并没有带来理想中的一体化体验。研究工具高度碎片化,数据管道相互割裂,模型范式彼此孤立,实验难以复现,部署成本高企不下。
面对这一现状,来自南洋理工大学和新加坡管理大学的研究团队,联合Skywork AI,于2025年12月8日正式发布了论文《FinWorld: An All-in-One Open-Source Platform for End-to-End Financial AI Research and Deployment》。这项工作提出了一个真正的“端到端”金融AI平台,旨在从根源上解决金融AI研究与工程落地之间长期存在的结构性鸿沟。
FinWorld 是首个在统一框架中同时支持传统机器学习、深度学习、强化学习、大语言模型及大语言模型智能体,并覆盖完整金融任务链路的开源平台。

从碎片化生态到统一范式
金融AI的应用场景极为广泛,涵盖时间序列预测、算法交易、投资组合管理以及金融文本理解等。但问题在于,现有的平台往往只专注于其中的某一类任务或模型范式。
例如,Qlib在量化投资领域积累深厚,但对大语言模型和强化学习的支持有限;FinRL-Meta侧重于强化学习交易,却难以融合深度学习与大语言模型;TradeMaster在交易任务上表现出色,但缺乏对传统量化模型和金融领域大语言模型的统一支持。
FinWorld的设计初衷,正是为了解决制约金融AI发展的四个核心痛点:任务覆盖有限、多模态数据整合不足、框架结构僵化,以及缺乏标准化评估体系。平台通过统一的数据、模型、训练与评估接口,将原本割裂的研究路径整合进一个模块化、可扩展的系统中。

分层架构设计
从架构角度看,FinWorld采用了分层、面向对象、强模块化的设计理念,完整覆盖从数据获取到结果展示的全流程。平台由多个核心层级构成,每一层职责清晰、相互解耦。
配置层基于 mmengine 构建,所有实验要素——包括数据集、模型、训练策略与评估协议——都通过Python字典进行集中管理,并辅以注册机制实现组件的灵活替换。这种设计极大提升了实验的可复现性,也显著降低了复杂金融实验的配置成本。

多模态数据:金融AI的地基
金融AI的挑战之一,在于数据形态的高度异构。FinWorld在数据层进行了系统性设计,涵盖了下载、处理、组织与环境封装等多个模块。
平台统一接入了 FMP、Alpaca、AkShare、TuShare 等主流数据源,支持日频与分钟级的 OHLCV 数据、新闻文本以及大语言模型推理数据集。在处理阶段,用户可以灵活配置 Alpha158因子计算、特征选择、归一化 等步骤。
更为关键的是,FinWorld将数据直接封装为强化学习与大语言模型智能体可交互的环境,并在环境中显式引入了交易成本、滑点等真实市场摩擦。这一设计让模型训练脱离了“理想化回测”,更贴近真实的交易条件。
在数据规模上,FinWorld整合了来自美国与中国市场(如DJ30、SP500、SSE50、HS300)超过8亿条金融数据点,并收录了8万余条金融推理样本,为系统性基准测试提供了坚实基础。

统一模型层:融合四大主流AI范式
FinWorld在模型层首次实现了对四类主流AI范式的统一抽象:
Model = {ML, DL, RL, LLM}
在保持统一输入输出接口的前提下,平台同时支持 LightGBM、XGBoost 等传统机器学习模型,Transformer、Autoformer、TimesNet 等深度学习架构,以及 PPO、SAC 等Actor-Critic强化学习算法。
在人工智能领域,特别是大语言模型方面,FinWorld提供了对 GPT-4.1、Claude-4-Sonnet 等商业模型,以及 Qwen、Llama 等开源模型的统一封装,使得大语言模型能够自然地融入金融任务管道,而不是作为一个孤立的系统存在。

面向金融场景的LLM强化学习范式
针对大语言模型在金融领域“会说但不会做”的问题,FinWorld提出了一套两阶段的强化学习训练流程。
第一阶段聚焦于金融推理能力的培养,通过 Group Relative Policy Optimization 在金融问答与推理数据集上进行微调。其奖励函数同时考虑了格式合规性与答案的准确性。
第二阶段则将大语言模型直接置于模拟市场环境中,基于历史 OHLCV数据与新闻数据 进行序贯决策学习,奖励函数与真实的交易盈亏及成本挂钩。这一阶段旨在使大语言模型从“金融分析工具”进化为具备实际决策能力的 FinAgent。

模型评估与实验结果

FinWorld通过四大核心任务的系统性实验,验证了统一平台的实际价值。
在时间序列预测任务中,深度学习模型全面超越了传统机器学习模型。TimeXer 在DJ30指数上取得了MAE 0.0529的成绩,而LightGBM为0.1392,其RankIC与RankICIR指标同样显著领先。
在算法交易任务中,强化学习的优势尤为突出。SAC策略在特斯拉股票上实现了101.55%的年化收益率,在亚马逊股票上的夏普比率达到了 1.6389;而PPO策略在Meta股票上录得了 72.01%的年化收益率与2.1031的夏普比率,表现显著优于规则型策略与监督学习策略。
投资组合管理的结果同样清晰。基于强化学习的方法在风险调整后收益上持续领先,SAC策略在SP500指数上实现了31.21%的年化收益率,夏普比率稳定超过1.5,而传统的买入持有策略在DJ30指数上仅为 9.40%。
FinReasoner与大语言模型智能体的真实表现
在金融推理基准测试上,FinWorld定制的 FinReasoner 模型表现全面领先,超越了 DeepSeek-R1、Qwen3-8B 等主流开源模型。
当嵌入 FinAgent 框架后,FinReasoner在六只美股科技股上的交易表现展现出收益与风险的良好平衡,在多项指标上接近甚至超过了商业大语言模型,为“具备行动能力的金融语言模型”提供了有力证据。


自动化评估与可视化能力

FinWorld并未忽视研究工作中常被低估的一环——结果呈现与可视化。平台内置了 K线图、累计收益曲线、回撤曲线、2D/3D资产分布气泡图 等多种可视化工具,并通过专门的呈现层自动生成实验报告与网页展示。
这一机制显著降低了金融AI研究中“结果难复现、结论难比较”的门槛。

对金融AI生态的现实意义
FinWorld的价值,不仅在于其技术整合本身,更在于它为金融AI社区提供了一种新的研究与工程范式。统一的平台使得不同模型、不同任务、不同市场之间的公平比较成为可能,也让学术研究与产业落地之间的距离显著缩短。
在金融市场这一高度复杂、动态变化的环境中,FinWorld提供的模块化、可扩展与端到端能力,或许正是推动金融AI从“模型创新”走向“系统智能”的关键基础设施。
对于关注此类开源实战项目的开发者而言,FinWorld的发布无疑为金融AI领域的研究与工程化提供了新的、强大的工具选项。了解更多前沿技术动态与项目实践,可以关注技术社区如 云栈社区 的讨论与分享。