传统深度市场分析通常由专业投资人士主导,而如今AI的发展使得基于大语言模型进行前瞻性投资研究成为可能。随着大语言模型(LLMs)在金融市场中的应用增多,也引发了担忧——模型可能基于错误推理给出看似合理的答案,缺乏专业知识和判断力的投资者可能对其过度信赖。
本文旨在探讨大语言模型(LLMs)能否生成可靠的股市预测,并评估了ChatGPT等四个主流模型在三种不同提示策略下的表现。结果显示,LLM在现有技术下确实可以跑赢市场,但在完全自主部署时表现并不稳定,其推理失误可能导致投资决策错误。在简单的对话提示下,LLM推荐的信息价值较弱,零售或非专业投资者很难察觉其输出的潜在问题。而结构化的提示框架(例如带有监督的思维链协议)可以有效减少逻辑矛盾和推理噪声,结合人类验证能显著提升经济表现和预测准确性。此外,纳入监管文件作为信息源能提高预测准确性,因为这些信息标准化、完整性高,可以有效减少信息噪声。

摘要
本文探讨了大语言模型(LLMs)能否生成可靠的股市预测,并系统评估了包括ChatGPT在内的四个主流模型在三种提示策略下的表现。结果显示,LLMs生成的建议会受到其自身推理失误的阻碍,但在适当的引导和监督下,它们可以跑赢市场。同时,基于官方监管文件的股票推荐预测准确性更高。研究强调了在金融市场部署LLMs时需要强大的保障和验证措施。当前,LLMs在金融领域的应用日渐广泛,但其能否完全自主生成可靠的预测仍存疑问。
简介
传统的深度市场分析由专业投资人士主导,而AI的发展正在推动金融情报的大众化。大语言模型能够支持前瞻性的投资策略,有望改变投资格局,让普通人也能拥有专业的分析资源。
然而,LLMs在金融领域应用的增加也引发了担忧。由于模型可能基于错误推理给出看似合理的答案,缺乏专业知识和判断力的投资者可能会对其产生过度依赖。LLMs有效处理实时金融信息的能力尚不明确,网络信息的复杂性可能会干扰其推理过程,从而影响投资建议的可靠性。本文旨在全面评估现代大语言模型在金融市场中的当前能力。
本文的主要贡献包括:
- 评估提示工程与人工监督对股票推荐可靠性的影响,并对三种提示策略进行了对比。
- 考察LLMs处理实时信息的能力,以及它们应对数据问题的表现。
- 对四个主流LLM平台进行系统比较,评估其推理质量与量化投资表现。
- 探究基于官方监管文件的LLMs推荐能否提高预测准确性。
- 分析不同模型和提示策略在复杂任务中的推理失败情况,并提出相应的应对机制。
相关工作
早期的NLP研究多采用字典和规则法,随后引入了深度学习架构。例如,BERT模型被用于金融文本挖掘和预测,能够更精准地提取信号,证明公司披露的文本信息具有经济价值。
近期对生成式大语言模型在金融任务中的评估结果不一。有的研究认为其推荐缺乏一致性,而有的则表明其预测表现良好,还能通过结合结构化输入、实时披露来提升效果。总体上,人机协作的模式通常能取得更优的结果。
大语言模型存在方法和解读上的挑战,它们会产生误导性输出和幻觉,在数学和逻辑任务中容易出错,这无疑会影响金融决策的可靠性。
方法
本文采用稳健的样本外投资框架,以评估大语言模型能否生成可靠的投资预测。我们使用不同程度上带有人工干预的提示,让四个大语言模型平台生成股票预测信号,并考察基于官方监管文件的分析是否能提升推荐质量和表现。所有查询都遵循统一的协议。
实验设置
评估期为十个月(2025年4月 - 2026年1月),模拟真实投资条件并设定了信息边界:每月首个交易日提交查询,信息截止到上个月末。我们采用三种提示策略让大语言模型计算股票的“超表现得分”,并将其归一化至 [0, 1] 区间。每月提示都在全新的对话环境中启动,以确保各期独立性。超表现得分严格依据每月首日LLM软件的版本生成,使模型架构和信息集与实时市场约束保持同步。
提示词设计
我们实施了三种提示策略(简单对话、结构化提示、思维链推理),以覆盖不同背景和需求的投资者。
-
简单对话:使用简单无结构的提示,让模型充当财务经理,根据预期的月度回报为股票赋予 [0, 1] 的表现得分,不提供任何分析框架、具体指标或权重指导。
大语言模型(LLMs)可依据其内部推理来决定应用的变量、评估标准和聚合规则。此提示规范旨在体现模型在无结构化指导、外部依据和人工监督时,生成可靠股权预测的基线性能。
-
结构化提示:按照金融分析实践,引入了分析指导与上下文约束。它指示大语言模型基于股票回报的六个驱动因素来计算表现超越得分,对每个驱动因素计算两个常用金融指标,并按预定权重汇总成分得分,最终得出 [0, 1] 的总体表现超越得分。模型需使用最新数据并纳入前瞻性预期。此设计旨在评估模型遵循指令、进行多步分析推理、处理异构金融信息以及综合输出形成金融建议的能力。

- 思维链(CoT)推理:通过迭代、对话式的交互引入人工监督。从结构化提示的输出开始,人工逐次审查和完善模型的响应,纠正推理中的不一致之处,例如计算错误、依赖陈旧信息和误判金融指标等问题。
CoT推理可以提供大语言模型(LLM)在理想条件下可达到的性能上限估计,体现了通过人为主动干预可以提升模型输出的程度。
评估框架
我们实施了双重评估框架,以评估LLM投资预测的推理完整性和实际财务表现。
推理质量
评估大语言模型输出的推理完整性,区分文本流畅度与分析能力。我们考察是否存在系统性的推理失败,如逻辑矛盾、计算错误、依赖过时信息等,并评估其计算和解读金融与估值风险指标的能力。研究聚焦于模型预测的构建、计算和论证过程,将推理质量与实际回报分离,以判断其表现是源于真实的分析能力,还是事后与市场走势的偶然巧合。
财务表现
1)交易策略:为评估大语言模型生成信号的表现,我们针对每个LLM平台和提示设计,构建月度长短仓投资组合。每月在首个交易日建仓、最后一个交易日平仓,从2025年4月至2026年1月共进行十个独立的投资周期。每月初根据新信息和交易信号对组合进行完全重新平衡。

2)事前评估指标:使用四个互补的指标来评估LLM生成信号的表现,涵盖超额回报、风险调整后表现和预测准确性。
- 超额收益(α):衡量LLM投资组合相对于基准的超额回报,旨在排除市场整体波动的影响。
- 信息比率(IR):量化投资组合的风险调整回报,是月均超额回报与超额回报标准差(跟踪误差)之比。
- 方向准确性:计算资产横截面上正确方向预测的比例。
- 加权F1分数:评估模型预测的可靠性,取“表现优于基准”和“表现逊于基准”两类的F1分数的平均值。
所有LLM表现优于基准的分数都是严格事前生成的,每月初依据上月末的信息集获取,不包含后续市场信息。这确保了样本外评估,消除了前瞻性偏差,保证了研究设计的时间完整性。
提交给监管机构的文件
除了简单对话、结构化和思维链查询外,我们还评估了纳入官方监管文件能否提升大语言模型投资建议的质量与表现。监管披露旨在促进透明、标准和可比性,适合用于研究结构化、高完整性数据在人工智能驱动决策时代的作用。针对每家公司和每月查询,我们会上传前一月的官方监管文件。这些文件从西班牙证券市场监管机构获取,包含临时披露、企业通讯、年度和半年度财务报告,为大语言模型提供了及时、标准、可比的股票信息。
结果和讨论
推理质量评估
LLM推理的完整性是生成可靠投资建议的前提。在金融市场中,内部连贯性、时间有效性和数值一致性至关重要,基于错误信息的分析是不可靠的。
这项任务本身就很复杂:在简单提示下,LLM需要自行构建一个金融市场预测框架;在结构化和思维链提示下,则需要完成多项任务,近似于现实中股票分析师的工作流程。
评估显示,LLM能够生成连贯且有说服力的叙述,但普遍存在推理和计算失败的问题,表现为数据不一致、财务数据误判等,这影响了其在金融决策中的自主性。
表3对LLM推理错误进行了分类,主要分为四类:
1)实时数据检索:大语言模型在检索数据时存在事实准确性问题。当访问实时、动态或时效性数据时,输出常常包含过时、不一致甚至编造的数据。这些误差源于对表格结构的混淆、新旧内容的合并或旧信息的复用,导致输出结果混淆了财务周期、货币或不同公司的数据。
2)金融解释:第二类错误是金融推理的语义失误。常见问题包括:错误解读基本比率,例如误将低市净率(P/B)、市盈率(P/E)、负债权益比(Debt-to-Equity)视为负面信号,而实际上它们可能意味着低估或低杠杆;在分析跨国公司时,可能混淆不同货币或会计制度下的数据,导致指标在进行同行比较时产生误导。
3)计算过程:即便数据检索和财务解读无误,量化执行仍可能失败。突出的问题包括财务指标加权与汇总不当,例如类别得分超出指标的合理范围;还有缺失值的不当插补、加权求和算术不一致、多阶段计算中中间结果的遗漏或传播错误。
4)元推理与透明度:第四类为高阶推理失败,涉及内省、可审计性和复杂性管理方面的局限。模型在修改错误时常给出有缺陷的自信修正,保留了原有的错误,其自我评估能力有限;推理过程不透明,无法清晰说明表现得分的理由和权重分配;在处理文档时,阅读行为不一致,进行不完整阅读且可能不披露,对相似问题的处理时间差异很大。
管理推理失败
研究发现,大语言模型虽然语言流畅,但其金融推理缺乏稳健性。文本解释可能看起来连贯,但即便数值输出错误也很难察觉,这就形成了一种“流利陷阱”——修辞上的可信并不代表分析上的可靠。
模型处理过程(2025年4月- 2026年1月)
2025年4月,大语言模型开始整合网络浏览和实时数据检索工具,但其金融推理能力有限。近期的模型迭代在算术准确性、降低幻觉率、处理缺失值和假设透明度方面有所改进,高阶推理能力有所提升,推理失败有所减少。但截至2026年1月,各模型在数据检索、计算处理、金融解释和元推理方面仍存在局限,尚未达到在高风险金融环境中无监控部署所需的稳健性要求。
缓解策略
为应对大语言模型在定量工作流程中的推理失败,我们提出四个实用的缓解原则:
- 强制“展示推理过程”:要求模型在给出最终输出前明确展示其推理路径、假设和中间计算,这有助于减少计算幻觉,并方便人工监督。
- 验证数据来源:模型需要为所有数值输入提供明确的数据引用,同时必须对这些引用的真实性进行独立验证。
- 进行迭代验证:用户应纳入明确的验证程序,让模型对其输出进行内部一致性和准确性审查。
- 嵌入人工监督:鉴于语言的流畅性可能掩盖分析的缺陷,人工监督应贯穿整个分析流程。专家监督对于评估语义和上下文连贯性等方面至关重要。

LLM生成的投资组合的经济表现
LLM能跑赢市场吗?
我们为各LLM-提示配置构建了从2025年4月至2026年1月每月再平衡的长短仓投资组合,并以超额收益和信息比率评估其绩效。
- 简单对话:简单对话式提示产生的平均月超额收益为0.35%,与零无显著差异,信息比率很低,几乎没有预测力,无法改善被动的基准策略。
- 结构化提示:提供了上下文输入和分析结构的提示可以提升绩效,月均超额收益增至2.24%,信息比率升至0.58。但各模型的表现存在差异,部分模型存在“阿尔法不稳定”的问题。
- 思维链推理:结合了结构化提示、迭代审查和人工监督的表现最佳,月均超额收益达到3.04%,信息比率为0.68。所有模型均产生了显著的正超额收益。其优势源于人机协作框架,通过自我纠正和人工纠错提升了绩效。
分类精度和F1-Score
我们评估了大语言模型对IBEX 35指数全部成分股横截面的分类准确性,而非只聚焦于极端五分位数。
- 简单对话的准确率约为0.554,F1分数约为0.525,显示出一定的预测能力但提升有限,且容易发生推理失败。
- 结构化提示的平均准确率提升至0.579,F1分数提升至0.543,但不同模型和不同时期的表現差异较大。
- 思维链提示的分类表现最佳,F1分数达到0.552,能更有效地处理非对称的分类错误。
交易组合和横截面分类测试表明,LLMs确实可以实现市场超越,但其推理错误会影响可靠性。研究建议,在金融应用中需要引入人工监督,LLMs在具有专家判断验证的工作流程中会更有效。
LLM基准测试
我们对四个大语言模型在投资组合回报和分类指标上进行了比较:
- Perplexity表现最佳,在多数指标上领先,月均超额回报高,信息比率强,分类准确率和F1分数也最高,其搜索增强的架构优势明显。
- Gemini排名第二,在多数维度上超越ChatGPT和DeepSeek,在无监督配置下表现良好。
- ChatGPT排名第三,对提示设计敏感,在缺乏分析指导时难以将信号转化为稳定的回报。
- DeepSeek表现最为保守,在各提示策略下超额回报虽为正,但其风险调整后表现和分类质量欠佳,尤其是在CoT提示下表现较弱。


监管披露的影响
我们考察了将监管文件纳入投资流程是否能提升大语言模型推荐的质量与表现。监管披露信息规范、可靠、噪声低,可以作为语言模型的天然基础机制,减少歧义、增强可比性、约束模型依赖不完整或不一致的叙述。
表6显示了包含与不包含监管文件所构建的投资组合表现指标。包含监管文件的组合,其风险调整后表现有所改善,信息比率提升,分类准确率和F1分数也更高。不同模型和提示策略的方向准确率从0.568提升到了0.579。

在无分析结构和指导的简单对话查询中,纳入监管披露的收益最大。例如,在朴素提示下,月超额收益从0.40%增至1.02%,信息比率从0.06增至0.20,方向准确率和F1分数也有提升。
在复杂的提示策略下,监管披露同样能提升表现。例如,Perplexity搭配思维链提示,月超额收益从3.5%增至4.0%。除了DeepSeek之外,整合监管披露后,所有模型的整体表现指标都有所改善。
DeepSeek是一个例外,其纳入监管文件后表现反而变差。这主要是因为其在处理长附件时存在局限,无法完整解析文件,生成的摘要过于简化,无法可靠提取决策相关信息。这表明,即使输入是相关且高质量的,也不能保证LLM的输出是可靠的。上下文基础可以提升信息价值,但前提是模型能有效处理数据,且在实证部署中需要有严格的验证和适当的监督。
随时间变化的表现
我们将实时评估窗口分为两个子周期,以评估大语言模型提取投资信号的能力,并考察模型性能随时间的一致性、架构更新的影响等。
图1展示了各子周期的性能指标。所有提示策略的表现都随时间呈现出明显且持续的改善,这表明模型更新确实提升了LLM生成投资信号的预测质量。

其中,DeepSeek的改善最为显著。在独立查询中,其各评估指标均有提升。其处理监管附件的局限性在近期版本中也有所缓解,虽然超额回报仍低于领先平台,但已全部为正,包含监管披露查询的信息比率也大幅提高。
尽管如此,模型更新并未消除系统性的推理失败。截至2026年初,所有平台和提示策略下仍然存在分析和计算错误,这些错误可能导致错误的输出和不利的财务决策。这再次强调了需要强大的验证和治理机制。结构化的提示、上下文的整合、高质量的输入以及专家监督,是实现可靠部署的关键。否则,LLMs容易出现系统故障,影响财务决策的质量和完整性。
样本大小和软件配置
对性能结果的解读受到两方面约束:一是评估期较短(仅十个月),二是大语言模型发展迅速。在研究期间,模型在多个方面进行了更新,导致其推理和信息处理能力发生变化,影响了对比的一致性。较短的评估期削弱了统计效力,因此解读点估计时需要谨慎,我们采用了综合的视角进行评估。
但本研究的贡献并不因此受限。十个月的实盘评估在同类研究中已属最长,我们的目标并非最终确定某一模型的表现和技能,而是评估大语言模型生成的信号在何种条件下能在实盘中产生回报。研究为此提供了重要的见解。
总结
本文研究评估了大语言模型(LLM)能否生成可靠的股市预测,并考察了其在何种条件下能产生超越被动基准的风险调整回报。我们发现,LLM在现有技术下确实可以跑赢市场,但在完全自主部署时表现不稳定,其推理失误会导致投资决策错误。简单的对话提示下,LLM推荐的信息价值较弱,零售或非专业投资者很难察觉其输出中的问题。结构化的提示框架(例如带有监督的思维链协议)可以有效减少逻辑矛盾和推理噪声,结合人类验证能显著提升经济表现和预测准确性。纳入监管文件作为信息源能提高预测准确性,因为这些信息标准化、完整性高,可以有效减少信息噪声。
未来的AI金融应用,需要将LLM的能力融入一个包含分析指导、验证输入和人类监督的治理框架中。这不仅需要技术层面的配合,还需要组织层面的支持,并辅以严格的实施保障。
以上研究成果的深入讨论和更多技术细节,也欢迎在云栈社区的“人工智能”等板块与广大开发者一同交流探讨。