
一、投资组合构建的挑战与现有方法局限
单一股票分析的局限性
当前主流的投资分析方法往往只聚焦于单只股票的交易决策,缺乏对多只候选股票进行综合推理与系统性比较的能力。这种局限性导致模型很难在多个潜在标的之间权衡利弊,从而影响最终投资组合的质量。仅关注单一资产表现而忽略整体风险收益平衡的做法,严重制约了投资组合的稳健性。
此外,现有方法通常只能输出“买入”或“卖出”等二元建议,无法实现资金在多只股票间的合理分配与协同决策。在真实投资场景中,资金配置需要综合考虑资产间的相关性、风险分散效应以及预期收益目标,而单一股票分析框架显然无法支撑此类复杂决策。
动态适应性不足的问题
传统投资策略多基于静态规则或预设参数,缺乏对市场环境变化的实时响应能力。在快速演变的金融市场中,这种刚性结构极易失效,导致策略收益显著下降。更严重的是,大多数现有模型缺乏从历史交易行为中学习并动态优化自身策略的能力。它们通常将每个周期视为独立事件,忽略了策略表现的历史反馈信息。
相比之下,反思式(Reflective)框架通过引入专门的分析智能体,对前一周期的交易行为进行评估,并将反馈结果融入下一周期的决策过程,从而实现策略的闭环迭代与自我优化。这一机制为解决动态适应性问题提供了新路径,能够使模型在不断试错与反思中提升决策质量。
对比分析:
| 框架类型 |
是否支持历史反馈 |
是否具备动态调整能力 |
是否形成闭环优化 |
| 单步式(Single-Step) |
否 |
否 |
否 |
| 反思式(Reflective) |
是 |
是 |
是 |
本文所提出的3S-Trader框架——一种无需训练的免训练投资组合构建方法,能够直接基于候选股票的近期市场信号生成投资组合,并通过反思历史决策实现策略的持续迭代与适应。
二、3S-Trader框架的核心设计与三大模块

2.1 评分(Scoring)模块:多维度量化评估
3S-Trader框架的评分模块旨在将每只股票的多源异构信息整合为一份结构清晰、可量化比较的综合评估报告,实现对候选股票的高效筛选与横向对比。该模块基于六大核心维度对股票进行1–10分的量化评分,确保评估过程客观、逻辑一致且具备高度可解释性。
需要执行以下步骤以完成评分过程:
- 整合多源信息:系统首先收集每只股票的近期市场信号,包括新闻摘要、基本面数据与价格技术指标,形成统一的数据概览,作为评分基础。
- 执行多智能体分析:通过三个专用智能体——新闻分析智能体、技术分析智能体与基本面分析智能体——分别处理不同信息源,提取关键洞察。
- 生成六维评分报告:基于上述分析结果,评分代理(Score Agent)依据预设提示模板,对每只股票在六个维度上进行独立评分,并附简要理由。
六个评分维度具体如下:
- 财务健康度:衡量公司当前的财务稳定性,得分越高,表明盈利能力强、负债水平低、现金流充裕,短期风险越小。
- 增长潜力:评估企业的投资计划、技术创新能力及未来扩张前景,得分越高,预示长期盈利潜力越强。
- 新闻情绪:从近期新闻文章中提取整体情绪极性,得分越高,表示正面报道越多,投资者情绪越积极。
- 新闻影响强度:衡量新闻传播的广度与持续时间,得分越高,反映信息对股价的潜在冲击越持久,如政策变动或行业结构性调整。
- 价格动量:捕捉股价近期的上涨或下跌趋势,得分越高,表明上涨趋势越强劲且持续性越强。
- 波动性风险:量化近期股价波动水平,得分越高,意味着价格行为越不稳定,风险暴露程度越高。
所有评分均严格基于可验证的原始数据,避免主观臆断,确保判断逻辑一致、结果可复现。例如,财务健康度评分直接来源于利润表、资产负债表与现金流量表中的关键指标;新闻情绪与新闻影响强度则通过自然语言处理技术从新闻摘要中提取;价格动量与波动性风险则基于过去四周的技术指标与价格序列计算得出。
评分过程采用结构化提示引导模型输出,确保输入输出格式统一。提示要求模型仅使用所提供信息进行判断,若信息缺失则采取保守评分并在理由中明确说明,从而提升评估的严谨性与稳健性。最终输出形式为文本化的综合评分结果,记为 S_i^w,其数学表达为:
S_i^w = ScoreAgent(Prompt_s, O_i^w)
该设计使评分模块成为整个框架的“感知层”,为后续策略与选择模块提供可靠、标准化的输入依据。
2.2 策略(Strategy)模块
该模块采用闭环式设计,实现从“执行—反馈—迭代”全过程的自动化优化。其运行机制如下:
- 输入数据整合:在每周结束时,系统获取所有候选股票
i 的实际收益率 r_i^w,并结合其对应的评分报告 S_i^w,形成策略优化所需的核心数据集。
- 历史轨迹回溯:为增强策略稳定性,系统引入历史策略轨迹
H^w 作为输入,该轨迹记录过去10周的策略执行记录,具体形式为:
H^w = { (π^{w-10}, R_u^{w-10}, R_p^{w-10}), ..., (π^{w-1}, R_u^{w-1}, R_p^{w-1}) }
其中,π^t 为第 t 周所采用的策略,R_u^t 为该周候选池平均收益率,R_p^t 为策略实际组合收益率。通过回顾10周的历史轨迹,系统可识别策略行为的长期演化趋势,避免因短期波动而偏离有效路径。
基于当前状态与历史轨迹,策略代理(Strategy Agent)生成下一周期的优化策略 π^{w+1},其数学表达为:
π^{w+1} = StrategyAgent(Prompt_π, {r_i^w, S_i^w}, H^w)
该过程不仅依赖于当前的市场表现,还融合了过往策略的历史绩效,从而实现对策略稳定性的有效控制。
策略代理的核心任务包括:
- 分析高/低收益股票的共性特征:通过对比高收益与低收益股票在各评分维度上的表现,识别影响收益的关键因子。例如,若近期高收益股票普遍具有高财务健康度与低波动性风险,则策略可能调整为“偏好稳健型公司”。
- 评估策略适应性与稳定性:系统检查当前策略是否在长期中持续产生超额收益。若存在稳定盈利模式,则维持策略方向;若近期表现不佳,则建议聚焦单一维度(如新闻情绪或价格动量)进行优化。
- 生成自然语言策略指令:最终输出为一段自然语言文本,用于指导下一周期的选择过程。
该机制通过结构化提示引导策略生成,使策略演化过程具备可解释性与可追溯性。
2.3 选择(Selection)模块:智能组合配置
选择模块是3S-Trader框架实现投资组合构建的执行层,其核心任务是根据评分报告与优化后的策略指令,从候选池中智能筛选出最多五只股票,并合理配置权重,最终输出符合规范的组合方案。
该模块的设计遵循三大原则:
- 策略对齐性:决策过程必须与当前策略指令
π^{w+1} 保持一致,确保组合构建服务于整体投资目标。
- 风险可控性:允许保留现金头寸,总权重可小于1,以应对潜在市场下行风险。
- 透明可复现性:输出包含完整推理过程与JSON格式的组合权重,提升系统可解释性与可验证性。
选择过程基于以下输入:
- 所有候选股票的评分集合
{S_i^w};
- 策略指令
π^{w+1}(自然语言形式);
- 预设的提示模板
Prompt_sel。
系统调用选择代理(Selector Agent)执行组合构建,其输出为投资组合权重向量 W^{w+1},满足以下约束:
∑_i w_i ≤ 100:总权重不超过100%,允许持有现金;
- 至多五个非零权重项:最多持有五只股票,避免过度分散。
该过程可形式化表示为:
W^{w+1} = SelectorAgent(Prompt_sel, {S_i^w}, π^{w+1})
其中,{S_i^w} 将所有评分报告按规则拼接为自然语言文本,供代理理解与处理。
选择代理的推理流程如下:
- 理解策略方向:解析策略指令,明确优先配置的股票类型。例如,若策略强调“高增长潜力”与“低波动性”,则应优先选择在该两维度得分高的股票。
- 评估候选股票:基于评分报告,综合比较各股票在六大维度上的表现,结合策略偏好进行加权筛选。
- 生成权重分配:在满足约束条件下,合理分配权重。例如,若某股票在多个关键维度上得分突出,可赋予更高权重;若存在多个高分股票,则按相对优势分配。
- 保留现金头寸:若无足够优质标的,或市场不确定性较高,可设定总权重低于100%,体现风险规避意识。
最终输出必须严格遵循以下JSON格式,确保系统可自动解析与集成:
{
"selected_stocks": [
{"stock_code": "TICKER1", "weight": 25},
{"stock_code": "TICKER2", "weight": 20}
// ... 其他股票
],
"reasoning": "对策略的理解解释,以及每只股票及其权重选择的理由说明。"
}
三、多智能体架构与信息处理流程
3.1 数据解析阶段:三类专用代理协同分析
在多智能体架构的初始阶段,系统通过三个基于大语言模型(Large Language Model, LLM)的专用代理——新闻代理、基本面代理与技术分析代理——对不同来源的市场信息进行深度解析,形成结构化、可计算的分析输出。这一过程实现了对多源异构数据的高效融合与语义提炼,为后续策略生成提供高质量输入。
- 新闻代理:负责处理与目标股票相关的市场新闻文本,包括标题、摘要及发布时间等信息。在第
w 周,系统收集所有与股票 i 相关的前一周新闻内容(即 News_i^{w-1}),将其原始文本拼接为统一输入 Text_news_i^w。随后,新闻代理基于预设提示(prompt)对文本进行自然语言理解,提取关键语义特征,如事件类型(并购、盈利预警、政策利好)、情感倾向(正面/负面/中性)以及影响范围,并生成一份周度综述,涵盖重大事件摘要、市场情绪变化趋势及潜在影响评估。该输出作为市场情绪与事件驱动因子的核心依据。

- 基本面代理:专注于企业财务健康状况的长期评估。系统整合股票
i 在第 w 周之前最近四个财季的原始财报数据(包括利润表、资产负债表与现金流量表),记为 Fund_i^w。基本面代理通过分析这些数据,识别企业盈利能力(如净利润增长率、ROE)、负债水平(如资产负债率、利息保障倍数)以及现金流状况(如经营性现金流与自由现金流趋势),并生成结构化摘要,判断企业是否具备可持续增长潜力与抗风险能力。该分析支持对“价值型”或“成长型”股票的分类判断。

- 技术分析代理:负责解析过去四周的技术指标与价格序列,识别市场趋势与动量信号。系统提取股票
i 在前四个日历周 [w-4, w-1] 内的每日收盘价与交易量,并据此计算多种经典技术指标,包括:
- 简单移动平均线(SMA)
- 平均真实波幅(ATR)
- 相对强弱指数(RSI)
- 移动平均收敛/发散(MACD)
- 布林带(Bollinger Bands)
这些指标被整合为一个连续的时间序列文本输入 Tech_i^w,由技术分析代理进行解读,识别趋势方向(上升/下降/震荡)、动量强弱、超买超卖状态及潜在反转信号,最终输出技术面趋势判断与交易信号建议。

三类代理均基于 GPT-4o 实现,仅通过提示工程(prompt engineering)完成任务配置,无需模型微调或训练,显著降低了系统部署与维护成本,同时保持了强大的语义理解与归纳能力。
3.2 信息融合与数据概览构建
在完成各维度信息解析后,系统进入信息融合阶段,将三类代理生成的结构化摘要统一整合为一个完整的数据概览,作为后续决策流程的核心输入。
该概览通过拼接新闻代理、基本面代理与技术分析代理的输出结果形成,具体表达式如下:
O_i^w = Text_news_i^w + Tech_i^w + Fund_i^w
其中:
Text_news_i^w:新闻代理生成的周度情绪与事件综述;
Tech_i^w:技术分析代理输出的趋势与动量信号;
Fund_i^w:基本面代理提供的财务健康评估。
这一融合机制实现了多源异构信息的统一表征,使系统能够在单一语义空间中综合判断个股的多维价值。例如,某股票虽具备强劲技术面动量,但基本面代理揭示其现金流持续恶化,且新闻代理捕捉到管理层变动的负面信号,则数据概览 O_i^w 将综合呈现“高风险动量信号”特征,从而抑制其在投资组合中的权重分配。

该数据概览不仅支持评分代理(Score Agent)的多维度评估,也为后续选择代理(Selector Agent)的组合构建提供了统一输入框架,确保决策逻辑的连贯性与一致性。

3.3 框架执行流程的闭环机制
3S-Trader 框架的核心优势在于其闭环优化机制,实现了从信号感知到策略自省的完整迭代流程,形成“感知—评估—决策—反思—再优化”的持续学习循环。
- 从信号感知到策略自省形成闭环:在每个交易周期结束后,系统自动评估实际收益表现,并将其与候选股票的评分报告进行对比分析。这一过程由策略代理(Strategy Agent)主导,通过分析“评分—收益”之间的关联性,识别当前市场环境下表现最优的股票特征(如高增长+低波动组合),并据此动态调整选股策略的权重规则。

-
实现“感知—评估—决策—反思—再优化”的持续迭代过程:具体流程如下:
- 感知:通过三类代理完成数据解析;
- 评估:评分代理基于
O_i^w 输出个股综合评分;
- 决策:选择代理根据评分与策略偏好构建投资组合;
- 反思:策略代理分析实际收益与预期评分的偏差;
- 再优化:更新选股策略参数,反馈至下一周期的提示工程中。
-
所有代理基于GPT-4o实现,仅通过提示工程(prompt engineering)完成任务,无需模型训练:整个系统无需进行模型微调或参数更新,所有智能体的行为均由提示词(prompt)精确控制。例如,策略代理可通过调整提示中“风险偏好”或“成长性权重”的描述,即时切换“价值导向”或“动量导向”的选股风格。这种设计极大提升了系统的灵活性与可解释性,同时保障了模型行为的可复现性与可控性。
四、实验设置与多维度性能评估
4.1 实验数据集与股票池设计
为全面评估所提出框架在多样化市场环境下的适应性与鲁棒性,本研究构建了四个独立的股票池,分别代表不同行业特征与市值结构的市场子集,涵盖从大型蓝筹股到高成长性细分板块的广泛样本。所有数据均来自 Alpha Vantage 平台,时间跨度覆盖 2022年5月16日至2024年5月27日,共计约105周的完整交易周期,确保了实验结果的统计显著性与现实可比性。
具体股票池设计如下:
- 道琼斯工业平均指数(DJIA)成分股:包含30家来自不同行业的大型美国上市公司,作为整体市场表现的代表性基准。这些公司通常具有较高的市值、稳定的盈利能力和较强的行业影响力,是衡量宏观经济趋势与系统性风险的重要参考。
- 科技板块股票:涵盖纳斯达克-100科技板块指数中的44家成分公司。该板块集中了全球最具创新力的科技企业,受技术迭代、政策变化和市场情绪影响显著,具有较高的波动性与增长潜力。
- 金融板块股票:选取标普500金融精选行业ETF(SPDR Financial Select Sector Fund, XLF)中权重最高的49家大型金融企业。该板块涵盖银行、保险、资产管理等核心金融业态,对利率变动和宏观经济周期高度敏感。
- 医疗健康板块股票:从标普500医疗健康精选行业ETF(SPDR Health Care Select Sector Fund)中选取权重最高的46家上市公司。该板块受研发管线、监管审批和公共卫生事件影响显著,长期增长逻辑清晰但短期波动剧烈。
所有原始数据在进入模型前均经过统一的预处理流程,包括缺失值填补、价格标准化、技术指标计算与多源数据(技术指标、新闻情绪、基本面因子)的特征拼接,确保输入的一致性与可比性。该流程严格遵循第3.2节所述方法,为后续模型训练与评估提供高质量、结构化的输入基础。
4.2 基线模型对比体系
为验证所提框架的优越性,本研究构建了三类具有代表性的基线模型,涵盖传统规则驱动方法、先进深度学习模型以及前沿的多大语言模型(Multi-LLM)策略生成范式,确保在公平一致的评估框架下进行横向对比。
规则驱动方法:包括简单移动平均(Simple Moving Average, SMA)、移动平均收敛/发散指标(Moving Average Convergence Divergence, MACD) 以及布林带(Bollinger Bands, BOLL)。每种技术指标均用于构建个股因子得分,每周根据得分从高到低排序,选取前5只股票作为投资组合。每只入选股票分配20%的等权重,以避免单一资产主导风险。该类方法依赖于明确的数学规则,具备良好的可解释性与低计算成本,是量化投资中广泛使用的基准策略。
深度学习模型:纳入经典的长短期记忆网络(LSTM)模型,以及两种基于Transformer架构的先进模型——Informer 与 Autoformer。针对每只股票 i 在第 w 周,响应变量定义为该周的收益率 r_i^w。模型输入包含过去4周的技术特征时间窗口,并融合股票特定嵌入(stock-specific embedding),以支持多股票联合预测。所有模型的超参数均在验证集上通过网格搜索与交叉验证进行调优,确保最优性能。每周根据模型预测的收益率从高到低排序,选取前5只股票,每只股票分配相等的20%权重,实现端到端的动态选股。
多大语言模型基线:引入两种策略生成范式——单步式(Single-Step) 与 反思式(Reflective) 框架。
- 单步式框架基于 TradingAgent 的实现方式,直接从汇总信息(如市场摘要、新闻事件、技术信号)中生成投资组合建议,无需迭代优化,强调效率与即时响应能力。
- 反思式版本则借鉴 CryptoTrade 的设计,引入一个反思代理(Reflection Agent),用于分析历史投资组合的收益表现,识别策略偏差或执行失误,并据此优化后续的选股逻辑。该机制模拟人类投资者的“复盘”行为,具备更强的自适应与学习能力。
为保证比较的公平性,两类LLM实现的输入输出结构均进行了统一调整,确保在相同信息输入条件下评估策略生成质量,从而真实反映其在复杂市场环境中的策略演化能力。
4.3 核心评估指标定义
为全面、客观地衡量投资组合在不同维度上的性能表现,本研究采用三项核心指标:累计收益率(Accumulated Return, AR)、夏普比率(Sharpe Ratio, SR) 与 卡玛比率(Calmar Ratio, CR),分别从绝对收益、风险调整收益与下行风险控制角度进行综合评估。
累计收益率(AR):衡量投资组合在评估期内的总复合收益能力,反映策略的长期增值潜力。其计算公式如下:
AR = ∏_{t=1}^{T} (1 + r_t) - 1
其中,r_t 表示第 t 周的投资组合收益率,T 为评估总周数。该指标直接体现策略在完整周期内的盈利能力,是判断长期有效性的重要依据。
夏普比率(SR):用于评估投资组合在承担单位波动率下的超额收益能力,是衡量风险调整后收益的关键指标。其计算公式为:
SR = mean(r) / std(r)
其中,mean(r) 为收益率均值,std(r) 为收益率标准差。该比率假设无风险利率为零,越高表示单位风险带来的超额回报越强。高夏普比率策略在波动剧烈的市场中更具稳定性与可持续性。
卡玛比率(CR):衡量收益相对于最大回撤(Maximum Drawdown, MDD) 的表现,重点关注策略在下行风险中的抗压能力。其定义如下:
CR = AR / MDD
最大回撤 MDD 的计算公式为:
MDD = max_{1 ≤ i ≤ j ≤ T} ( (P_i - P_j) / P_i )
其中,P_t 表示截至第 t 周的累计收益。该指标尤其适用于评估高波动性策略的稳健性——即使收益较高,若回撤过大,也可能导致投资者信心丧失或资金流失。因此,高卡玛比率策略在实际应用中更具吸引力。
上述三项指标共同构成多维度评估体系,兼顾收益、风险与稳定性,全面揭示不同模型在真实市场环境中的综合表现。
五、实验结果与性能优势分析
5.1 在道指(DJIA)成分股上的卓越表现
3S-Trader在道琼斯工业平均指数(DJIA)成分股上的表现尤为突出,展现出卓越的收益能力与高度的稳健性。其累计收益率达到 131.83%,显著高于第二名模型,位居所有评估方法之首。这一优异成果不仅体现在绝对收益水平上,更反映在收益曲线的稳定性与持续性上:如下图所示,3S-Trader的收益曲线呈现出清晰、连贯的上升趋势,未出现大幅回撤或剧烈波动,表明其策略具备长期可持续的盈利能力。

此外,该模型在风险调整后收益指标上同样表现优异,夏普比率为 0.31,卡玛比率达 11.84,均处于领先水平。这两个指标共同揭示了其在追求高回报的同时,有效控制了下行风险,实现了优异的风险收益平衡。这一综合表现表明,3S-Trader不仅“赚得多”,而且“亏得少”,具备在真实投资环境中长期运行的可行性与可靠性。

5.2 与各类基线模型的对比结果
在跨股票池的广泛对比中,3S-Trader展现出全面且一致的领先优势。其在所有股票池中均位列前两名,未出现明显短板,体现出极强的泛化能力与适应性。尤其在与传统规则驱动模型的对比中,3S-Trader表现更为显著。尽管规则驱动模型(如简单移动平均线SMA、MACD、布林带BOLL)在特定情境下仍能产生正收益,但整体表现远逊于3S-Trader。例如,在金融与医疗板块中,其累计收益率显著低于3S-Trader,部分原因在于这些模型依赖固定因子与低频交易,难以动态响应市场变化。

在科技板块中,3S-Trader的累计收益率达到 183.29%,虽略低于LSTM模型的 193.39%,但其在风险控制方面更具优势。具体而言,LSTM虽在收益上领先,但其夏普比率(0.21)与卡玛比率(5.81)均低于3S-Trader的 0.27 与 11.81,表明其收益增长伴随着更高的波动与回撤风险。这一对比凸显了3S-Trader在“高收益+低风险”权衡上的系统性优势。
5.3 深度学习模型的收益-风险失衡问题
尽管深度学习模型在累计收益方面表现亮眼,尤其在高动量、高波动的市场环境中展现出强大的趋势捕捉能力,但其在风险控制维度上存在显著短板。以LSTM为例,其在科技行业实现的累计收益率高达 193.39%,远超Informer(98.61%)与Autoformer(102.90%),凸显其对强趋势的敏感性与建模能力。然而,其夏普比率(0.21)与卡玛比率(5.81)均低于3S-Trader,表明其在获取高收益的同时,未能有效管理下行风险。
这一现象揭示了深度学习模型普遍存在的收益-风险失衡问题。其核心成因在于:
- 过度拟合历史趋势:模型倾向于捕捉过去市场中的强动量信号,但在市场反转或结构变化时反应迟缓,导致持仓策略过于激进。
- 泛化能力弱:在面对未见过的市场状态或突发事件时,模型难以做出稳健决策,容易产生大幅回撤。
- 缺乏可解释性与动态调整机制:模型决策过程“黑箱化”,难以进行人为干预或策略反思,限制了其在复杂环境中的适应性。
因此,尽管深度学习模型在单一指标(如累计收益)上具有优势,但其在实际投资应用中因稳定性不足而面临较大操作风险,难以作为独立策略的核心。
5.4 多大语言模型框架的系统性优势
多大语言模型(multi-LLM)框架通过引入结构化推理与策略反思机制,在复杂市场环境中展现出更强的系统性整合能力。以反思式框架(Reflective)为例,其在医疗健康行业中表现优异,夏普比率达 0.18,卡玛比率高达 6.51,显著优于其他方法。这得益于其能够基于历史决策文本进行自我评估与优化,从而在不确定性较高的领域实现更稳健的策略迭代。
然而,在金融领域,反思机制的效果并不理想。事实上,该框架在多数验证期内的表现甚至低于单步基线与市场基准,可能源于以下两个问题:
- 策略更新过程中的过度调整:频繁的反思与修正可能导致策略震荡,削弱其稳定性。
- 缺乏方向性信号引导:在金融市场中,趋势信号更为复杂且易变,若反思机制缺乏明确的决策锚点,易陷入“自我否定”循环,导致策略失效。
相比之下,3S-Trader 通过融合多维评分体系与策略反思机制,实现了更优的平衡。其核心优势在于:
- 多维评分体系:从基本面、技术面、情绪面与宏观环境四个维度对标的资产进行量化打分,使决策过程具备透明性与可解释性。
- 结构化反思机制:在策略生成后引入“反思-修正”循环,但基于评分结果进行有依据的调整,避免盲目修正。
- 动态权重调节:根据市场环境自动调整各维度评分权重,提升策略的适应性与鲁棒性。
综上,3S-Trader不仅继承了多大语言模型在推理与泛化上的优势,更通过系统性设计解决了单一反思机制的“过度调整”风险,实现了稳定性与适应性的双重提升,成为当前最具潜力的智能投资策略框架。
对于想深入了解人工智能在金融领域应用或获取更多技术资源的开发者,可以关注云栈社区的相关讨论与分享。