新浪财经

中金 | 简胜于盲——转债强化学习模型 V3.3

中金固定收益研究

关注

从持续超额,到无所适从。我们的上一代模型,用于2024年11月份到2025年的行情中(可参考对应时间“十大转债的选择”)。投资者自然也看到,超额回报在2025年的9月份以前,相对明显,此后进入了一段时间的挣扎期。新年以来我们做出了调整,但已经不是当时的模型了 —— 我们混合使用了一些时间成本策略,并考虑了新的模型。

图表1:十大转债策略指数

资料来源:Wind,中金公司研究部;

几个显而易见的问题:

1、模型无法应对多数的条款博弈。模型并不知晓,赎回、不赎回的信息。当然作为小样本信息,即便给模型输入,也很难将其总结为有价值的规律。这一点当然存在争议,经过更细致的微观研究,研究员可能会对赎回、下修倾向有所判断,而风险在于判断有误的代价很大。在我们看来,这些信息多数都“一致地”反映在了价格里,造成了高昂的错误成本。历来我们并不重视所谓条款博弈,因为这是一个天然的,胜率很高,盈亏比却不可接受的努力方向。

图表2:亿纬转债的赎回体现出与市场预期不符

资料来源:Wind,中金公司研究部;

但模型的问题则在于,估值很高的时间里,看起来可以接受其估值的品种,恰恰都是存在普遍、稳定赎回预期的品种。造成其对“期限”的理解存在偏差。这是造成2025年10月前后十大转债回撤的主要原因,要么估值高,要么即将赎回。

2、相对和绝对的目标并不完全相容。在前一代模型中,我们的目标函数是这个转债能否获得正回报。换句话说,这个模型本身是对单个转债的择时模型。但绝对收益投资者一直以来的目标吗,还是投资者在看待模型的时候,会更重视相对收益 —— 真正的难度在于投资者的目标,可能是两个都要。

前一代模型有“市场平均估值”这样的变量,意在让模型识别当前市场的整体水位 —— 这个因子所占比重不低。当市场整体估值超过训练集的最高水平时,这个信号将会影响到所有个券。就“个券择时”的目标来说,模型训练的结果没错,但对于择券来说,如此高权重的环境变量,则更多是在形成“因子致盲”效果 —— 相比于高估值的环境,个体差异微不足道。

3、重要的问题是,由于估值的变化,训练集里甚至没有这样的环境。择时来讲,老模型的结论仍然是对的 —— 今年的事实证明了这一点。但择券来说,意味着带入绝对水平因子的模型,没有见过这种环境下,“相对收益”将如何预测。

图表3:对比:隐含波动率

资料来源:Wind,中金公司研究部

图表4:对比:隐含波动率分布

资料来源:Wind,中金公司研究部

因此,做出如下变化(我们没有使用“改进”是因为,这个模型会变成相对择券模型,而非原本的个券择时模型):

1、不引入关于赎回的条款的任何参数,但代入赎回是否在近期可能触发的特征,以让模型正确识别“期限可能突变”的事实;

2、将目标函数改变为,当前转债在未来的相对收益,可否超过转债等权指数;

3、尽可能移除绝对意义上的变量,以及市场整体变量,因为这些参数都是针对于全体个券的。相应地,我们谨慎地挑选高质量的估值、技术因子(仍不纳入宏观或基本面因子),并以排序作为最终模型输入;

我们的模型架构和训练技术不做本质性改变,仍然是以 DQN 为主要结构(设定如下),设立缓存池还缓解模型对不同样本因为学习顺序,而“印象”深度不同的问题。因此,整体上这反而是比此前更加简单的模型,化繁为简。在新的环境里,摘除了“灯下黑”,让模型慢慢适应更加本质的因子。

图表5:DQN架构的初始化设定

class Agent_Double:
    def __init__(self, input_size, hidden_size=64, action_size=2, lr=0.001, 
                 gamma=0.9,
                 memory_size=256, target_iter_size=100, batch_size=32,
                 train_round=10, device='cuda' if torch.cuda.is_available() else 'cpu'):
        self.input_size, self.hidden_size, self.action_size = input_size, hidden_size, action_size
        self.train_round = train_round
        self.gamma = gamma
        
        self.batch_size = batch_size
        self.device = device
        self.memory_setup(memory_size)
        self.net_setup(target_iter_size, lr)

资料来源:中金公司研究部

我们每次选取模型认为“值得买入”确信度最高的 20% 的券,效果如下(2024 年后为样本外)。同时相比前代模型,其单调性更加稳定。

图表6:新择券模型的净值情况

资料来源:Wind,中金公司研究部

回到当下的市场。转债的估值在3月中旬已经经历过,至少对于短线来说比较充分的调整。在前期周报,我们认为当市场估值已经落地,如果能突破60分钟下跌的技术条件,则进入“转债可以先入场”的交易性时点。实际中难点反而在于,转债市场的动作更快,更加考验投资者的反应和交易能力。如今市场开始反弹,我们保持此前的看法,仍将此定义为值得一做,但需克制的交易性机会。目光应当转向个券的“续航”能力。

结构方面,上一期我们的十大转债表现尚可,本期沿用上述模型,随着阿拉、远信已经临近最后交易日(我们仍然认为赎回无需特意规避,这一点在近期得到回报),我们进行替换,建议关注上期已有的华兴、晶能、东亚,加入锦鸡、福 22、瑞丰、苏利、新港、银微和神马转债。

Source

文章来源

本文摘自:2026年4月10日已经发布的《简胜于盲——转债强化学习模型 V3.3

杨冰  分析员 SAC 执证编号:S0080515120002  SFC CE Ref:BOM868

罗凡  分析员 SAC 执证编号:S0080522070003  SFC CE Ref:BUL744

陈健恒  分析员,SAC执业证书编号:S0080511030011 SFC CE Ref:BBM220

Legal Disclaimer

法律声明

特别提示

本公众号不是中国国际金融股份有限公司(下称“中金公司”)研究报告的发布平台。本公众号只是转发中金公司已发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。订阅者如使用本资料,须寻求专业投资顾问的指导及解读。

本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。

中金公司对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果,中金公司及/或其关联人员均不承担任何形式的责任。

本公众号仅面向中金公司中国内地客户,任何不符合前述条件的订阅者,敬请订阅前自行评估接收订阅内容的适当性。订阅本公众号不构成任何合同或承诺的基础,中金公司不因任何单纯订阅本公众号的行为而将订阅人视为中金公司的客户。

一般声明

本公众号仅是转发中金公司已发布报告的部分观点,所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件,订阅者只有在了解相关报告中的全部信息基础上,才可能对相关观点形成比较全面的认识。如欲了解完整观点,应参见中金研究网站(http://research.cicc.com)所载完整报告。

本资料较之中金公司正式发布的报告存在延时转发的情况,并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。证券或金融工具的价格或价值走势可能受各种因素影响,过往的表现不应作为日后表现的预示和担保。在不同时期,中金公司可能会发出与本资料所载意见、评估及预测不一致的研究报告。中金公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论和/或交易观点。

在法律许可的情况下,中金公司可能与本资料中提及公司正在建立或争取建立业务关系或服务关系。因此,订阅者应当考虑到中金公司及/或其相关人员可能存在影响本资料观点客观性的潜在利益冲突。与本资料相关的披露信息请访http://research.cicc.com/disclosure_cn,亦可参见近期已发布的关于相关公司的具体研究报告。

本订阅号是由中金公司研究部建立并维护的官方订阅号。本订阅号中所有资料的版权均为中金公司所有,未经书面许可任何机构和个人不得以任何形式转发、转载、翻版、复制、刊登、发表、修改、仿制或引用本订阅号中的内容。

加载中...