分红债券基金的税收优势和筛选方法——结合DeepSeek及LightGBM模型的创新探索
◇ 作者:易方达基金投顾投研部投资经理 何羿
易方达基金投顾业务部人工智能研究员 马彦楠
◇ 本文原载《债券》2025年12月刊
摘 要
企业投资者在进行金融投资时需要考虑税务问题,基于政策支持,投资分红的债券基金在税收方面更具优势。当前市场上债券基金数量众多,人工筛选分红标的效率较低。本文紧扣基金数量、分红确定性和分红比例预测这三个核心需求,借助深度求索(DeepSeek)模型对基金合同进行语义分析,使用轻量级梯度提升机算法(LightGBM)模型对全市场债券基金的数据进行训练和预测,为企业投资者筛选分红债券基金提供了创新思路和工具。回测数据显示,创新筛选方法可以实现较好的税收优惠效果。
关键词
债券基金 分红 DeepSeek 机器学习
企业投资分红债券基金的税收优势
(一)企业与基金进行金融资产投资的税收规定对比
根据《中华人民共和国企业所得税法》第四条第一款,企业投资者在进行金融资产投资时,获取的收益需要缴纳25%的企业所得税。实践中,如果企业进行债券投资,除了国债和地方政府债的利息收入免企业所得税外,其他债券品种的利息收入和所有资本利得收入均要缴纳企业所得税。
相比之下,由于基金并不属于企业,其收入在基金端不需要缴纳企业所得税。所以,债券基金(以下简称“债基”)投资债券的税收条件比企业要优惠很多。
在我国,以银行、保险等金融机构为代表的企业进行以债券为代表的低风险投资时,如何合理进行税务规划、有效增厚实际收益,利用基金间接进行投资是否能够获得更多回报,是值得探索的课题。
(二)企业投资分红债基的税收优惠分析
1.债基的税收递延优势和分红免税优势
一方面,企业如果直接投资债券,则需要在每年报税时确认所持有债券当年的利息收入并缴税。企业如果投资(申购)债基,只需要在赎回基金时确认收入,并基于收益情况缴纳企业所得税。如果持续多年持有一只债基,就可以将原本每年缴纳的税金延后至赎回年份再缴纳,被延后的税金可以在中间年份继续产生收益,发挥复利的作用,从而增厚收益。
另一方面,如果企业投资的债基进行了分红,还可以获得更多税收优惠。这是因为我国为了鼓励证券投资基金的发展,在《财政部 国家税务总局关于企业所得税若干优惠政策的通知》中规定,对投资者从证券投资基金分配中取得的收入,暂不征收企业所得税。基金分配即基金分红,通常投资者可采取两种分红方式:一是现金分红,即基金将收益兑现、派发给基金持有人;二是红利再投资,即分配的红利自动成为持有人新增的基金份额,可免去申购流程和费用。不论是现金分红还是红利再投资,企业均可享受分红免征所得税的优惠。
2.案例说明
现以企业投资于票息为2%的债券为例,说明债基分红免征企业所得税的优惠效果。
假设1:企业直接持有该债券,则连续持有10年可获得的税后收益为:
[100%+2%×(100%-25%)]10-100%≈16.1%
假设2:企业通过持有一只债基投资该债券,则持有10年后的税后收益为:
[(100%+2%)10-1]×(100%-25%)≈16.4%
可见,延后10年再缴税相较于每年缴税所带来的税收递延优势为0.3%(16.4%-16.1%)。
假设3:企业持有的这只债基每年定期分红,且每年2%的债券票息收益全部分给持有人,则持有10年后的收益为:
(100%+2%)10-100%≈21.9%
平均每年的分红税收优惠效果约为:
(1+21.9%-16.4%)1/10-100%≈0.5%
显然,三者对比,持有定期分红的债基获得的长期收益是最高的(见图1)。
筛选分红债基的常规方法和操作难点
根据万得统计,截至2025年一季度末(下同),全市场约有3800只公募债基,其产品特征和业绩差异很大,债基的择优分析本身即涉及庞大的基金投研体系。以银行和保险为代表的企业投资者要在此基础上加入分红情况研究,并不是一件容易的工作。
(一)筛选方法的核心考虑因素
良好的筛选方法需要满足以下核心需求。
第一,需要尽可能增加所筛选出的债基数量。在上文示例中,每年分红的税收优惠收益约为0.5%,与债基每年通常超过2%的投资收益相比,只是对收益的部分增厚,无法替代原有的择优分析。考虑到债基的业绩表现分布、银行和保险类专业投资者的投资体量和分散度要求等因素,需要筛选出一个尽可能大的基金池,为后续基金投研的优中选优、分散配置创造空间。
第二,分红要有确定性。虽然在买卖债基时存在申购费、赎回费,一般不提倡频繁进行交易,但银行和保险类投资者具有日常流动性管理需求,且通常至少每个季度会检视一次投资效果并决定是否调整持仓。所筛选出的债基如果分红操作遥遥无期,则可能出现债基尚未分红就因投资计划变动而被赎回的情况,导致投资者无法享受分红的税收优惠。
第三,债基的分红比例(单位分红金额/基金净值)要尽量高。按照当前的政策,投资者所享受的企业所得税减免金额是以分红确认单所记载的收益分配金额为基础进行计算的,分红比例越高,则所享受的税收优惠越多。
(二)筛选分红债基的常规方法分析
笔者分析了基金名称筛选法等常规筛选方法,发现在实际操作过程中,基于人工、主观、定性的这些方法往往无法满足上述核心需求。
1.基金名称筛选法
考虑到客户对分红的需求,部分债基在其名称中就有“季季红”“双季红”“年年红”等说明其分红特性的用语。不过笔者统计发现,这类债基仅有15只,占全市场债基的比例不足0.4%,所以仅通过名称无法筛选出足够数量的分红债基。事实上,即使是少数在名称中标明“季季红”或“双季红”等用语的基金,也经常因为基金不满足分配条件而无法做到按期分配。要找出后续能够稳定分红的基金,需要从分配规则入手开展研究。
2.法定分配条件筛选法
对封闭式债基而言,根据2014年中国证监会发布的《公开募集证券投资基金运作管理办法》,封闭式基金的收益分配每年不得少于一次,且年度收益分配比例不得低于基金年度可供分配利润的90%。不过截至2025年一季度末,封闭式债基仅有5只,数量很少。
对开放式债基而言,根据2012年中国证券投资基金业协会发布的《证券投资基金会计核算业务指引》,收益分配时需减记会计中的未分配利润科目。如果一只债基在前期已经多次分配或近期出现亏损,导致当期单位净值低于1元,则无法进行分配。近年来,我国债市大部分时间处于牛市,截至2025年一季度末,全市场(不同份额类型单独计算)仅有约2.1%的债基单位净值低于1元,以净值低于1元作为条件进行筛选,绝大多数债基符合法定分配条件,筛选效果有限,需要进一步分析。
3.基于基金合同条款的逻辑进行分析和人工筛选
在基金产品合同中,“基金的收益与分配”章节是影响基金分红的重要内容,其中“基金收益分配原则”条款(以下简称“分红条款”)尤为关键。相关文本通常涉及以下内容。
第一,分配原则。分红条款中的核心内容可以提炼为该基金的“分配原则”指标,直接决定了基金分配的可能性。如果相关内容有类似“本基金存续期内将不进行收益分配”的表述,则说明该基金不会进行分红。如果相关内容包含“基金须进行收益分配”或“基金每年分配不少于×次”等表述,则可以判断该基金在条件允许时,必然会进行分红。如果相关内容采用了较为宽松的表述,如“可进行收益分配”,则表明该基金的分红具有不确定性。
第二,自身分配条件。部分基金会在分红条款中加入额外约束条件,例如“每季度最后一个工作日收盘后每×份基金份额可分配利润金额不低于×元”等,基金在满足该条件时才会进行分红。据笔者统计,约3%的债基合同中含有此类额外约束条件。
第三,分配频次。对于同时满足上述条件的基金,部分产品还会通过“每月/季度/年分配比例不得低于可供分配收益的×%”等表述,对一定周期内的分红比例下限进行约定。在实践中,当这类基金的前期分红尚未达到约定分配比例时,后续在本周期内进行至少一次分红的概率较高。
第四,每次分配比例要求。对已经确定会进行分红的基金,其合同中通常会注明“每次收益分配比例不得低于该次可供分配利润的×%”等表述,以明确最低分配比例。该类信息虽然不会影响分红的必然性或可能性,但对预测后续分红比例具有较大作用。
通过阅读归纳分配原则、 自身分配条件和分配频次等内容,可以将基金分为不会分红、一定分红和可能分红三类,再结合分配比例要求,还可以初步推断其可能的分红比例(见图2)。不过,在全市场有近4000只债基的背景下,由人工来研读分红条款的工作量相当繁重,时效难以保障。同时,笔者对万得数据库中收录的全部基金合同进行了统计,结果显示只有约6%的债基是满足分配条件后一定分红的,约0.1%的债基是一定不分红的,绝大部分债基的分红与否处于不确定状态。而在合同中包含每次分配比例要求的债基仅占25%左右,研读分红条款的方式难以满足筛选时对确定性和分红比例进行预测的核心诉求。有鉴于此,笔者尝试创新思路,通过快速发展的人工智能(AI)技术来构建新的预测方法。
利用大语言模型和机器学习模型筛选分红债基
大语言模型能够对合同进行文本分析和语义理解,并批量提取对后续分析有价值的标准化信息,节约人力投入。基于充足的输入数据,可以借助机器学习模型对占比达94%的可能分红的债基进行更为精准的确定性分析,并对满足条件即分红的债基进行分红比例预测。
(一)借助深度求索(DeepSeek)大语言模型进行筛选
随着AI技术的发展,采用训练好的大语言模型如DeepSeek,加上场景化的约束条件,可以对债基合同中的分配条款进行读取,形成相应指标后进行判断。
1.调试DeepSeek提示词并进行文本提取
笔者采用本地化部署的DeepSeek R1模型,利用接口批量录入整理后的基金合同条款,对上文提炼出的“分配原则”“自身分配条件”“分配频次”“每次分配比例要求”等指标分别编写提示词,要求DeepSeek对每一只债基分别生成对应的指标内容,即格式化文本数据。
由于AI幻觉的存在,DeepSeek生成的内容会出现答非所问或偏离文本本原信息的情况。对此,笔者从全市场债基的合同中随机抽取200个合同文本作为训练组,调试提示词,并在另外200个随机抽取的合同文本中校验提示词效果。在耗用约500万个语义训练单元(Token)进行优化后,DeepSeek组与对照组相比,不同提示词的正确率均在90%以上,其中3组提示词辨识结果的准确率接近100%(见表1),达到较为优秀的水平。
其中,以分配频次为例,输入DeepSeek的提示词如下:
请根据原文中的信息, 输出类似于【月】、【季】、【半年】、【年】这样的分配频次标签, 注意只输出一个标签, 不要输出标签和“空”以外的内容。标签提取方法如下:
(1)找到出现“最少分配*次”、“须分配*次”、“不少于*次”和“应于*进行分配”等体现一定分配的短句(注意不是“最多分配*次”和“不超过*次”等可能分配的字眼), 从中提取分配频次;
(2)找到类似于“在每份基金份额可分配收益/利润超过*元的前提下”的短句, 从中提取分配频次;
(3)若以上两条都未找到, 则直接输出为空, 不要做其他联想。
其中,“*”在计算机语言中可代表一段不限定长度的文本内容。依照上述分配频次提示词的格式,笔者编写了分配原则、自身分配条件、分配频次和每次分配比例要求等指标的DeepSeek提示词。
2.利用DeepSeek初步进行分类判断
笔者使用优化后的提示词对全部债基合同的相应条款进行分析,并为每只债基生成关键指标的对应内容。DeepSeek随后可以基于指标内容进行逻辑判断,将基金初步分为不会分红、一定分红和可能分红等类别,即批量实现图2的判断逻辑。
从结果来看,约200只债基可以被归于满足条件一定分红的类别,有4只债基可以被归于一定不会分红的类别1,剩余约3600只债基可以被归于满足分配条件后可能进行分红的类别。
(二)使用机器学习模型进行分红确定性预测
1.影响分红确定性的两个维度
对于可能进行分红的基金,可以从两个维度分析其后续分红的确定性。
第一个维度是业绩表现。基金分红需以可供分配利润为基础,且不少基金约定,只有在自上次分配以来实现正收益或可供分配利润增长的情况下才进行分红,因此可以合理推断,近期业绩表现良好、最新一期基金定期报告显示留存有较多可供分配利润的基金,有更高的概率会进行分红。
第二个维度是收益分配历史。许多债基虽然在其分配规则中没有说明分红时间,但过往分红记录显示,其几乎在每个季度末均会进行一次分红。这种过往分红非常规律的基金,未来延续规律性分红的概率较高。
2.分类预测算法的选用
预测基金分红确定性的理想模型,应该能对业绩表现和收益分配历史这两方面信息进行定量分析,并对初步判断为可能分红的基金进一步预测其未来一段时间的分红概率。
凭借可解释性和预测准确度方面的优势,决策树模型在金融领域的分类问题中被广泛应用,其通过迭代训练来逐步缩小模型的预测误差。笔者选用决策树算法的改良版本——轻量级梯度提升机算法(LightGBM)进行计算,其通过直方图算法将连续特征的值离散化为多个区间来加速训练过程。此外,LightGBM采用基于叶子的增长策略(leaf-wise),优先选择损失函数下降最快的方向进行迭代,能更好地提升结果的准确性。
3.构建模型的特征
债基“业绩表现”变量的原始数据是其净值的时间序列数据,“收益分配历史”变量的原始数据则是包含日期、当日是否收益分配、收益分配比例这3项的时间序列数据。不过,直接在机器学习模型中输入这两个时间序列数据,模型很难自主挖掘出有用的结果。需要先通过特征工程的方法,从这两组时间序列数据中总结出有价值的信息,形成模型更易读取的特征指标,才能获得良好的数据挖掘效果。
此处笔者采用探测器(Detector)特征工程衍生技术,借助机器学习程序包Scikit学习(Scikit-learn),可以非常高效、准确地从原始数据中批量生成有价值的特征指标,如近1/3/5……个月、近1/3/5……年的收益分配次数、差额和方差等。将这些常见的特征指标输入模型,并采用多项式特征(Polynomial Features)功能将特征重要性(Feature Importance)作为衡量标准,可以从“业绩表现”和“收益分配历史”这两组原始数据中各自生成6个和22个特征因子。笔者此处列举最重要的10个因子供读者参考,如图3所示。
4.模型训练与预测结果的选取
根据统计学的定义,分红预测的精确率是指在被模型预测为正(预测会进行收益分配)的样本中实际确实为正的比例。精确率越高,则说明机器学习模型对分红债基预测结果的确定性越好。笔者希望模型能在具有较高精确率的基础上产出足够多的预测为正的债基,以满足投资需要。
笔者利用2021—2023年的样本作为训练组,对模型进行调试,并将可能分红的债基在2024年的时间样本作为实验组,每月初判断一次,以其在之后3个月内是否真正分红作为判断正误的标准,来测试模型的精确率。
LightGBM模型分类预测的产出为0~100%的概率数据,选择预测分红概率更高的基金将有更高的精确度,但产出的可选基金数量也更少,读者可以综合考虑自身对精确度的需求等因素,在50%~100%之间选择合适的数据作为标准。表2提供了实验组的预测结果供参考。
如表2所示,被预测分红概率在90%以上的债基群体,其在之后3个月内真实进行分红的概率可达90%,且每月至少能够产出160只债基,可满足大多数机构的债基配置需求。
(三)分红比例预测和综合税收优惠效果测算
在基于数量和分红确定性需求构建筛选方法后,可继续采用机器学习模型对分红的比例进行预测,以提升税收优惠效果。
1.以LightGBM模型对分红比例进行预测
决策树模型除了可以判断归类概率,还可以进行回归分析,故继续采用LightGBM模型对分红的具体比例进行预测。在进行回归过程中,可以充分借助前文通过DeepSeek读取的分配频次和每次分配比例要求的结果。如一只基金在合同里明确规定了每次分红金额占可分配利润的最低比例,则该比例越高,其分红的可能比例也越高。此外,将经过Feature Importance测试的其他指标也加入LightGBM模型,包含6个基础信息类指标(如基金类型、成立时长等)、8个条款标签类指标(如分配原则、是否有分配条件等)、6个业绩表现类指标(如最近1次分配时的收益率、最近3次分配时收益率的均值等)及22个收益分配历史类指标(如最近1次分配距今的月数、去年当月是否分配等),合计输入42个指标。
将分类为一定分红及预测分红概率大于90%的债基作为预测对象,这些基金在2024年实际分红约850次,真实的平均分红比例约为0.78%,而LightGBM模型预测的平均分红比例约为0.85%,均方误差MSE(Mean Squared Error)约为0.22%。综合来看,LightGBM模型可以较为准确地预测分红比例。
2.综合税收优惠效果测算
基于2021—2023年的数据训练结果,笔者将上述模型产生的分红债基池、分红概率和分红比例的预测结果综合应用到2024年的数据样本进行投资回测,以检验本文分红债基筛选方法的效果。
假设一家投资机构从1月开始,每月从分红概率在90%以上的债基中选择预测分红比例最高的10只债基进行平均配置,且每持有3个月进行一次检视,换掉实际未分红基金及更新预测后不会分红的基金,以此滚动,则可形成如表3所示的测算结果。
该机构在2024年所持债基的分红次数合计为35次(预测值为40次,有5次未分红),获得累计分红的比例为5.18%,大于2024年债基的持有收益(中证债券基金指数所代表的市场平均收益为4.20%),可实现的增厚收益约为1.29%,高于图1示例中每年约0.5%的税收优惠收益,说明筛选方法具有良好效果。
总结
本文对比了企业投资者直接投资债券、投资债基和分红债基等不同方式的税收待遇,通过定量案例阐明了投资于分红债基的税收优势。针对企业投资者筛选债基时在获得产品数量、分红确定性和分红比例预测等方面的核心需求,笔者发现当前采用人工方式筛选分红债基存在不足,故探索了结合DeepSeek语义识别及LightGBM模型概率预测功能的创新方法,并利用LightGBM的回归功能实现了对分红比例的预测,最后以2024年的数据进行测试,发现创新方法效果良好,按照其结果进行投资可以提升税收优惠收益。
需要说明的是,考虑到债基在申购、赎回过程中可能产生费用,在相关投资实践中,投资者仍应秉承长期投资的理念,避免在分红时点前后有大笔资金“快进快出”,回归以票息为主的固收投资,合理合法利用税优政策,促进收益稳健增长。
注:
1.这4只债基为博时双月薪、工银月月薪定期支付、景顺长城鑫月薪和交银定期支付月月丰。目前被分为“不会分红”类别的债基均存在定期赎回份额用于客户支付的机制,并明确约定不进行分红。
参考文献
[1]张家铖. DeepSeek与AI幻觉[EB/OL]. (2025-02-20)[2025-06-01]. https://www.sohu.com/a/861580887_468661.
[2] KE G, MENG Q, FINLEY T, et al.. LightGBM: A Highly Efficient Gradient Boosting Decision Tree[C]. Advances in Neural Information Processing Systems 30(NIPS 2017). Long Beach, CA, USA: Curran Associates, Inc., 2017:3146-3154.
[3] SHAIK N, SHAIK A, PRIYA K, et al.. Elevating Machine Learning Performance: The Power of Feature Engineering[J]. Journal of Novel Research and Innovative Development, 2024, 2(6).