Vibe Coding:打造一人量化团队 | 国联民生金工
(来源:尔乐量化)
- 报告摘要 -
SUMMARY
➤ Vibe Coding正在系统性消解投资研究的核心矛盾,将开发者的精力从“如何写代码”转向“如何定义需求与验证结果”。
传统量化策略开发中,想法验证长期受制于编程实现的门槛与技术摩擦。基于Claude Code与OpenClaw的Agent-first开发范式,使用户能够以自然语言描述意图,由AI自主完成编码、调试与验证,实现“You fully give in to the vibes, forget that the code even exists”的开发体验。这种转变并未降低认知要求,反而凸显了逻辑清晰度与需求表达能力的价值,技术贬值而认知升值成为Agent时代的核心特征。
➤ OpenClaw作为“有手的AI”将Vibe Coding从代码编辑器延伸至操作系统全栈,实现了投研工作流的7×24小时自主运行。
区别于Claude Code的会话式代码生成,OpenClaw通过系统级权限直接接入金融终端及API,将信息抓取、滚动回测、风险监控编排为长期驻留的本地Agent任务。以“模型即Skill”的部署理念支持将研究模型封装为可分发的数字资产,客户通过自然语言即可在本地调用服务,在保护数据主权的前提下构建去中心化的服务网络。多Agent协同机制更进一步实现了策略的自我纠错与持续迭代,使“一人团队”具备媲美传统量化部门的持续运营能力。
➤ Skill作为Agent的“技能书”实现了个人知识库的标准化封装,将一次性Prompt工程转化为可复用、可迭代的SOP-as-Code。
通过YAML头+Markdown内容的文件系统结构,本报告实践了将研报Word转PPT、个股财务分析、视频转笔记、PDF OCR因子提炼等工作流固化为Skill的开发。这种机制不仅解决了临时性Prompt的难复用问题,更构建了AI能力长期积累进化的可能性,使得Agent“培养”与“迭代”成为可能。
➤ Vibe Coding策略开发实践:基于XGBoost的因子配置研究通过7轮Prompt迭代实现RankICIR 0.88的优异效果。
实验将我们的量化大势研判框架中的市场环境特征与85个Alpha因子结合进行因子配置策略构建,除了策略构建完全Vibe化,在策略迭代中Agent发现了树模型无法自动识别高阶条件依赖关系,必须通过显式构造交互因子,才能将风格择时逻辑有效转化为超额收益。最终模型样本外G10组合年化收益达28.36%,验证了“一人团队”利用Vibe Coding完成复杂量化研究的可行性。
➤ Vibe Coding不仅重构了量化研究的生产关系,更开启了“认知即代码”的一人量化团队新时代。
AI承担了工程实现与代码细节,量化研究者的核心价值回归至市场逻辑构建、假设检验设计与跨学科边界探索。未来随着OpenClaw等系统的个性化部署培养完成,量化策略生产将实现从数据接入、因子挖掘到信号推送的全链路自动化,真正的“一人量化团队”将从概念走向基础设施级的投研范式。
01
AI Agent驱动的量化研究革命
CHAPTER
1.1从“古法编程”到“氛围编程”
AI Agent的出现与其指数级的能力增长,正系统性的消解投资研究的长期核心矛盾。过去分析师深谙逻辑与模型,却受制于编程实现的门槛,想法的验证周期长、摩擦大。2025年2月Andrej Karpathy(OpenAI联合创始人)正式提出了Vibe Coding的概念,描述了一种全新的AI驱动编程方式:开发者不再逐行撰写代码,而是以自然语言描述意图,由AI Agent自主规划、编码、调试、验证,开发者仅需审查结果并给予反馈。这一范式的核心是“You fully give in to the vibes, embrace exponentials, and forget that the code even exists.”同年11月Google在发布下一代智能IDE:Antigravity时提出了“Agent-first development”这一新范式。AI不再是编辑器中的补全工具,而是能够跨编辑器、终端、浏览器多界面协同执行任务的自主伙伴。从“AI as an assistant”到“AI as autonomous partner”,开发者将精力从“如何写代码”转向“如何定义需求、组织信息、验证结果”,以至于之前的编程方式被戏称为“古法编程”。
这一转变对量化研究的意义尤为深远。传统量化策略开发工作流中,一个想法从提出到验证,往往需要经历数据获取、代码框架搭建、因子计算、回测运行、结果分析等多个耗时环节,每个环节都可能因为技术摩擦而造成创意流失。在Vibe Coding范式下,研究者可以用接近自然语言的方式直接描述回测逻辑,由AI自主完成工程实现,研究者的精力得以集中在更具价值的判断与决策层面。值得注意的是,Vibe Coding并未降低对研究者的认知要求,恰恰相反,它提高了对分析逻辑清晰度和需求表达能力的要求。我们认为其带来的核心启示有如下几点:
1、技术的贬值,认知的升值。
Agent时代最大的受益者,不是技术懂得多的人,而是经验丰富又不太懂技术细节的“普通人”。不论是否有技术基础,更懂市场逻辑的人或能捕获更多机会。
2、Agent时代最需要:面向目标的信息组织能力。
做好自己的“产品经理”,懂得如何将自身需求转化为清晰、科学、逻辑链完整的表述。只有人know how,Agent才能正确赋能。
3、使用AI的核心差异:探索不同模型的能力边界。
目前的AI掌握了各行各业的专业知识,能够自主pip安装开源库、访问Github等特性使得其“武器库”前所未有的强大。很多事AI能做到但人没有想到,能够跨学科发掘更多未知边界的人将分享到AI更多的红利。
4、工程的目的:帮助AI更好的获取私域数据与更好的调度协同。
模型能力的提升会很快达到各种微调、工程技巧所实现的功能,未来工程核心是帮助其更好的获得私域数据、操作权限以及多Agent的调度协同。
1.2工欲善其事必先利其器:Claude Code
在众多Vibe Coding工具中, Claude Code代表了当前最具实用性的选择之一。Claude Code是Anthropic推出的终端原生AI编程助手,其核心优势在于Agentic自主执行架构。不同于传统“一问一答”模式,Claude Code接收指令后自动拆解为可执行步骤,工具调用、错误诊断、代码修复均自主完成,支持基于200K tokens上下文的整个中型代码库理解。模型端Claude Opus 4.6在当下各模型中在软件工程、终端操作、零售电信场景、MCP工具使用、抽象推理等领域都占据较明显优势,仅在多学科知识覆盖上相较Gemini、GPT偏弱。
在工作模式上,Claude Code提供三个层级:Plan mode(仅讨论不修改,适合复杂项目前期梳理)、Ask before edits(修改前征询用户,适合权限风险高的场景)、Edit Automatically(自动修改,适合结果导向的高容错项目)。在量化研究场景中,三种模式分别对应框架设计、代码迭代和批量任务处理三类需求。
结合编程IDE,Claude Code的使用可以更直观便利。Claude Code本身为命令行界面,操作有一定门槛。从类VS Code的IDE中通过插件使用更为便利。Google Antigravity于2025年11月18日随Gemini 3 Pro同步发布,基于VS Code构建但彻底重新设计了交互逻辑,将自主AI Agent作为开发流程的核心。于其中插件搜索Claude Code for VS Code并安装可使交互变得更为直观,各功能可通过菜单选择。同样的VS Code本身包括类似的Cursor也可进行相同操作来调用Claude Code。
1.3“小龙虾”OpenClaw对金融投研的意义
OpenClaw是一个2025年11月发布的开源AI Agent平台,在2026年初得到了国内机构的广泛关注。它被设计为一个“有手的AI”,不仅能对话,还能真正执行任务。不同于传统AI助手需要打开独立应用,OpenClaw 直接嵌入已有的通讯工具,也可在群组中协调多人任务。其能做到:全栈代码自动化,浏览器与系统操作自动化,智能工作流编排(Webhook、Cron定时、事件监听)等工作。一句话总结:OpenClaw是一个具备多轮记忆、环境交互接口、可配置行为特征、能自主决策的“数字员工”。
相比Claude Code,我们认为OpenClaw对金融投研的独特意义有如下几个方面:
1、信息的定制整合与自动加工:相比Claude Code主要面向代码的交互与开发,OpenClaw的独特价值在于信息的定制整合与自动加工能力。其可直接接入Bloomberg、Wind、同花顺iFinD等金融终端及API,实时抓取行情、财报、宏观等结构化数据。除此之外结合Tavily等搜索API以及部署Agent-reach(社交媒体+视频网站),可自动搜集新闻、评论、帖子、视频等非结构化信息。部署PyMuPDF等库后还可轻松抽取报告文档信息,达到信息的多模态、全方位、实时、深度自动整合。
2、研究与策略的自动化运行与持续迭代:投研人员可将因子挖掘、组合回测、风险监控等复杂工作流编排为长期驻留的本地Agent任务,实现7×24小时不间断的市场监控与信号捕捉。不同于Claude Code的会话式交互局限,OpenClaw能够自主开展滚动回测,实时比对策略绩效与基准表现,自动触发参数优化与模型重训练。通过多Agent互动如openclaw-finance项目的架构(协调者-工程师-质疑者-可视化),可以实现策略自动纠错与迭代。
3、全新的客户服务形式(“模型即Skill,Skill即模型”):以往量化研究得到的模型难以给非量化客户使用,而Agent的出现碾碎了使用量化模型的门槛。未来“模型即Skill”的模式正在重塑客户服务范式,三方机构可将行业研究框架、技术与市场分析框架、选股逻辑与资产配置模型封装为可分发的Skill文件,部署在客户的OpenClaw中,即可在本地享受服务,机构则通过Skill授权实现研究价值的规模化输出。使得这些服务均能在保护双方数据主权的前提下,构建起去中心化的投研服务网络,开创全新的服务生态。
4、权限的安全性挑战:OpenClaw的本地优先设计也引入了权限的安全性挑战。Claude Code运行在受控环境中,而OpenClaw有系统级权限以访问本地文件系统、执行交易指令或对接券商API,这使得Agent面临Prompt Injection攻击导致的非授权交易风险。若恶意指令诱导Agent删除关键风控日志或外传持仓明细,后果将直接作用于本地生产环境。金融机构必须建立比云端更严苛的本地沙箱机制,实施最小权限原则,对Agent的文件访问范围、网络调用权限进行细粒度管控。
一句话总结:OpanClaw作为Skill的部署与自主调度平台,在严格权限管控下有望大幅提升投研效率。
1.4Agent开发基本范式:“文件夹”即“项目”即“功能”
在Agent开发模式下,“文件夹”即“项目”即“功能”。与传统Python编程类似,Agent开发模式下项目依然以文件夹为单位,更为突出的一点是“项目”即“功能”。也就是说我们任何单一需求无论大小,都可以新建文件夹开始Vibe,Agent后续所有工作都会在这个文件夹,可以随时备份、修改、删除。比如说某一Excel的整理;某一专题新闻的搜集与展示;某一系统架构的可视化监控;某一大型回测框架的构建,起点都是新建文件夹并采用AI编程IDE打开。
假设我们需要跟踪指数K线表现,我们可以新建一个文件夹:IndexKline,然后直接和Claude Code对话给出需求,它可以自动看项目已有结构,并帮助规划项目的实施方案和实际施工。
过程中涉及命令权限,Agent会询问用户申请执行。AI会自动规划项目,搭建环境,配置文件,测试接口,验证数据,完成工程。
仅需约10分钟,Claude Code便完成了网页看板的构建包括数据更新的功能。项目核心包含两个文件:index.html与app.py。不仅仅是金融数据的展示,新闻整理监控看板、行业数据监控与可视化、模型实时运行监控等都可类似构建。
如若对看盘前端风格不满意,可直接给出指令:“前端风格请用这个网站类似的:https://www.xxxx.com”,Agent会快速下载其格式并套用。
02
Skill的构建:面向需求的SOP-as-Code
CHAPTER
2.1什么是Skill:Agent的“技能书”
Skill是编码Agent“怎么做”的方法论层,本质上是AI的“技能书”。它将特定任务的工作流、领域知识与业务规则打包成可复用的结构化模块。Skill解决的问题是:将临时性的、一次性的Prompt工程,转化为可版本控制、可共享、可持续迭代的专业能力。对量化团队而言,每一个经过验证的研究流程——无论是因子测试框架、报告生成模板还是数据清洗规范——都可以被封装为Skill,成为团队的知识沉淀。
Skill指导模型按照特定步骤完成复杂任务,而非让模型在每次对话中重新“发明轮子”。比如当 Agent 接收到“分析某上市公司 Q3 业绩”的指令时,调用财务分析Skill可以明确指示:先从本地数据库提取近三年财报数据,再按照预设的杜邦分析法拆解 ROE,接着比对行业均值进行偏离度检验,最后生成符合机构内部格式要求的点评报告。这种结构化指导确保了即使是通用大模型,也能输出符合专业标准、具备机构特色的研究成果。
Skill采用基于文件系统的目录结构,以SKILL.md作为元数据入口。每个Skill都有一个Markdown格式的文件,其有一个YAML头用于申明(便于后续Agent寻找和读取Skill),再接后续Markdown格式的Prompt作为具体内容。对于执行过程中所需的其他资源,Skill文件夹内还可以搭配Python脚本、YAML配置、SQLite数据库等资源文件构成完整能力单元。
一句话总结:Skill是Agent面向用户需求的可复用 AI 工作流模板。
在实际构建中,建议优先通过Claude Code/OpenClaw自动生成Skill,无需手工编写。外部Skill存在安全风险且并不针对个性化需求,基本的功能(如写邮件、搜索、整理文档)通过Vibe即可让Agent自动开发,复杂的功能更是需要个性化描述。在后文中我们就通过几个例子说明如何开发适用于自己的Skill。
2.2Skill构建实例一:研报Word转带模板PPT
工作矛盾:日常研究报告完成后,需要将Word版报告誊写为PPT,这一重复性工作较为耗时,需要自动化解决方案。
解决思路:提供手工转换的Word与PPT范例对,让AI自动分析并学习格式规范,构建Skill文件,后续只需给出新报告的Word,即可按标准生成PPT。
Prompt描述:帮我做一个项目,包含一个Skill。我的目标是把公司模板的Word转为PPT,请你浏览文件夹中的一个Word和对应PPT,分析清楚其格式要求,然后完成一个Skill,当我给出新的Word的时候可以按照同样的标准转换为PPT,核心的原则是所有正文需要一字不拉的都放入,所有的图也是一样,最好一段话一张图,构图必须舒适清晰。PPT的首页其余信息不用变,只要改变标题和日期即可。
Agent在接收需求后,自动下载并安装了Word与PPT读取工具,完成了:
- 文档结构分析(Word段落层级与PPT布局的映射关系);
- 格式规范整理(字体大小、图文比例、版式配置);
- 实施计划制定(项目概述、文档结构、实现步骤、关键清单与验证方案)。
用户仅需审查并确认计划后等待执行完成即可。项目整体推理与构建耗时约1小时,中途通过对转换结果的反馈进行了若干轮调整,最终实现了研究报告Word快速转换为带模板PPT的效果。虽然在格式细节处理上仍有一定误差,但相比人工逐一粘贴的效率已大幅提升。
2.3Skill构建实例二:个股财务分析自动化
工作矛盾:对于未覆盖公司,研究员往往需要快速建立财务画像,了解其盈利能力、运营效率、现金流质量等核心维度。这一工作流高度结构化,但每次重复执行时需要耗费大量时间进行数据整理和图表制作。
解决思路:给出新上市公司招股说明书、标准化财务报表Excel,自动构建分析并生成相应的分析报告。
Prompt描述:帮我做一个项目,包含一个Skill。我的目标是进行股票财务数据的详细分析。每次我会给出一个以股票名命名的文件夹,里面包含招股说明书和三张报表的时序Excel,目前项目中有一个示例:XXXX。请构建Skill完成完整的财务分析并生成对应Excel。
Excel第一页包含公司主营业务分析,公司关键财务指标,公司根据其商业模式而言核心财务优势和财务劣势。第二页是公司盈利能力包括杜邦分解的历史分析数据和图表,第三页是公司运营能力的历史分析数据和图表,第四页是公司财务稳健性的历史分析数据和图表,第五页是公司成长能力的历史分析数据和图表,第六页是公司现金流的历史分析数据和图表,第七页是公司资本结构的历史分析数据和图表。
在Skill构建过程中,AI自动下载并配置了所需的PDF信息读取工具(PyMuPDF)和Excel处理库与图表生成工具(openpyxl),对于各页面所需要计算的指标Agent会自动规划。该Skill完成后,对任意新公司的财务分析可以通过调用写好的脚本快速完成,大幅提升了基本面研究的效率。
2.4Skill构建实例三:移动端视频转笔记
工作矛盾:当下许多资料以多媒体形式存在,研究员日常面临大量需要消化的视频内容——学术讲座、行业会议、专题访谈——但完整观看的时间成本极高。
解决思路:需要构建一套从移动端触发到PC端自动处理再到移动端推送的视频转笔记功能。工作流程为:在手机上看到视频后,将链接发送至PC端监听程序,PC端随后依次完成:视频下载→转为音频→语音识别→文字总结→建立笔记→发送至移动端。
Prompt描述:帮我做一个项目,包含一个Skill。我的目标是我在移动端看到一个B站的视频,然后我想通过某种方式发送到PC端,PC端监听到后通过Skill将视频内容转换为文字,然后将重点总结转录为一篇笔记并自动再推送到移动端,看用什么样的工具最好,然后各种用到的API你告诉我我去获取后给你。
由于技术路线具有开放性,项目初始Agent会逐次与用户确定各个环节的具体技术栈(对话框选择)。确定完后Agent将进行系统架构设计和用户API请求描述,用户根据要求获得对应API并发给Agent即可。整体耗时约5小时,技术性操作几乎为零。Agent自动完成了所有SDK的集成、数据格式的转换与错误处理逻辑的编写。这一案例展示了Agent在复杂多系统集成场景下的强大能力——传统上需要数天开发周期的工程,在Vibe Coding下压缩至半个工作日内。
项目实现了从移动端发送B站视频连接,由PC端自动监听到后运行:视频下载→转为音频→腾讯云语音识别→DeepSeek文字总结→建立飞书笔记→发送链接至企业微信。
2.5Skill构建实例四:PDF的OCR扫描总结+因子提炼
工作矛盾:对于研究员而言,文献与资料的消化是长期的知识积累工作。许多重要文献以扫描PDF形式存在,不可直接提取文字,给普通程序提取带来了障碍。
解决思路:纯文字的PDF用传统PDF阅读工具提取,带扫描页的PDF通过OCR图像识别技术进行提取。
Prompt描述:帮我做一个项目,包含一个Skill。项目支持可提取文字的PDF和带扫描页的PDF(通过OCR进行文字识别)的文字提取,提取后按章节调用大模型API进行总结,生成结构化的Markdown格式笔记,同时生成知识图谱保存向量知识库。
Agent在接到需求后,自动搜寻到了开源OCR工具:PaddleOCR,并完成了项目的构建。PaddleOCR 是百度飞桨(PaddlePaddle)团队开发的开源光学字符识别(OCR)工具库,自2020年6月开源以来,已成为业界最流行且功能最全面的OCR解决方案之一,覆盖80+种语言,不仅支持通用文字识别,还提供版面分析、表格识别、公式识别、文档结构化等高级功能。
这一Skill的意义在OpenClaw部署后得到进一步放大。以量化研究中的书籍分析为例:将PDFReader Skill部署至OpenClaw后,AI可以持续消化指定文献库中的内容,自动按章节整理每位作者的核心投资逻辑提炼因子公式,并在配置好对应数据库和回测框架接口的前提下,自动将文本中的Alpha因子逻辑转化为可回测的代码,输出历史绩效分析结果。从文献到因子挖掘与验证的全链路,可在OpenClaw上实现闭环自动化。这正是“Skill即模型”理念的最直观体现——每一个业务流程,都可以成为AI持续执行的定制化能力。
03
量化研究实例:基于风格轮动逻辑的因子配置
CHAPTER
3.1研究背景:国联民生金工量化大势研判框架
我们在《量化大势研判:产业周期变革与资产全局比较》中构建了资产全局比较框架。该框架基于产业周期与资产特征的系统性映射定义风格资产,随着产业/公司盈利能力由导入期的负数转为成长期、成熟期的正数,到进入停滞期、衰退期的下降与转负,对应五类资产:预期成长gf、实际成长g、盈利能力ROE、高股息D、破净/并购B/P。
在市场风险偏好存在g>ROE>D>BP的基本假设下,对市场风格的优先级进行分层判断:主流资产(预期增速资产、实际增速资产、盈利资产)只要有其一具备优势,市场边际资金就会大量配置,次级资产(质量红利、价值红利、破产价值)则不会有明显机会,次级资产的优先级主要可由拥挤度来确定:质量红利>价值红利>破产价值。框架自2009年以来可获得年化27.81%的收益,对过去A股风格轮动具有较好的解释能力。模型2024年样本外以来同样保持较高的市场风格判断胜率。
框架结构中对风格判断核心的五个市场环境特征都以自下而上方式构建:
1)Δgf:决定预期成长是否占优(A股分析师预期增速的边际变化)
构造方式:中信细分行业(二三级合并为202个行业)分析师预期增速(fttm)排序后等分五组,Top组中位数-Bottom组中位数平滑后差分;
2)Δg:决定实际成长是否占优(A股财报实际增速的边际变化)
构造方式:中信细分行业财报实际利润增速(ttm)排序后等分五组,Top组中位数-Bottom组中位数平滑后差分;
3)ΔROE:决定ROE风格是否占优(A股盈利能力的边际变化,条件一)
构造方式:中信细分行业ROE(ttm)排序后等分五组,Top组中位数平滑后差分;
4)Crowd_ROE:决定ROE风格是否占优(A股ROE资产拥挤度,条件二)
构造方式:中信细分行业ROE(ttm)排序后等分五组,Top组Beta因子暴露水平;
5)Crowd_DP:决定红利风格是否占优(A股红利资产的拥挤度)
构造方式:中信细分行业股息率排序后等分五组,Top组近1月成交量/近3月成交量因子暴露水平。
3.2研究设计:市场环境变量对因子配置的效果验证
在大势研判框架历史较好表现的基础上,我们开始思考一个延伸问题:框架中的这些有效市场特征指标,是否同样可以用于因子层面的择时与配置?具体而言,将这些市场环境特征与传统的Barra因子和Alpha因子结合,能否在机器学习模型中带来更好的因子选股效果?为验证这一假设,我们采用Vibe Coding方式,以Antigravity+Claude Code为工具,构建了完整的XGBoost多因子配置回测框架。
除了框架中已有的五个基于个股基本面的市场环境特征以外,我们额外加入了量价相关的市场环境特征,使得最终的特征数量为10:
6)Market_vol20:万得全A20日波动率;
7)Market_vol60:万得全A60日波动率;
8)Position_52w:万得全A价格当下处52周分位;
9)Market_mom:万得全A价格3个月动量;
10)Market_amt:万得全A成交量200日均线趋势差分。
用于配置的因子除了Barra CNE5的十个因子以外,选股月频Alpha因子85个如下,因此最终特征数量为市场环境特征(10)+Barra因子(10)+Alpha因子(85)=105维。
研究选定XGBoost作为核心模型,理由在于其对特征交互的天然处理能力与对非线性关系的良好捕捉,与风格轮动逻辑的“条件判断”结构高度契合。
3.3Vibe Coding开发:7轮Prompt迭代
本节研究的代码开发全程采用Vibe Coding方式完成。以下完整记录七轮Prompt的推进过程,展示分析师如何通过自然语言与AI协作完成一个完整的量化研究项目。由于项目较大,因此我们采用分块Prompt的方式进行,以防由于上下文限制影响代码质量。
3.3.1 算法核心:XGBoost训练基础架构
Prompt 1:请帮我创建一个基于XGBoost并用GPU加速的股票多因子组合训练框架,支持数据输入接口、GPU训练、滚动窗口训练、超参数优化和模型评估。首先检查下本地GPU型号与驱动,最后生成一个Demo并跑通。
AI首先自动检测本地GPU环境,随后构建了包含配置模块、工具模块、数据接口抽象类、因子验证器、XGB训练器、超参优化器、模型评估器、主程序入口的完整XGBoost训练框架,并生成可运行的Demo验证框架通畅性。分析师无需了解XGBoost的底层API细节,只需在框架跑通后确认各模块的输出是否符合预期。
3.3.2 回测框架:因子配置回测架构
Prompt 2:根据项目中的XGBoost算法,我现在需要完成几个测试,帮我完成测试代码的编写。数据我后续会以MySQL数据库形式给你,包含股票日行情、指数成分股信息、股票barra因子、股票alpha因子、市场环境特征值,请你设计好一个数据获取与清洗模块demo即可。
回测的目的是看市场环境特征值对于因子择时配置的效果。在传统的barra+alpha因子的基础之上,加入市场环境特征(同一日期下所有股票相同)是否能够在XGBoost这类树模型中有更好的效果。
回测的基础设置有:所有A股,月频,预测目标为股票下个月收益率(截面zscore+3倍标准差截尾),损失函数为MSE,2014年-2025年滚动训练与预测,5年训练集+验证集(8:2),每一年滚动做一次,也就是第一次为2014-2018数据,样本外为2019,最后一次为2020-2024数据,样本外为2025。验证机制:每轮迭代后计算验证集上的损失,连续10轮指标未改善即早停,自动回滚到最佳迭代轮数的模型状态。最后的样本外因子值保存下来,因子值的IC,十分组表现需要计算并保存。
回测的实验主要有:
1、所有barra+alpha因子+市场环境特征值拼接后跑XGBoost
2、所有barra+alpha因子拼接后跑XGBoost
3、所有barra+alpha因子方向统一处理为正向后等权测2019-2025表现。
这一步AI自动设计了数据库连接层、数据预处理模块、滚动回测框架、实验管理器。无需过多关注其与上一步算法核心的对接问题,Agent本身自动会有对接意识并且会利用演示数据跑通,另一个算法核心和回测框架耦合度不大。
3.3.3 数据对接:MySQL数据清洗与特征工程
Prompt 3:项目的数据可以通过xxxx@xx.xx.xx.xx:3306密码xxxx获得。接下来我需要你清洗数据并将清洗好的测试数据保存到项目下的目录train_data下面。具体数据说明如下:
factors
- alpha_financial_descriptors 基本面因子值
- alpha_trading_descriptors 量价因子值
- barra_factors barra因子值
- barra_factor_return barra因子收益率
market
- stock_market 股票日行情
- stock_status 股票日状态
- market_character 市场状态特征
数据按照月度进行清洗。从2013年12月底开始,首先对股票进行筛选,只选取非新股、非ST、未一字涨停、未停牌的股票,前两者在stock_status中的is_new_stock,is_ST有标记,停牌主要看stock_market里的trade_status在下个月第一个交易日是否为1。
筛选完之后对于所有选入的股票找到在当月月底barra_factors中的非行业因子(从size到leverage的10个),找到在目录下alphalist.xlsx中的alpha因子(在两个alpha的表里去找,表格第二列有说明每个因子所在的表,共85个),找到market.market_character里面的市场环境特征(共10个),然后拼接成XGBoost模型所需要的自变量,其中市场环境特征在同一月末对每个股票都一样,复制即可。
因变量为这些股票下个月的收益率比如2013年12月底的自变量特征对应2014年1月底adj_close/2014年1月第一个交易日adj_open,同样整理成XGBoost模型所需要的因变量。最后将训练所需数据存储为pkl。
这一Prompt的信息密度最高,需要分析师将数据治理经验转化为清晰的自然语言描述。AI在接收完整规范后,自动处理了多表关联、时间对齐、缺失值填充、因子标准化等全部细节,并对数据质量进行了自动检验,输出清洗前后的样本数量和格式报告。
3.3.4 正式运行:模型利用历史数据回测
Prompt 4:目前万事俱备,开始XGBoost多因子择时的训练吧,请你根据项目中的test_backtest.py和我们清洗好的数据进行数据接口的修正和对接,逻辑全部都顺了之后再运行,运行结果需要包含每一次训练的参数、过程、loss变化、效果、训练集验证集效果、整体验证集上的表现拼接、要画图(累计IC、十分组表现等),保存好每一个模型到models,保存好所有结果到results。
在算法核心、回测框架、数据清洗完成后,即可直接跑回测。由于Agent先写了回测框架后才写数据清洗,因此我们提示了Agent进行数据接口的修正和对接。至此策略的代码层面已基本完成,后续主要专注于策略调优。
3.3.5 问题诊断:过拟合识别与多头效果改进
Prompt 5:项目运行下来训练IC很高,验证IC衰减很快,整个训练明显过拟合了,请计划调整参数防止过拟合。
其他的问题在于以MSE为损失函数的话有一个问题就是最后的因子空头效果好,但多头效果不好,如何改进?
这一轮体现了Vibe Coding的典型工作模式:分析师只需准确描述观察到的问题现象(训练/验证IC背离、多头弱空头强),由AI给出诊断与解决方案。AI提出了两方面改进:正则化增强(增大惩罚系数、约束叶节点、减少树深度)以及损失函数改进(对高收益率股票赋予更高权重,以改善多头表现)。
Agent改进测试后发现,采用Top-K加权方式后多头有所加强但整体IC变差,说明此方案效果不佳。随后的对照测试(不加市场环境特征版本)发现结果与加入后区别不大——尽管时序数据显示各因子与市场环境特征之间确实存在显著相关性,但在XGBoost模型层面并未转化为预测力的提升。这一现象引发了对模型表达能力的深层思考。
3.3.6 深度思考:发现算法本身缺陷
Prompt 6:看起来环境变量和很多alpha因子的未来收益率还是有显著相关性的,为何在XGBoost模型中加入和不加入对模型没有太大的帮助?请分析其中可能的原因。
AI指出了关键问题所在:XGBoost无法对特征本身的逻辑进行内部调优。在输入维度增加的情况下(且因子维度远远大于环境特征维度),树模型难以积极发现“市场环境特征×因子”这类条件性择时逻辑。换言之,当成长因子在正Δgf环境下更有效、在负Δgf环境下失效时,这种条件依赖关系需要通过显式构造交互特征来表达,而不能期望XGBoost自动学到。
3.3.7 突破瓶颈:显式构造交互因子方案
Prompt 7:请设计显式构造交互因子的测试方案,10个市场环境特征和所有alpha因子交互生成850个交互因子,同时与10个barra+10个市场环境特征输入到XGBoost,首先评估合理性。
增加一个特征筛选,每一次交互因子计算完之后,检查训练和验证集整体表现显著好于(因子ICIR提高)对应alpha因子的最佳1个因子(如果ICIR都没有提高就都不要),再测试。这样每次最多10+85+10+85个因子,维数得到控制。
这一Prompt主要涉及如何将直觉洞察(市场择时逻辑需要被显式编码)转化为精确的工程规范(交互因子的生成规则、筛选标准、维度控制方法)。AI按照规范自动完成了850个交互因子的批量计算、基于ICIR的一阶筛选,以及模型重训练的全部流程。回测结果显示效果有明显提升。
后续我们进一步通过Vibe Coding测试了双市场环境特征的二阶交互(效果变弱,后续只保留单变量交互);将滚动窗口改为扩展窗口,训练数据随时间累积而非固定长度,稳定性出现显著跃升;以及深度调参。
3.4最终模型效果评估
经过七轮迭代,最终模型采用扩展窗口训练、显式交互因子(一阶筛选后)。验证集预测区间2019-2025年(共7年)。最终模型关键指标如下:
从结果来看,RankIC均值0.11和RankICIR 0.88在月频因子中属于较为优异的水平,IC>0占比71.43%说明模型方向判断的一致性较强,G10年化收益率28.36%体现了多头组合较强的选股效果,综合因子十分组单调性明显。加入市场环境特征的显式交互因子,最终确实为传统Barra+Alpha因子框架带来了可量化的增量,验证了大势研判框架中有效市场特征在因子配置层面的应用价值。
值得注意的是,扩展窗口的引入是稳定性跃升的关键改进。滚动窗口下模型每次仅利用固定长度的历史数据,早期样本中蕴含的市场规律会被丢弃;扩展窗口则随着时间推移不断积累全部历史信息,使得模型对长期结构性规律的学习更为充分。这一发现具有一定普适意义:在市场结构相对稳定、样本数量足够的情况下,扩展窗口往往优于固定长度的滚动窗口。
此外,显式交互因子的筛选机制(仅保留ICIR显著提升的交互对)有效控制了维度膨胀带来的过拟合风险。在实践中,850个原始交互候选中,通过一阶筛选后保留的有效交互因子数量小于85个,说明市场环境特征与Alpha因子之间的有效条件关系具有高度的选择性——并非所有因子都具有显著的环境依赖性,这与大势研判框架中特定指标只对特定风格有效的逻辑是一致的。
04
总结与思考
CHAPTER
本报告通过系统梳理Vibe Coding的技术范式、Skill构建方法论及基于风格轮动的量化实证,揭示了AI Agent对量化研究生产关系的根本性重塑。这不仅是工具层面的效率提升,更标志着“一人量化团队”从理想形态向可操作基础设施的跃迁。以下从三个维度深化对这一变革的认知:
1)从“全栈工程师”到“全栈认知架构师”:一人团队的能力边界重构
传统意义上的“一人量化团队”受限于个体精力分配。分析师需在数据清洗、因子计算、系统维护等工程环节与核心研究之间疲于奔命。Vibe Coding消解了这一矛盾:当Claude Code承担了底层代码实现与架构维护,研究者的角色发生本质迁移——从“具备金融知识的程序员”转变为“具备工程思维的产品经理”。
这种转变的核心在于认知层与实现层的解耦。在报告中7轮Prompt的迭代过程中,分析师的核心价值体现在:(1)将市场直觉转化为可验证的工程规范;(2)诊断模型过拟合与多头失效等问题的归因逻辑;(3)设计显式交互因子的筛选机制与训练范式。这要求分析师具备跨学科的问题结构化能力:既需理解树模型的数学局限,又需洞察市场微观结构的因果链条。
未来一人量化团队的竞争力将取决于认知带宽的广度而非代码行数的多寡。当AI能够自主集成PaddleOCR进行PDF扫描、自动搭建XGBoost GPU训练框架、甚至通过OpenClaw执行7×24小时策略监控,分析师的知识边界可自然延伸至NLP、计算机视觉、DevOps等传统量化团队需专人负责的领域,实现真正意义上的“全栈认知覆盖”。
2)Skill生态与投研知识的资本化:从私人工具到网络效应
报告中所构建的Skill体系本质上是一种可复用的认知封装。这种封装机制正在催生新型的知识资本化路径:传统量化研究中,分析师的经验与方法论沉淀于非结构化的历史报告与碎片化代码中,难以转移与复用;而在Skill范式下,资深分析师可将“杜邦分析拆解逻辑”、“特定行业的财报解读框架”或“威科夫技术分析流程”编码为标准化Skill文件。
这一机制的颠覆性在于研究价值的规模化输出与去中心化分发。通过OpenClaw平台,第三方量化团队可将核心研究模型加密封装为Skill,部署在客户本地环境中运行——客户以自然语言调用。这标志着量化服务从“报告交付”向“能力授权”的商业模式转型,一人团队产生的智力成果可通过Skill网络实现指数级杠杆效应。
3)自主Agent网络:从离线回测到实时演化的策略生命体
当前报告中的研究仍基于离线历史数据的批处理回测,但OpenClaw所代表的长期驻留Agent架构,预示着量化策略将向实时自适应生命体演进。未来的”一人团队”并非静态的策略开发者,而是多Agent系统的调度者与监护人:
持续学习层:Agent可实时接入Bloomberg、Wind等数据终端,结合Tavily搜索与社交媒体监听(Agent-reach),自动识别市场结构突变(如政策冲击、风格切换),触发模型重训练与参数优化;
策略演化层:基于PDFReader Skill,Agent可自动消化最新学术论文与研报,提炼新Alpha逻辑并转化为可回测代码,实现“文献到因子”的闭环自动化;
执行监控层:通过MCP协议对接数据API,Agent不仅生成信号,或可执行交易、监控滑点与冲击成本,实时比对策略绩效与基准表现。
这实现了真正意义上的“认知外包”:人类定义市场逻辑的元规则,AI负责在不确定性中执行细节决策。
未来展望:
Vibe Coding所开启的“一人量化团队”时代,本质上是研究民主化与认知专业化的辩证统一。当技术实现不再稀缺,市场逻辑的深度、跨学科知识的广度、以及将想法转化为精确Prompt的能力,将成为超额收益的真正来源。未来5年,我们有望看到:基于OpenClaw的Skill市场形成标准化交易生态,以及基本由AI Agent决策的量化基金出现。
然而,技术浪潮中更需清醒认知:AI Agent是认知的放大器,而非认知的替代者。在“忘记代码存在”的同时,研究者必须更深刻地记住市场运行的底层逻辑,这才是Vibe Coding范式下,一人量化团队不可动摇的核心竞争力。
05
风险提示
CHAPTER
1)文中AI辅助生成的分析与结论不代表我司任何观点和投资建议。文中Skill和策略量化结果由AI模型生成,仅供测试参考,任何情况下不代表国联民生证券的观点和意见;或有AI生成内容错误等风险;任何情况下,AI输出结果均不构成投资建议。
2)Vibe Coding开启“一人量化团队”仅代表可能性探讨。由于不同基模型能力和调用限制问题,以及AI生成内容的随机性,对于不同个体在不同时期的使用效果不保证完全一致。
3)量化结论基于历史统计,如若未来市场环境发生变化不排除失效可能。XGBoost因子择时模型的效果测算基于2014-2025年历史数据,如若市场风格驱动因素发生结构性变化,模型效果可能显著下降。
重要提示
《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号/本账号发布的观点和信息仅供民生证券的专业投资者参考,完整的投资观点应以国联民生证券股份有限公司(下称“国联民生证券”)发布的完整报告为准。若您并非国联民生证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号/本账号中的任何信息。本订阅号/本账号难以设置访问权限,若给您造成不便,敬请谅解。国联民生证券不会因为关注、收到或阅读本订阅号/本账号推送内容而视相关人员为客户;市场有风险,投资需谨慎。
免责声明
国联民生证券股份有限公司(下称“国联民生证券”)已获中国证监会许可的证券投资咨询业务资格,本平台推送观点和信息仅供国联民生证券研究服务客户参考,完整的投资观点应以国联民生证券研究所发布的完整报告为准。若您非国联民生证券研究服务客户,为控制投资风险,请勿订阅、接受、转载或使用本平台中的任何信息,若给您造成不便,敬请谅解。国联民生证券不会因订阅本平台的行为或者收到、阅读本平台推送内容而视相关人员为客户。任何未经国联民生证券同意或授权而对本平台内容进行复制、转发或其他类似不当行为均被严格禁止。对于使用本平台包含信息所引起的后果,国联民生证券概不承担任何责任。
本平台及国联民生证券研究报告所载资料的来源及观点的出处皆被国联民生证券认为可靠,但国联民生证券不对其可靠性、准确性、时效性或完整性做出任何保证。本平台推送内容仅反映国联民生证券研究人员于发出完整报告当日的判断,本平台所载的资料、意见及推测有可能因发布日后的各种因素变化而不再准确或失效,国联民生证券不承担更新不准确或过时的资料、意见及推测的义务,在对相关信息进行更新时亦不会另行通知。在任何情况下,本平台所载信息、意见不构成对任何人的投资建议,所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。本平台所包含的观点及建议并未考虑获取本平台包含信息的机构及个人的具体投资目的、财务状况、特殊状况、目标或需要,客户应当充分考虑自身特定状况,进行独立评估,并应同时考量自身的投资目的、财务状况和特定需求,必要时就法律、商业、财务、税收等方面咨询专家的意见,不应单纯依靠本报告所载的内容而取代自身的独立判断。在法律允许的情况下,国联民生证券及其关联方可能持有本平台推送内容中提及的公司所发行证券的头寸并进行交易,也可能为这些公司提供或正在争取提供投资银行、财务顾问、咨询服务等相关服务。客户应充分考虑可能存在的利益冲突,勿将本平台推送内容作为投资决策的唯一参考依据。对任何直接或间接使用本平台所载信息和内容或者据此进行投资所造成的任何一切后果或损失,国联民生证券及/或其关联人员均不承担任何形式的法律责任。
法律声明
本微信号及其推送内容的版权归国联民生证券所有,国联民生证券对本微信号及其推送内容保留一切法律权利。未经国联民生证券事先书面许可,任何机构或个人不得以任何形式转载、翻版、复制、刊登、发表、修改、仿制或引用本订阅号中的内容。任何订阅人如引用或转载本平台所载内容,务必注明出处为国联民生证券研究所,且转载应保持完整性,不得对内容进行有悖原意的引用和删改。转载者需严格依据法律法规使用该文章,转载者单方非法违规行为与我司无关,由此给我司造成的损失,我司保留法律追究权利。