北京AI研究院联合高校,打造首个机械工程图纸专业AI理解基准
(来源:科技行者)
这项由北京人工智能研究院(BAAI)、中国科学院信息工程研究所以及北京工业大学联合开展的研究,发表于2026年第43届国际机器学习会议(ICML 2026),论文编号为arXiv:2605.30794。有兴趣深入了解的读者可以通过该编号查询完整论文。
一、 一张图纸,难倒了全世界最聪明的AI
工厂里的老师傅看一眼机械图纸,就能知道这个零件该怎么加工、哪里有公差要求、装配时哪两个零件会相互咬合。这种能力是几十年积累下来的专业经验,外行人根本看不懂那密密麻麻的线条、符号和数字。
然而现在,各种多模态大语言模型(也就是能同时理解图片和文字的AI系统)已经能看懂照片、回答问题,甚至能帮你分析医学影像。这些AI越来越聪明,但碰上机械工程图纸,却像一个聪明的高中生突然面对专业工程师考试——束手无策,频频出错。
这背后有三个核心难点,就像给AI设置的三道关卡。第一道关卡是高密度信息识别:一张机械图纸上密密麻麻地标注着尺寸、公差、粗糙度、基准符号等各种专业标记,哪怕漏看了一个细节,整个判断就可能错得离谱。第二道关卡是多视图空间理解:机械图纸通常用正视图、侧视图、俯视图三个角度来描述同一个零件,就像从前、左、上三个方向拍下来的三张照片,AI需要把这三张照片里的信息对应起来,理解这个零件真正长什么样。第三道关卡是专业领域知识:图纸上的各种符号和规范都有特定含义,比如几何公差符号、剖视线、技术要求等,没有专业训练根本不知道这些符号意味着什么。
正是为了系统性地解决这个问题,研究团队决定做两件事:第一,建立一个专门用来测评AI理解机械图纸能力的基准数据集,给AI出一套全面的考题;第二,基于这套考题,训练出一个能真正看懂机械图纸的专用AI模型。这就是MechVQA和MechVL项目的由来。
二、 出一套考题:MechVQA数据集是怎么炼成的
建立考题的第一步,是找到足够好的"考试材料"。研究团队从公开的机械工程教材、专业手册和设计平台上收集图纸,这些来源都是正规的教育和职业资料,覆盖面广、质量有保障。图纸既包括单个零件的图纸,也包括多个零件组装在一起的装配图;既有只用二维视图表达的标准图纸,也有配备了立体示意图的图纸,尽可能反映真实机械设计工作中会碰到的各种情况。
图纸收集回来之后,要先过一道质量关。专业人员手动筛掉了那些模糊、残缺或者扫描质量太差的图纸,最终保留了3281张高质量图片作为数据基础。接下来,团队用先进的文字识别系统(OCR)从图纸上提取文字信息,比如表格里的参数,同时借助GPT-4o、Gemini、Claude这些顶尖的商业AI来推断图纸的其他基本信息,比如零件名称、视图数量、特殊视图类型等。这些自动提取的信息随后交给具有机械专业背景的研究生进行人工复核和修正,整个流程就像质检流水线一样,层层把关。
人工复核到底有多重要?研究团队做了统计,结果相当说明问题。在视图数量的识别上,AI提取的数据有41.6%需要修正,而且AI通常是少算了,专家往往要把数量往上调。在剖视图的识别上,AI有37.8%的错误率,经常把局部剖面或方向视图误认为是独立的剖视图。在侧视图和俯视图的识别上,错误率也分别高达33%和31.8%,AI会把局部区域误当成主视图。技术要求部分的文字描述错误率更高达43.7%,主要出在热处理参数、表面处理描述等专业描述上。相对而言,零件类别的判断最稳定,错误率不到1%。这组数据充分说明,人工专业审核在这类专业领域数据构建中不可或缺。
有了可靠的图纸和配套的结构化信息,接下来就要出题了。研究团队设计了一套考题分类框架,把AI应该具备的能力分成三个层次,就像考试从简单到复杂分了三档。
第一个层次叫"识别",考的是最基础的信息提取能力,相当于看图回答"图上写了什么"。这个层次下面有四类子任务:辨识与计数(比如数一数这张图上有几个孔)、尺寸与标注(读出某个特征的尺寸值或公差)、文字与表格(从标题栏或参数表里找出特定信息)、以及位置定位(说出某个标注出现在图纸的哪个位置)。
第二个层次叫"推理",考的是多步骤的推断能力,不是直接读出来,而是要动脑子算出来或者分析出来。这个层次同样有四类子任务:结构理解(理解剖视图揭示的内部结构)、几何计算(通过尺寸链算出图上没有直接标注的尺寸)、装配关系(判断哪两个零件相互配合、如何配合)、以及投影与多视图(在不同视图之间找到对应关系)。
第三个层次叫"判断",考的是工程合理性评估,需要AI像经验丰富的工程师一样,发现图纸里的问题。这个层次有两类子任务:异常检测(找出缺少的标注或互相矛盾的信息)、以及一致性判断(判断图纸是否符合制图标准,或者二维图纸和立体图是否表示同一个零件)。
出题的过程本身也颇为讲究。团队采用了三种生成途径,形成一套互补的题目来源体系。第一种是让多个顶尖AI自由发挥,给定图纸和基本信息,让AI生成候选题目,然后用另一个AI交叉检验题目质量,再用多个AI分别作答,只保留回答结果高度一致的题目,这相当于出题、阅卷、裁判三方互相校验。第二种是基于模板批量生成没有现成答案的题目,比如先让AI找出图上的五处尺寸标注,然后按模板生成"X处的尺寸是多少"这样的问题,再经过同样的多AI验证流程确定答案。第三种是利用已经人工核实过的结构化信息来生成有确定答案的题目,比如直接问视图数量,答案就来自专家审核过的元数据;以及由专家手工制作的特殊题目,比如用CAD软件故意去掉某个必要标注、或者刻意把图纸和立体图配成不匹配的组合,来生成异常检测和一致性判断类的题目。
所有题目的答案都要求包含完整的推理过程加上简洁的最终答案,这个设计是为了后续训练AI时能让它学会逐步推理,而不只是猜答案。经过这套流程,最终产出了20778对问答,覆盖10个子任务和简单、中等、困难三个难度等级,形成了MechVQA这套全面的考题库。
三、 考题的面貌:每道题长什么样
在20778道题目中,"尺寸与标注"类题目占比最高,达到30.9%,因为读懂尺寸标注是机械图纸理解中最基本也最高频的需求。"异常检测"题目占26%,排在第二,说明检测图纸错误是实际工作中非常重要的技能。"一致性判断"题占16.3%。往下依次是几何计算、位置定位、投影与多视图、结构理解、装配关系,最少的是辨识与计数和文字与表格各只占1%多一点。
从难度分布来看,简单题目有8138道,中等题目7118道,困难题目5522道,比例大致是4:3.5:2.7,保证了考题既有基础测试也有高阶挑战。
所有20778道题按照图纸粒度,以8:1:1的比例划分成训练集、验证集和测试集。划分的关键原则是:同一张图纸上产生的所有题目,必须全部归入同一个数据集,不能一部分用于训练、一部分用于测试,这样才能防止AI通过"记住"某张图的样子来刷高分。为了让三个数据集的分布尽量均匀,团队还用CLIP这样的图文嵌入模型把图纸在特征空间里做聚类,然后按簇分配,确保训练集和测试集在来源类型、子任务分布、难度分布上都保持一致。用t-SNE降维后可以直观地看到,三个数据集的特征点在分布图上高度重叠,没有明显分离,说明划分做到了相对的分布均衡。
四、 教出一个懂机械图纸的AI:MechVL的训练之路
有了考题,接下来就是训练选手了。研究团队以Qwen3-VL-4B-Instruct这个开源多模态模型作为起点,然后对它进行专项训练,最终产出的模型叫做MechVL。
训练分两大阶段,就像培养一个实习工程师先要教他基础技能,然后再通过大量项目实践来打磨判断力。
第一阶段叫监督微调(SFT),可以理解为"照着答案学"。训练时,给模型一张图加一个问题,要求它输出一段包含推理过程的答案,然后把它的输出和标准答案比对,通过反复纠错让模型学会机械图纸领域的基础语言和规范。这个阶段只训练语言模型部分,视觉编码器和视觉-语言连接层保持不动,让模型把注意力集中在学习机械工程的专业语义上。完成这一阶段之后,模型就有了一个基本靠谱的初始能力,但还会犯各种细节错误。
第二阶段叫强化学习(RL),可以理解为"通过做题积累经验"。这里用到了一种叫DAPO的优化算法,它的工作方式类似于这样:给模型出题,让它自己生成多个答案,然后根据答案的质量给予不同程度的奖励,好的答案多鼓励,差的答案少鼓励,模型从对比中学会什么样的回答才是真正正确的。DAPO相比同类算法有几个改进,包括用非对称的裁剪范围来控制更新步长、动态过滤掉那些全对或全错的"没有学习价值"的题目组、以及在生成过长时进行奖励惩罚避免答案越来越冗长。
这套训练机制之所以有效,很大程度上来自于奖励信号的设计。奖励由三部分组成,三者协同工作,形成一个完整的评分体系。
答案准确性奖励是核心,衡量模型的最终答案是否和标准答案在语义上一致。这里用的不是简单的字符串匹配,而是再请一个大语言模型来当裁判,判断两个答案是否表达了相同的意思——因为"Φ72毫米"和"直径72mm"说的是同一件事,纯粹的文字比对会漏掉这种等价关系。
格式规范性奖励是次要但不可缺少的部分,强制要求模型的回答必须包含一段推理过程(用特定标签包裹)和一段最终答案(用另一个标签包裹),两者缺一不可。这个设计防止模型偷懒,只给答案不给推理,或者把推理和答案混在一起难以自动解析。
回答质量奖励则是更高层次的评价,同样请大语言模型当裁判,从逻辑性、专业性和简洁性三个维度为回答打分。逻辑性看推理过程是否自洽、有没有矛盾;专业性看有没有正确使用机械制图的术语和规范;简洁性看有没有废话或跑题的内容。三个维度的分数取平均。
强化学习分两个自我对弈轮次进行。第一轮在全部训练数据上训练,让模型全面提升;第二轮有针对性地加大那些模型还没学好的子任务的比例,集中攻克薄弱环节。这种"有的放矢"的第二轮训练效果非常明显,推理类子任务的分数有了额外的大幅提升。
五、 上考场:MechVL和各路AI的表现如何
研究团队把MechVL和一大堆业界知名的AI模型都拿来测试,包括开源的Qwen3-VL系列(从最小的4B参数版到最大的32B参数版)、GLM-4.6V、InternVL3.5、MiniCPM-V、MiMo-VL、Llama 3.2视觉版、Gemma等,以及商业闭源的GPT-4o、GPT-5、Gemini 3 Pro Preview、Claude Sonnet 4.5和Qwen3-VL-Plus,一共十几个模型同台竞技,都在MechVQA测试集上用完全相同的规则评测,不使用任何外部工具或额外的领域适配。
最终成绩揭晓:经过完整训练的MechVL-4B-RL模型以84.85的总分拿下第一,比所有开源模型中最强的GLM-4.6V(78.91分)高出5.94分,比商业闭源模型中最强的Gemini 3 Pro Preview(77.28分)高出7.57分。这意味着一个只有40亿参数(属于中等规模)的专用模型,经过专项训练之后,在这个领域的综合表现超越了参数规模远大于它的通用大模型。
从各个子任务来看,MechVL-4B-RL在"尺寸与标注"上拿到90.70分,在"位置定位"上拿到82.01分,在"结构理解"上83.33分,"装配关系"84分,"投影与多视图"64分,"异常检测"86.94分,这些子任务的成绩都是所有参与测试模型中最高的。
从不同难度等级看,MechVL-4B-RL在简单题上准确率达到94%,中等题79%,困难题75%,难度分布最均衡。相比之下,仅做了监督微调的MechVL-4B-SFT版本,简单题92%,中等题70%,困难题只有53%——强化学习带来的最大提升正是在中等和困难题上,说明RL主要帮助模型攻克了那些需要更复杂推理和更强约束满足能力的题目。
从三大能力维度看,MechVL-4B-RL在"识别"类子任务均分89.70,在"推理"类均分77.04,在"判断"类均分82.81。与GLM-4.6V相比,MechVL-4B-RL在这三个维度分别高出5.68分、6.54分和11分;与Gemini 3 Pro Preview相比,分别高出8.14分、19.62分和2.29分——推理类的差距最惊人,说明专项训练对跨视图推理和约束推断能力的提升最为显著。
值得关注的是,未经任何专项训练的基础版Qwen3-VL-4B-Instruct总分只有60.23分,而经过监督微调后提升到76.36分,再加上强化学习之后进一步跃升到84.85分。这三步走的轨迹清晰地展示了,每一阶段训练都在为最终性能作出实质贡献,缺少任何一步都会明显影响结果。
六、 做了哪些"换一换看效果"的实验
为了搞清楚每一个设计选择到底有没有意义,研究团队做了一系列"改变一个条件,其他保持不变"的对照实验。
第一组实验比较了不同训练阶段的效果。只做监督微调时总分76.36,加上全数据强化学习后升至81.95,再加上有针对性的第二轮强化学习后达到84.85。推理类子任务的分数从54.40一路涨到77.04,涨幅超过22分,最为显著,说明强化学习对需要多步骤推断的任务帮助最大。
第二组实验比较了三种强化学习算法:GRPO、GSPO和DAPO。在相同的初始模型和训练设置下,DAPO总分81.95,GRPO总分80.47,GSPO总分78.77。三者差距最明显的地方同样是推理类,DAPO达到70.75,而GRPO只有64.49,GSPO只有61.29。DAPO在长文本推理场景下更稳定的优化特性,让它在这个需要复杂分析的领域中脱颖而出。
第三组实验比较了不同的奖励设计。只用最基础的二进制准确性奖励(答对得1分,答错得0分)时,总分82.24;改用基于词汇重叠的F1打分时,总分反而只有80.33;去掉质量奖励只保留准确性和格式奖励时,总分83.44;三种奖励全部组合的完整方案,总分84.85。这说明三种奖励缺一不可,语义判断比字符匹配更合理,质量奖励对最终性能也有真实的贡献。
从训练过程中响应长度的变化也能看出各种奖励设计的副作用。只用词汇重叠F1打分时,模型的响应长度从大约1100个词迅速缩水到800词以下,说明这种奖励会误导模型学会简短但表面相似的回答,而不是真正理解题目。去掉质量奖励后,模型响应越来越长,最终膨胀到1300词左右,说明没有简洁性约束时模型会堆砌无关内容。只用二进制准确性奖励时,训练过程不够稳定。完整方案把响应长度稳定维持在1200到1250词之间,既不过短也不过长,体现了充分推理和简洁表达之间的良好平衡。
七、 这项研究的局限性和它能改变什么
任何研究都有边界,这项工作的主要局限性包括以下几点。MechVQA的图纸来源是公开的教育和职业资料,可能无法完全代表真实工厂里的图纸,特别是一些有历史遗留风格的老图纸,以及各公司内部特有的制图习惯,暂时不在覆盖范围内。MechVQA聚焦于理解已有的二维图纸,并不打算解决从图纸重建三维CAD模型这样的任务。基于公开数据构建的数据集,无法完全排除现有大模型在预训练时已经接触过部分来源内容的可能性,尽管研究团队已经在图纸层面做了严格的相似性分层。目前也还没有用人类专家作答同一套题目来提供一个上限参考,人类专家水平和最好AI水平之间的差距还有待量化。
尽管如此,这项研究的意义是相当具体的。在工业效率层面,机械图纸的审核和信息提取目前严重依赖人工,需要专业人员花大量时间核实尺寸、公差、符号是否合规。一个能可靠理解机械图纸的AI助手,可以大幅缩短这个流程,减少遗漏和疏误。在工程教育层面,机械制图是工程专业里公认的难点,大量学生在学习识图和读图时困难重重。MechVL这类工具如果能作为学习辅助,帮助学生理解图纸的逻辑,会有实际价值。在制造质量控制层面,装配错误和尺寸不合格往往在成品检验阶段才被发现,而这时修复成本极高。如果AI能在图纸设计阶段提前发现尺寸链矛盾或标注遗漏,可以把质量问题消灭在萌芽状态。
当然,研究团队也明确指出:MechVL的定位是辅助工程师做决策,而不是替代工程师做最终决定。机械结构的安全性至关重要,任何AI的判断都应该由专业人员二次确认,不能盲目信赖。
说到底,这项研究回答了一个非常实际的问题:通用AI理解不了机械图纸这件事,是因为缺少合适的训练数据和训练方式,而不是因为这件事本质上超出了AI的能力范围。通过建立MechVQA这套全面的评测体系和MechVL这套专项训练流程,研究团队证明了:只要给AI"上专业课",一个中等规模的模型可以在这个领域显著超越体量大得多的通用大模型。这对那些需要AI助力但长期苦于AI在本领域表现不佳的专业工程场景,提供了一条很有参考价值的路径。至于下一步,弥补人类专家和最好AI之间的差距,以及扩展到工业级真实图纸,或许正是这条路上接下来的挑战。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2605.30794查阅完整原文。
Q&A
Q1:MechVQA数据集包含哪些类型的题目?
A:MechVQA共有20778道题目,分为识别、推理和判断三大能力层次,下设10个子任务。识别类包括尺寸标注读取、辨识计数、文字表格理解和位置定位;推理类包括结构理解、几何计算、装配关系分析和投影多视图对应;判断类包括异常检测和一致性判断。题目还按简单、中等、困难三档难度划分。
Q2:MechVL模型是怎么训练出来的?
A:MechVL基于Qwen3-VL-4B-Instruct模型,经过两阶段训练。第一阶段用MechVQA训练集做监督微调,让模型学会机械图纸领域的基础知识和答题规范。第二阶段用DAPO强化学习算法做进一步优化,奖励信号由答案准确性、格式规范性和回答质量三部分组成,其中第二轮专门加大了薄弱子任务的训练比例。
Q3:MechVQA和通用视觉问答数据集有什么不同?
A:通用视觉问答数据集主要针对日常照片,考察基本的物体识别和常识推理。MechVQA专门针对机械工程图纸这一高度专业化场景,要求理解投影规则、制图符号、公差标注、多视图对应等专业知识,并包含需要工程判断力的异常检测和标准合规性判断类题目,这些都是通用数据集无法覆盖的内容。