反洗钱实践案例展播（15）｜应用监管科技构建智能制裁扫描系统分析

中国互联网金融协会

2020.07.2620:44

关注

反洗钱实践案例展播（15）

- 选送单位：锐合新创科技 -

为推动行业反洗钱工作经验交流，协会面向会员单位征集反洗钱实践案例，银行、保险、消费金融、第三方支付、金融科技等领域的会员积极投稿，较好反映了互联网金融领域反洗钱工作取得的新成果，为此协会汇编相关案例，形成系列专题陆续推出。

一、挑战及机遇

对于大型金融机构而言，传统的制裁扫描系统不但难以有效应对日益加强的监管力度以及金融机构自身业务增长带来的挑战，系统本身还存在着高误中率和高维护成本的问题。

挑战

（1）高误中率

为了应对全球严格的监管要求，金融机构过往都致力于建设具有较高侦测能力的制裁扫描系统。近年来，系统的整体侦测能力的确有显著提升，但随之而来的问题是高误中率，其后果不仅是浪费了人力资源，更影响了业务的正常开展和客户关系的稳定延续。

（2）高维护成本

很多传统的制裁扫描系统，当初设计时考虑到业务人员使用便捷性的要求，在功能实现上运用了底层算法和业务规则相结合的双重架构。但在实际使用中，业务人员往往仅通过业务规则来调整系统的侦测预期和运行效率，却对底层算法的功能和应用知之甚少。因此，业务人员在使用系统时往往只依赖后置规则对误中问题进行定期检验和手工维护，这不仅增加了维护成本，也造成不必要的工作负担。

机遇

上述问题催生了建设智能化制裁扫描系统的需求，其带来的效果提升主要体现在以下几个方面：

（1）智能化制裁扫描系统将优化现有扫描流程并提高整体工作效率

以交易制裁扫描为例，传统制裁扫描系统其工作流程分为扫描、分析、补充信息、得出结论四个主要步骤，即金融机构将SWIFT信息和客户信息录入制裁扫描系统后，将命中结果传输至案件管理系统做进一步的分析处理。受制于数据信息有限性，侦查人员需要从金融机构内部的上游系统和外部渠道收集更多的数据，对真实/错误命中情况进行判断。而智能化制裁扫描系统其工作流程恰好相反，为特征数据准备、扫描、智能分析、得出结论四个主要步骤，这些特征数据包括制裁名单本身的类别、案件管理系统侦查人员对真实/错误命中情况的判定结果、客户与交易的基本信息数据、其他非结构性数据等。

（2）传统制裁扫描系统的核心技术可以完全做到自主研发，这为金融机构自主开发智能化制裁扫描系统奠定了基础

传统制裁扫描系统出于对专有技术的保护，数据的透明度和充分性不足以支持命中结果分析。这也成为升级改造传统制裁扫描系统，添加机器学习功能的阻碍因素。为了使机器学习达到最佳效果，系统间的数据调用必须透明且充分，相关问题我们会在随后章节展开描述。随着国内从业人员在制裁扫描领域专业技能的积累，传统制裁扫描系统的核心技术可以完全做到自主研发，这为金融机构自主开发智能化制裁扫描系统奠定了基础。智能化制裁扫描系统在数据架构和业务功能上的设计较传统制裁扫描系统都更为灵活和高效。

（3）机器学习算法在智能化制裁扫描系统中的运用是一大技术创新

机器学习算法在智能化制裁扫描系统中的运用是一大技术创新，这是传统制裁扫描系统无法比拟的。其应用将改变现有的业务管控流程：业务规则的更新转变为特征数据的收集；业务规定期审阅验证转变为高频的线上动态模型监测。与此同时，技术人员和业务合规专家的紧密合作将变得尤为重要。

二、构建智能扫描系统的必要条件

结合本团队数年来服务于金融机构的项目经验，我们认为建设智能化制裁扫描系统需具备如下必要条件：

在团队组成上

金融机构合规部门除需配备制裁专家外，还需配备熟悉机器学习算法的技术专家。原因如下：首先，只有在技术层面对传统制裁扫描系统有透彻的了解，才能把现有底层算法的输出，转化为特征数据，作为机器学习的输入。其次，只有系统性掌握机器学习算法，才能向业务人员提出更有针对性的特征数据需求，以用于机器学习算法训练，并追溯机器学习效果未达预期的原因，以提出算法优化建议。

在命中判断上

传统制裁扫描系统可用于命中判断的字段很少，主要基于名字的模糊匹配和其他辅助字段，如生日、证件信息等的条件匹配。与传统制裁扫描系统不同，智能化制裁扫描系统依赖大量、多维的数据为机器学习的命中判断提供支持。在数据范围上，制裁名单、命中特征以及人工甄别信息，均可被加工处理成机器学习所需的特征数据，数据格式可包含但不限于文本、图像等。

在业务功能上

智能化制裁扫描系统相较传统制裁扫描系统也有很大的提升。传统系统依赖于业务规则的设置，而业务规则的更新在很大程度上依赖于厂商对产品的持续迭代。由于金融机构各不相同的业务特征，产生了很多定制化的开发的需求，这就导致了定期改造升级制裁扫描系统的需要。相比较而言，智能化制裁扫描系统并不要求使用者持续更新业务规则，而是令系统通过自主学习高质量、多元化的特征数据，从而赋予其自动更新业务规则的能力。智能化制裁扫描系统支持所有中间过程数据成为特征数据，并保障其持续收集、加工处理以及评估验证的各个环节，最终将其用于机器的自主学习。

三、机器学习在智能制裁扫描系统中的应用

机器学习作为人工智能的一个分支，是一门多领域交叉学科，涉及了概率论、统计学、多元微积分、凸优化、线性代数等。机器学习的主要目标是设计让其可以自主“学习”的算法。机器学习分为有监督学习和无监督学习，前者需在人为标注结果的基础上对特征数据进行训练，而后者则是机器自己发现特征数据中的结构规律。机器学习算法众多，其中常用的算法有支持向量机（SVM）、最近邻（KNN）、逻辑回归、随机森林、决策树、单纯贝叶斯以及多层感知器（MLP）神经网络等。机器学习需要解决的问题是如何对事物进行分类。例如，计算机视觉识别中的人脸识别是对不同人脸特征的分类识别，其他例子包括预测股市的上涨下跌、制裁扫描的真实/错误命中情况等。诸多算法如何选择，需要综合考虑数据质量、大小、类别、计算机资源、可接受计算时间、可解释性、算法的稳定性等诸多因素。

从特征数据的获取到最终合适的算法的选定是一个比较复杂的过程。若特征数据其维度繁多，不宜全部应用到模型训练中，先通过一定的方法进行数据降维，以达到精简特征数据的目的；接着，若特征数据间具有一定程度的相关性，全部应用到模型中会对模型结果造成一定的过拟合，此时需进行一些聚类分析，以消除潜在对模型的干扰。在做了上述数据处理后，根据模型预测目的，选取合适的算法以开展模型训练，不同的算法对模型的速度和精准度表现有不同影响。在整个过程中，特征数据的加工处理是机器学习中的重要步骤。

数据处理中的技术难点：

特征数据获取

特征数据可来源于命中结果和制裁名单本身，如命中结果的模糊匹配率、命中名字和制裁名单名字的个数差异、制裁名单发布国家及类别等均可提炼为特征数据。个别传统系统厂商对其专有技术严格控制，原本可以快速获取特征数据的过程变得迂回曲折。更有甚者，关闭了客户模糊匹配调试结果的导出功能，导致这一关键特征数据的缺失。为了弥补这一缺陷，只能对系统进行逆向操作，获得近似的模糊匹配率。

数据解析处理

可获取的特征数据和制裁名单多数是以 RTF、HTML、XML 等标记式格式存储，属于半结构性文本数据，需经过解析和再加工成为机器学习可用的数据结构。这就需要技术人员熟悉不同的编程及脚本语言，以实现此类数据的自动解析，比如Python 和 Linux Shell Script 等。

数据加工处理

在完成对数据的解析处理后，还需要根据数据特征，结合对应的模型或算法，做数据加工处理。对于决策树来说，其所需特征数据主要由分类而非连续性数据组成。命中匹配率可划分为高、低两类以满足决策树的分叉结构；对于逻辑回归来说，获取分类数据需要先进行变量处理。例如将名单类型区分为制裁名单和非制裁名单，形成二元式数据。对于一些判断命中数据来说，由于没有现成的真实命中和错误命中的结构化数据，只能通过对命中结果进行分类，这就需要用到更复杂的自然语言处理算法来实现。

四、总结

在数据加工处理时，提到不同的算法需要做不同的数据加工处理，至于选择什么样的方法进行数据处理，就需要对算法的计算原理有比较透彻的了解。基于对机器学习算法的机理的透彻了解，我们能更好的理解为什么机器学习能帮我们解决误中率高的问题。其优势主要体现在通过机器自主学习对业务规则的更新优化。首先，在业务中提炼用于真实及错误命中判断的特征数据及判断的结果，这与传统统计回归方程式中自变量和应变量选取是等效的概念；其次，机器学习通过特征数据对命中判断加以学习。所谓机器学习就是对自变量权重的迭代优化求解，使得最终模型预测值和真实结果拟合，实现偏差最小化；最终，自动化实现业务的手工判断过程，减少人工在侦查工作中的比重，助力实现工作效率的大幅提升，这也就是机器学习模型根据更新数据持续校准的过程。

专家点评：制裁合规压力让无数金融机构不堪其苦，人力负荷几近极限。在此形势下，RegTech的引入就成为必然。锐合新创系统介绍了利用技术手段开展制裁扫描的经验，提出很多有意义的增加有效性的方法，很有价值。

反洗钱实践案例展播（15）｜ 应用监管科技构建智能制裁扫描系统分析

中国互联网金融协会

反洗钱实践案例展播（15）｜应用监管科技构建智能制裁扫描系统分析