大数据时代反洗钱工作的智能化发展之道(上)
编者按:本文由于篇幅过长,分为(上)(下)篇先后发布。(上)篇乃是对大数据反洗钱整体技术架构及关联追溯反洗钱系统核心技术的介绍,(下)篇对基于异常交易团伙识别的智能反洗钱技术的介绍。敬请期待!
一、引言
随着电信诈骗、贪污腐败、非法融资、走私贩毒甚至恐怖活动等犯罪行为的日益猖獗,洗钱已经从一种资金转移手段发展成了一种独立的犯罪行为,对金融机构和国家安全构成越来越严重的威胁。据国际货币基金组织统计,全球每年非法洗钱的数额约占世界GDP的2%至5%,介于6000亿至1.8万亿美元之间,且每年以1000亿美元的数额不断增加。在当前经济全球化、资本流动国际化的情况下,洗钱活动对国家金融体系的安全、对政治经济秩序的危害极大。2003年3月,中国人民银行发布了《金融机构反洗钱规定》、《人民币大额和可疑交易报告管理办法》和《金融机构大额和可疑外汇资金交易报告管理办法》,明确提出了对银行类金融机构的反洗钱监管要求,确立了我国反洗钱报告和反洗钱信息监测制度的基本框架。为履行反洗钱职责,经国务院批准,人民银行于2003年9月成立了反洗钱局,并于2004年4月,组建了中国反洗钱监测分析中心,负责反洗钱情报的接收和分析工作。
中国银联作为国内唯一的银行卡组织,处于银行卡产业的核心和枢纽地位,是实现银行卡系统互联互通的关键,在对洗钱资金进行全链条跟踪监测、完善反洗钱可疑交易协查信息共享机制,提升我国支付行业反洗钱监测工作的有效性上,发挥着重要作用。中国银联根据《银行卡组织和资金清算中心反洗钱和反恐怖融资指引》(银发〔2009〕107号)要求,利用智能风控技术和大数据平台,基于银联跨行交易清算系统(CUPS)建立了反洗钱可疑交易智能化监测分析报送体系,对洗钱和恐怖融资资金跨行转移进行事前、事中、事后全方位的监测。
尽管反洗钱工作已经受到了各方政府和金融机构的高度关注,但由于洗钱手段的的复杂性和多变性,如何有效检测洗钱活动仍然是一个巨大挑战。当前,绝大多数反洗钱系统仍然是基于规则的。这些反洗钱规则虽然能够帮助发现一些异常的洗钱行为,但毕竟大多是根据历史数据总结出来的,过于依赖人工经验,难免疏漏。而且犯罪分子也多多少少掌握了一些反洗钱规则,故意地去规避,这样系统就难以识别了。更加重要的是,当前的洗钱活动往往涉及到团伙犯罪,而反洗钱规则只适用于识别单个账户的洗钱行为,对隐藏在金融交易网络中的洗钱团伙却无法识别。
在这样的背景下,本文提出了一系列针对反洗钱工作的复杂网络以及人工智能创新算法,通过对这些算法进行有效整合,形成一套高效的异常资金转移活动监测方案。本文以银联现有大数据资源为基础,对海量跨行交易数据进行深入挖掘,详实论证了该方案在帮助数据分析人员更加高效监测洗钱行为上的可行性,极大的提高中国银联反洗钱监测分析工作的效率和有效性,从而更好地履行反洗钱的责任。
二、智能化反洗钱整体技术架构
对于根据已知案件进行反查的工作,我们采用大数据关联追溯技术解决方案,而对于主动发现异常洗钱的工作,我们采用异常交易社团发现的解决方案。对于两种方案,一般都需要先使用特定的图计算平台将它们生成特定的网络图。在网络图建立完成之后,再使用各种创新的复杂网络算法来进行案件反查与异常发现。整体技术架构如下图所示。
图1整体技术架构图
从上图可以发现,我们利用丰富的内、外部数据,依托银联现有的云计算大数据平台对数据处理,对转账、消费、查询等多个事件进行多角度的关联分析。通过结合创新的图计算算法以及可视化交互工具,形成了针对案件追溯反查和异常交易结构主动发现两大类原型工具。其中,针对图计算我们还总结了一套经验型性地解决方案,主要流程如上图右侧所示。即先利用大数据图计算平台GraphX进行相关的图形计算,得到出入度等关键的网络信息,然后着重提取与重点节点有关联的节点信息加载到Neo4j中再进行更为深入的关联分析与可视化交互。
在下面的章节中,我们对上述两大类技术分别进行详细的阐述,并且清楚地展示了使用该套解决方案在实际反洗钱工作中的应用效果。
三、基于大数据关联追溯的智能反洗钱技术
3.1大数据关联追溯反洗钱系统核心技术
由于每天都涉及几千万笔的交易,数据量巨大,而传统数据库查询需要遍历,所以比较耗时。另外,仅仅得到涉案卡号相关的交易可能遗漏重要的信息,因此有必要进行进一步的深入挖掘更多关联信息,筛选重点可疑账号、核心交易结构以及关键资金路径等,对犯罪团伙进行全方位地打击,并从中总结规律。
针对以上需求,本课题对前期的洗钱关联追溯方案进行了全面升级,主要体现在以下方面:
a)基于大数据平台的关联交易多轮快速追溯
原本的数据库使用的是传统的关系型数据库,速度查询较慢。在改进方案中,我们首先使用大数据工具Hive进行数据库级的关联追溯,取得了一定的效果提升。不过,如若需要深入进行N轮关联追溯,仍然需要N次数据抽取以及N次遍历。在二次改进的方案中,我们引入了SparkSQL的代码级解决方案,只需在程序开始进行1次数据抽取,借助内存计算的力量,后续便可以进行N次遍历,相对Hive大大节省了数据抽取的时间。此外,我们还专门为实时分析场景构建了基于GraphX的模型级追溯平台,借助连通子图算法,构建好标签体系模型,后续只需一次查询便可获得全部关联信息,非常快速。不过这种方案需要对模型进行存储,更适用需要反复查询的应用场景。
b)关键转账枢纽节点发现
社会网络分析(SNA)算法一般可用于分析网络图中各个节点的信息度量。SNA中的部分功能比如小世界网络等不一定适用于反洗钱的需求,不过部分功能可以借鉴,经过移植及修改之后,用于挖掘账号之间关联信息。常用的SNA指标有度中心性、紧密中心性、介数中心度以及特征向量中心性等。
下面将阐述我们是如何使用这些指标来刻画洗钱网络中的节点的。
图2 SNA指标分析示意图
图a中,红色标记的节点是网络中的度中心性最高的账号,表明它在网络中和其他节点的连接是最多的,可能是转账交易中最活跃的节点。图b中两个红色标记的节点能够最好地和网络中其他绝大部分账号成员进行信息传递,具有最大的紧密中心性,很可能是在网络中负责交易中转的节点。图c中,红色标记的节点是左右两部分交易网络中介数最大的一个,所以很可能就是这两个子交易网络之间的桥梁。图d中,红色标记的节点具有最高的特征向量中心性。它与最活跃的几个账号节点都有最直接的联系,因此能够更好地对这些活跃节点产生影响。虽然它与大部分账号节点没有进行直接的联系,但很可能主要负责与一些关键节点进行沟通,让这些关键节点再去与下属洗钱节点进行沟通。
根据实际项目的经验,我们总结了一套SNA指标分析的实战经验:如果我们关注的是交易活动,那么可以采用度数为基础的测度;如果关注对交易的控制,可利用中介中心度;如果分析相对于信息传递的独立性或有效性,可采用紧密中心度;如果想要揪出幕后关键节点,不妨考虑特征向量中心性。
另外,基于以上指标计算衍生出来的链接分析在反洗钱领域具有更加明显的效果,它们原本多是利用图结构计算网页重要性的。在反洗钱项目中可以用来分析重要的个体节点。较为常用的链接分析算法有PageRank、HITS、SALSA、Hilltop等。其中PageRank还有其多种延伸方案。
c)核心交易结构网络发现
使用K-Cores算法实现重点子网络分析技术。这种度量帮助确定在一个网络紧密相连的群体。通过Kruskal等最小生成树算法,能够发现网络图中保持图连通的最少的代表性的边,从而得到最核心的交易结构等。此外,通过一些特定的社团发现算法也能够帮助进行社团划分,划分之后通过上述的SNA指标进行权重得分计算,高得分社团可能涉及核心交易等。这些方法在下文的异常社团发现中重点描述。
d)核心资金流路径分析
在反洗钱过程中,该分析可以用来研究个体、群体之间的联系。例如利用最短路径算法(包括Dijkstra、Floyd-Warshall、Bellman-Ford、SPFA和DAG算法等等)来寻找洗钱个体之间最直接的中介等等。还可以采用实现异常路径识别算法:合法的经济体为了正常的业务需要,资金转移一般都会遵循成本最低和时间最短的原则。此外,通过最小生成树等算法能够在一定程度上直接得到重要的核心交易路线。
通过以上方法,再对整个案件中涉及到的转账、取现、查询等多种事件进行结合考虑,就能全局性地掌握案件动向,甚至可以进行一些串并案的关联分析。关联追溯整体的技术框架如下所示:
图3大数据关联追溯反洗钱技术框架
3.2基于大数据关联追溯的反洗钱实战分析
利用上述的大数据关联追溯系统在实际的办案过程中已经取得了良好的效果,下面以一起利用盗取的游客卡片信息,制成“克隆卡”进行大规模电信诈骗的非法资金转移活动为例,阐述该套系统的效果。
利用关联追溯的方法,我们首先寻找到了与原始涉案卡号相关的所有转账交易,发现其中大部分2016年7月份是交易最多的,因此我们做了重点调查。7月份的转账交易图如下所示。可以发现该结构中存在一个比较明显的异常结构,以及其他散落的一些账号。
图4电信诈骗首轮涉案转账交易网络图
从放大的图中可以明显发现以下异常:
※17号节点存在明显的集中转入分散转出的异常模式。
※节点2和节点6存在明显的大量转出的情况
※节点2和节点17同时向同一批账号节点进行了大量转入操作。
基于以上特征,我们初步断定该批账号的确存在异常,但由于涉电信诈骗资金的交易环节复杂、交易层级较多,从转移赃款直至最终清洗完毕可能经过多步复杂过程,在上面的原始交易图中难以发现更多的信息,因此我们以当前交易网络所有节点作为当前种子账号,对关联交易进行了多轮追溯。
下图是第2轮追溯的结果。我们使用过滤器将小额交易的边全部过滤掉,结果如下图所示,发现该异常结构中大额交易非常少。
图5追溯2轮后过滤小额转账后的交易网络图
直到关联扩展了4轮之后,我们才逐渐发现了较多的大额交易。边越粗表示交易金额越大。
图6追溯4轮后过滤小额转账后的交易网络图
此外,我们发现了潜在的更大的可疑交易网络。原始的交易网络结构只是这个大型交易网络的冰山一角。这个大型交易网络中也存在着明显的结构化可疑洗钱模式,比原始的交易结构更为复杂,并且先前没有被业务人员发现。这时整个的交易网络图如下所示。
图7追溯4轮后整体交易网络图及Kcores核心示意图
我们利用Kcores算法可以发现该异常结构中存在多个非常复杂的交易子结构。以上图的Kcores7核心图为例,在该子结构中,每个账号都至少与其他7个账号发生过交易。这是非常可疑的,后续可以针对这个子结构进行进一步深入分析。下面我们还列举了从整个交易网络利用Kcores算法得到的各种可疑洗钱模式结构图。下图仔细分析了一个Kcores核心图的转入转出。从这些图中,我们可以明显的看出,该异常结构竟然分成了明显的3层,每一层之间分别整齐地向其他层的账号进行转入转出,中间那个层不仅是上下两层的资金过渡层,并且三个账号节点之间还互有交易,因此可能是关键的中介节点,介数中心度较高。
图8转账中介节点示意图
上面仅仅只是一个异常交易结构代表,整个交易网络中存在多个类似的层次化的交易结构,如下图所示,绿色框内的账号表示大量向外层转出资金,而橙色框内的账号代表有大量的资金转入。这种层次化的批量转入转出明显是经过精心设计的。
图9复杂层次化洗钱示意图
发现了以上层次化的结构之后,接下来要做的就是对那些有大量资金转入但转出很少的账号进行重点排查。为了更清楚地发现资金的最终去向,我们发挥了Neo4j图数据库的作用,结合可视化交互工具,进行了多事件关联分析。如下图所示,我们将一批涉案账号在16年7月1日的多个交易事件在同一张图中进行了显示。其中
→蓝色节点代表卡号
→绿色节点代表地址
→蓝色线条代表两个卡号之间转账
→黄色线条代表某卡号在某地址进行查询交易
→红色线条代表取现交易
→绿色线条代表消费交易
从这张图上我们又发现了以下几点异常:
※一批卡号同时在地址1查询,而在另外一个地址2取现。
※一批卡号同时在两个不同的地址都发生取现。
※该批卡号的转账、查询、取现很多,消费很少,且互相异地
※一批卡号互相有转账关系,转完以后在相同地址取现。
通过以上异常点,我们基本可以认定这一批卡号属于同一团伙,并且前期发现的两张卡号向同一批卡号汇入资金的后续资金流向也得到了确认,即这些零散卡号在资金汇入之后,在很短的时间内就进行了跨境取现。
综上所述,利用大数据关联追溯技术,我们从少量涉案卡号从发现了大量前期未被发现的可疑交易,并且锁定了交易团伙中的关键账号作为突破口。此外,根据以上案件也能够提炼相关规则,作为一种可疑的洗钱模式,后期如若发现类似的交易结构,则可以提早预防,及时截断资金去向。