新浪财经 银行

顾凌云:好的征信公司要有数据清洗能力

  新浪财经讯 6月30日消息,由新金融联盟主办、新浪财经、上海交通大学上海高级金融学院联合主办的“2015新金融联盟峰会”今日在北京举办。上海冰鉴信息科技有限公司创始人顾凌云在峰会上表示,一家好的征信和数据处理公司要有了数据的清洗能力,数据处理能力,才能再考虑建模能力。

以下为嘉宾发言实录:

顾凌云:非常感谢胡总的分享!下面是我做的冰鉴科技对小微企业的内容,希望能对大家有所帮助。

首先,对于我们来讲,征信有很多种,可以做笑微企业,也可以做个人,我们为什么选择小微企业呢?因为它城墙比较高,护城河比较宽,对很多企业来说这是难以逾越的鸿沟,对我们来说有特殊的方法可以来解决。

很多人跟我聊都说你们为什么叫上海冰鉴科技股份有限公司?为什么叫冰鉴,这是晚清曾国藩镇压了解散了湘军回到老家写的一本书叫《冰鉴》,包括识人的关键,包括面相等等,相当于我们进行特征总结和建模,对人进行评估,所以,我们创立这家公司时觉得冰鉴这个名字还挺有意思的。一开始我想到另外一个名字,徙木立信,商鞅变法的时候说,后来我太太说这不行,徙木立信是政府的行为告诉你我的改革是能成功的,你评估企业和个人,和政府的信用还不太一样,所以我后来想徙木立信以后出发开发票很麻烦,以后不知道的用了土木理性还麻烦了,所以还是用了冰鉴这个词。

小微企业征信和个人征信还是不一样,传统企业有很多参与其中,陈总的FICO在美国做得相当不错,邓白氏做得也不错,还有益博睿在小微企业征信方面迈出了比较令人尊敬的尝试,新兴企业也有很多,比如OnDeck在几个月前刚刚上市,市值现在大概4亿美金左右,还有Kabbage最近一轮融资大约10亿美金;CAN这家公司现在的估值也已经超过了20亿美金。这些新兴企业都会把所谓大数据融入当中对小微企业进行征信。中国小微企业征信才刚刚开始,个人征信才刚刚开始,小微企业更是如此。没有征信的企业相对护城河比较宽,参与的人不是特别多。

在美国基本上个人征信是以FICO为基础的,同时以Equifax、Transunion、Experian信用局共享江山,大家一般会以这三家查任何人的分数,一般是以FICO为基础的。信用里我的老东家ZestFinance为代表性机构之一,设计了很多领先的算法。ZestFinance这家机构本身进行信用评估,也是贷款商,把贷款借给别人,这和FICO不一样,不是第三方,也不是所谓的州里平台,比如Z在美国平均一个人借款额度在500—600美金左右,还款额度在5—8个月之间,如果是另外一家竞争对手,比如德克萨斯ZicFinance(音)他就不敢给ZestFinance,如果重力第三方平台能像Finance提供中立征信,就能缓解大家相互之间不信谁的现象。

小微企业护城河比较宽,小微企业行业非常分散,做餐饮的,做服装的,做设备租赁的,每个行业能一样吗?即使我采集到了和个人征信相同数量的数据,但实际上我可以训练的数据远远小于训练征信的,吸收的数据量太大。在中国,小微企业为了快速成长,几乎没有不做假帐的,如果获得风险投资的公司还有三本帐,给自己的帐和税务局之间,垃圾进垃圾出,做模型也没有什么办法。关键你对小微企业的流水要进行分析,但小微企业分析不是一件很简单的事情,怎样把流水分析做好也是很难的。贷后的部分其实也很重要,我把钱借给你了,你是不是应该准时地还,即使现在能准时还,我是不是建立个模型预测你是不是有可能不还了呢?这几个在目前国内,除了冰鉴之外还有其他几家公司,相对也还算做得不错,能够解决一部分所谓小微企业征信当中的难题。

中国征信市场,我想做各类比,我想了一下有一定的道理,所以拿出来和大家分享一下,19世纪末、20世纪初因为爱迪生的愿意使照明电进入普通老百姓家里,一开始并不是这样的,只有有钱人才有这个全力,在大原子后面给爱迪生公司做个柴油发电机,他家就有电了,周围还是没有电。之后有中心的火力发电站发电把高压电传输到老百姓家里去。

现在刚刚起步大公司的,阿里、腾讯、平安,当年有钱的大户人家,他们有自己的模型团队,好比自己后院假设了发电机,对自己的模型团队进行评估把这个模型做出来,更普通的二线、三线金融机构和P2P平台怎么进行评估,没有专业团队模型成员给他们做技术支持的话,像Finance、冰鉴这样的第三方透明平台给他们信息保障,反馈信息给他们,他们很难把征信工作做下去。

大家可能会问,一家好的征信和数据处理公司到底需要什么东西,大数据讲了那么多,后面在我主持对话当中也会讲到这一点。我认为,第一,中国现阶段还根本谈不上建模,数据源的差异,如果现在我知道这个人刚刚在拍拍贷借了钱没还,我根本不用建模就知道不应该借钱给这个人。如果我不知道呢?可能通过一套复杂的模型才能简单预估出一个可能性来,如果数据源有差异可能第一步就领先于别人了,如果数据源有差异,今后五到三年之中数据源差异一定会被慢慢抹平。

抹平之后,你要有整合能力,你有成本,有时间成本和技术成本,这时候你要判断在特定场景里你到底应该有哪些数据。有了这些之后才有了数据的清洗能力,数据处理能力,再到下一步才是我们的建模能力。建模能力目前只改在第四位,尤其中国特色当中。后期BI智能分析能力和你的模型能不能结合起来,结合在一起才是征信公司有没有综合实力简单的评估标准。

如果你不能穷尽金融数据直接进入社交数据,我个人认为是费时费力,而且不一定能得到好结果的事情。中国征信的合规性在大步向前,性别、种族等最好用的变量可能慢慢退出历史舞台,我们的应变是什么。现在在美国和很多成熟的信用国家要拒绝的时候要发一封信给他,告诉他我什么原因把他拒绝了,在中国现在还不需要,以后一定会,要用含有科技水平的拒绝信给他回应,直接回答客户为什么拒你。如果以后使用学习问落呢?使用了朴素贝叶斯呢?当使用其他算法,当线性变成非线性,低维变成高维空间时,所有的变量融合在一起,你知道一个或哪几个变量才是有用的呢?所以,这是后来需要考虑的问题,是说在前面的话。

我的分享就到这里,非常感谢大家!

责任编辑:杜琰 SF007

加载中...