6月初,阿里巴巴的菜鸟网络与顺丰快递之间出现数据断接。这只是大数据相关事件透露出来的表象,“数据孤岛现象又开始出现,”龚才春说。
龚才春是一位创业者,2008年从中科院计算所博士毕业,研究自然语言处理,从2011年开始,特别关注大数据行业,毕业后去淘宝工作了3年时间,出来创业做职品汇项目,通过对职场大数据挖掘和整理,开展职场报告等系列商业活动。
现在,他对前途感到担忧。2014年,“双创”活动如火如荼之时,全国兴建了很多大数据交易中心和大数据交易所。当时,主要目的就是让数据可交易、可交换,消除数据孤岛。
但是,6月1日《网络安全法》正式实施一个多月来,发生了一系列事件,“数据孤岛现象又开始严峻起来。”龚才春说。
《网络安全法》正式实施前后,像一场寒流,席卷了整个大数据行业。首先,3万多家做数据接口的公司可能直接关门。其次,新三板上市的数据堂公司,另外还有14家数据型的公司,被介入查封。再次,2017年5月20号左右,最高人民法院和最高人民检察院出台了一个《关于打击倒卖公民隐私数据的办法》,此办法将让很多做大数据营销的公司在法律上出现一些障碍。
数据行业进入整肃期,而新的规则尚没有头绪。
大数据乱相
对数据行业感到忧虑的不仅仅是龚才春,他的朋友张函同样如此。
张函在数据公司宁芙科技工作,这家公司由最早的数据公司百分点公司分化而来。通过一些技术手段,宁芙科技隐去了一些数据中关键信息,比如应用虚拟电话号码。这种做法让其避免了5月底的一场磨难。
长久以来,网络上个人信息的泄露事件频频发生,引发网民担忧,去年11月,主管部门《中华人民共和国网络安全法》针对性地应运而生。经过半年多时间征询、探讨和修改,今年6月正式实施。这个法律的实施,带来的最直观改变是数据中心安全性在加强,数据中心加强了机房安全设备,增加一些防火墙,解决个裸机和网上裸奔状态。
但是,整个数据交易市场却迅速显现休克状态。《网络安全法》实施一个月以来,数据交易层面,因为上游主管部门的重拳出击,15家数据公司被查,有的是被带去问话,有些被要求交待问题,比如数据堂、聚信立等公司高管被带去问话,整个公司业务呈收缩状态。
随之而起,下游数据需求方感到客户开发受到严重影响。一位在天猫、京东做数码产品营销的人告诉腾讯科技,“电商营销一天一个人得打几百个电话,这些电话怎么来?以前可以从工商局等地方拿到针对性数据,现在根本就拿不到。”数据和隐私泄露问题得到一定程度遏制。
影响最严重的是一些正在融资的数据公司。《网络安全法》实施前后,有一家数据公司估值从20多个亿直接掉到了7个亿。这些代表着资本市场对于现在大数据业务的热情在猛烈降温。
当然,《网络安全法》并未对泛滥流动的数据实现一刀切。仔细研读《网络安全法》,它给数据交易留了一个口子。数据一般不能直接交易,涉及到个人隐私时,需要经过脱敏,不可还原。只有达到这样条件,方可被交易。
尽管如此,龚才春感受到的是诸种不便。“我创业是在人力资源行业,尤其是征信项目,我们确实需要很多数据,包括公安、法院、银行、证券和运营商等,我们对这些数据接口存在一定依赖性。可是现在,这些接口很多都是断裂的。”
下一步具体该怎么办?怎么引导数据有效地流通起来?数据只有流通起来,才会有更大用处。但是,如何有序地、安全地让流通起来,发挥更大作用,目前没人知道该如何入手。
很多细节需要探讨。目前,交易最活跃的数据在征信、电商、营销等几个行业。但是,《网络安全法》出来之后,这些行业的数据都可以定位到个人,比如通过手机号、地址,或者设备号。如果严格守法,这些都有可能被追究。
关于这一点,不同主管单位之间也存在矛盾。5月底,阿里巴巴的菜鸟网络和顺丰之间出现一个数据断接,引起大探讨。实情是,顺丰的数据给了阿里巴巴,阿里巴巴没有把利益给到顺丰。在顺丰想做电商的时候,客户的相关数据就成为双方争夺的资源。
从《网络安全法》来看,“顺丰把数据给阿里巴巴,按照法律规定,这是违法的,里面有公民隐私数据。”龚才春分析道。但是,紧接着,6月初,国家邮政局又出面称,顺丰要和阿里巴巴打通数据,否则在淘宝上一天很多用户看不到自己物流的状况。“产生冲突了,公安部和邮政局在打架。”龚才春说。
管理有待理顺
大数据随着人工智能的风口而更加火热,但是,具体到大数据采集、分析、流通、交易环节,国内许多未理顺的环节让人不得不生出疑问,人工智能就执行层面而言,在中国还是非常遥远之事。
《网络安全法》实施,掀起整治风暴之前,数据交易以一种粗犷、地下方式存在着,有很多不规范之处。数据产生于公安、法院、银行、证券和运营商等等。国内大数据交易中心所交易的数据都是上述机构所产生数据。这次被官方查处一些数据公司,主要问题是私下交易上述数据而没有得到当事人的授权。
操作手法并不复杂。一般是数据公司找到数据接口提供方,开通数据接口API服务,可能每条花费两毛钱,转手加一毛售出。据业内人士称,“有些公司一年能赚几十个亿。”
一方面,来自于公共服务部门的数据占据主体。这些数据通过一些官方认可、拥有资质的公司,比如国政通进行售卖,属合法合规,如果有人接过数据再加工处理售卖,是否违法解释权规主管部门。
另一方面,一些民营企业和互联网公司自身拥有的数据,都很好地保护起来,成为公司核心资产,很少流出来。比如招聘网站上面的简历,很难成批收集。
这两种原因导致上游数据资源相对匮乏,进而影响到中间交易环节中数据交易中心形同虚设。国内“呼声最大的,雷打得最响”的贵阳大数据交易中心,业务并不活跃。国内其它数据中心,遍布广东、福建、湖北、山东、浙江等地,收费模式不外乎吸收会员收取会员费,或者是靠撮合交易提成佣金,都活得很艰苦。有些数据中心干脆做些培训业务。“真正掌握很多数据的是大公司,像电信运营商、大银行和互联网巨头们,它们之间是很难合作。”龚才春判断,原因是容易在某个领域产生竞争。
以美国来说,用于公共事务的数据和个人隐私数据分开。大规模的数据治理起源于20世纪以来的政府信息化管理。比如1929年由胡佛倡导,在美国建立的非电子化犯罪信息记录系统。20世纪60年代,美国开始建立全国统一的犯罪信息系统,这些数据的用途超出了犯罪记录查询,对劳动力市场甄选工作、福利计划执行都有巨大帮助,从面成为政府治理手段的基石。
龚才春认为国内的遗憾在于数据管理远远未跟上时代发展步伐。“国外有一些大的机构和政府现在会设置一个岗位叫首席隐私官。”首席隐私官会从数据产生的源头,数据流通的各个环节,包括最后数据形成的报告或者是形成的产品,从各个环节把控数据隐私,保障各个环节泄露出去都不会定位到个人,保护个人隐私。做到了这些,“反而加速数据流动”。
现实问题是,如果数据没有流畅的通道流通,畸形发展的结果是最终变成信息孤岛。
如果有数据的流通,很多行业会发展的更健康。眼下一个实例是直播,经过去年的热火之后,行业萎靡非常快。去年代表性公司映客,已经到了与公关公司合并发展的地步。表面上看,直播走向萎靡,是失宠于资本,真正原因是2015年至今,直播行业限入同质化竞争,未能拿到有效的大数据进行耕细化运作。
直播概念兴起,捧红了一部分主播,但是后来跟进者众多,如何进行个性化精细运作就成为关键。以往的客户导流,在经历过最初的大水漫灌之后,“没有大数据支撑,用户没有根据年龄、地域、性别和爱好等区分,就是一个粗犷数据导量。”
但是,美国的Facebook和谷歌(微博)并不是这么做的。这两家公司把直播和用户数据匹配,力争让用户接触到自己喜欢的内容。
作为创业型公司,宁芙科技应对之策是通过一些激励手段吸引C端用户,授权允许宁芙获得数据后进行加工处理。另一方面,宁芙科技将数据挖掘和整理朝汽车行业深耕,想通过数据方面的服务解决汽车厂商的问题。
龚才春则认为,从人力资源领域切入大数据非常有价值,一个人的职场数据是其最重要的也最有价值的数据,对于个人征信、金融风控、企业招聘都有非常重要的参考价值。为了保证数据的安全,防止隐私数据泄露,龚才春还购买了若干服务器放在办公室,让隐私数据实现与外网的物理隔离。
很多人没有注意到,《网络安全法》第十八条也要求大家促进公共数据资源开放,但由于“不作为”或不惹事意识,《网络安全法》正式实施后实际上关闭了很多公共数据资源,使真正合法的公共数据资源的获取更困难。龚才春担心经过此轮整肃,大数据有可能会像当年网格计算一样不再成为一个行业主流热点,又或者像O2O一样,火过一阵后,实际上并没有留下什么。