3月21-25日,一年一度的CCBN展会在北京隆重举行,来自产业各个环节的企业纷纷在展会上为观众呈现了最新的产品技术和解决方案。在DVBCN&AsiaOTT-CCBN采访间,广州市诚毅科技软件开发有限公司总经理邵山先生接受了DVBCN&AsiaOTT记者的专访。
邵总表示,诚毅软件与省网底层数据的联系比较多,到目前为止诚毅软件用户数超过6000万,每天实时更新的数据大概100T,大数据目前并不热,诚毅软件早在十几年前做移动通信时就有涉及到大数据方面的应用,有通信的运营商在做精准营销和KPI管理、流程预警等等其它主题,它给内部服务。
今年的变化在未来更多是一种行业和行业间数据的跨界连接。比如房间与地理信息都可以整合到互联网上面,多维度地加载到一起,所以数据之间的跨界,行业内的应用在未来的趋势更加有吸引力,同时也带来新的挑战。
一、数据清理的现状
2016年作为跨界元年,2016年开始很多人都开始研究,要把自己的数据跟更多有数据的人融合。大数据自身服务还远远没到位,虽然跨界提了很多,但数据纵深的发展,现在广电整个行业还是有问题的,邵总认为是它数据的准确性,绝大部分数据要通过整理和清理才能叫数据,通过整理清理后的数据真正加工出来才能叫信息,所以很多数据是无效的,广电到现在为止自身数据的清洗并没有完成。
诚毅软件在做这方面清洗与甲方的配合,因为单靠一方面做不到,诚毅软件在几个数据清洗好的地方都是因为甲方的配合很到位,它重视数据,有甲方的力量一起做这个事,技术手段才会得到形成。从技术角度来看,诚毅软件数据清理的60%到70%,能够靠技术、自动化、或人工化来得到实现,但到70%为极限,剩下30%一定要甲方一起统计,因为里面的内容,如数据的来源、财务等结构并不知道。
从现在来看,本身数据的规整清理是大数据到目前为止广电最需要的,诚毅软件提供技术手段,广电提供管理手段,按照这个规则来执行,再进来的数据不就不再是“脏数据”。从这个角度来看,本身的清理和后期数据的灌入按照新的标准,这是需要的。
诚毅在广电行业占有率很高,如果有相应规范,大家联合统一,出来的数据执行新的标准,就可以准确定位用户,现在很多盒子都带Wi-Fi的,,如果把系统加以衍生的话理论上都可以定位到。邵山指出只要新的规范建立起来了,之后在执行过程中诚毅就可以发挥更大的作用,九成几的数据都是比较准确的,只是后期需要再注意一些小细节,整个干净程度就会大大提升。
二、内容推送的精准度应该基于了解
在内容推送方面,邵山便是,所有应用基于了解,要有了解才能推送得准确,广电为什么在业界目前为止推送的准确率(不高),他认为内部真正的数据是不超过20%,现在普遍最好的也就是12%到15%,也就是推荐10个片子,可能也就中一点几的片子,推荐准确率其实不是那么高。
邵山谈到,现在最高的还是Netfilx做得好,它号称自己的准确率是75%,推荐四个片子,三个片子都能中。原因就是基于对这个客户(的了解),因为它的前身是做推送的,用户住在哪里、是什么人,系统都是了解的。而广电做的推送在家庭之后没有挂到个人上,有可能是小孩看,有可能是老人看,需要基于了解才能分析,现在广电整个推荐准确率不高就是基于了解程度还不够深。
互联网上,比如用户是通过账号登陆进去的,但很多基础信息不一定是真的了解到的,比如用户会考虑在购买智能电视机时要不要把信息登记得那么全,家里几套房、在客厅看还是在卧室看,这些信息是不好获取到的。推荐率不高,主要是因为对客户的了解程度不够,所以推片准确率不够。现在有什么解决办法呢?它要通过模型训练,那就一定要积累什么时间点、什么帐号登陆(因为有子帐号),慢慢训练模型,跑一段时间我们就能确定出来客户的画像,有了画像、知道了喜好,推荐准确率就会提高。各地标准都不一样,互联互通时对比数据也会存在问题。而且现在条块化带来整个IT系统支撑的效率不是特别高。邵山认为现在推荐准确率的问题主要还是处于跑基础数据的阶段性问题。
三、人工智能与推送的结合
邵山表示因为现在推荐的东西跟人工智能有关,目前诚毅也专门设立了一个小组研究这一方面,通过深度学习、通过模型建立,来建立这方面(的技术),让人的需求和内容更加匹配,一定要通过智能的学习才能建立起来这个东西。这之中是需要测算的,内容和需求匹配,其实这里面有很多深度学习的经验。未来从推荐的角度来说它肯定会不停地升级,现在国内在15%到20%左右。
在谈到与其他企业合作时,邵山表示也是想跟爱奇艺、腾讯、乐视探讨模型建立的事宜,他认为双方思路肯定会存在不同,但没关系,大家可以一起跑,跑出来以后互相借鉴。你有你的、我有我的,策略是这样,让大家通过自己的算法、自己的模型来跑。