互联网巨头对知识越来越青睐
两三年来,互联网大佬言必谈数据,特别是大数据。曾有人戏称马云应该叫“Data Ma”,因为不懂技术的马云,十分钟爱谈大数据,马云的“五新理论”中有一个是“新能源”,其认为未来机器吃的不是电,而是数据。其外,李彦宏、马化腾等大佬关于大数据都有不少言论,马化腾说数据是AI应用的四大要素之一,李彦宏也提到:“由数据、算力、算法‘三位一体’共同驱动的人工智能或将成为推动经济增长与时代进步的新引擎。”
数据是AI的基础,也是互联网公司的重要资产,通过算法挖掘可以形成可观价值,是毋庸置疑的。不过,我观察到,今年互联网巨头们对于数据谈得少了,谈知识反而越来越多。
最具代表性的是百度,新春内部演讲中,李彦宏说,“知识图谱(包括需求图谱、用户画像等等),这些东西都是百度整个人工智能当中非常基础的构件,也是我们相对于其他任何一家公司的优势所在。”“非常”一词足见李彦宏对于“知识”的重视。百度总裁兼COO陆奇在今年AI开发者大会上则指出,“知识就是力量,有了知识我们可以做预测、做自动化,解决任何重要的问题,人类历史就是改造世界、认识世界的历史,AI就是帮助人类认识世界、改造世界的工具,AI是人类历史上重要的里程碑。”在业务层面,百度在知识上的底层布局就是知识图谱。
除了百度谷歌在知识图谱上也一直在积极布局。2012年5月,Google就推出了知识图谱(Google Knowledge Graph),利用其优化搜索结果。2013年,Google收购自然语言处理技术公司Wavii,将后者技术与Google Knowledge Graph整合。2015年谷歌推出医疗版知识图谱。现在谷歌语音搜索、Google Assistant、Google Lens、Google Home诸多软硬件产品均已接入谷歌知识图谱。
不只是百度、谷歌等搜索引擎在知识图谱上布局,阿里、华为等玩家也已在部署知识图谱,让自己变得更有知识。从Data到Knowledge,为什么互联网巨头们青睐的事物会有这样的转变?
知识对于互联网究竟有何价值?
知识对于互联网第一层价值是内容或者说信息价值——就像知乎、分答、百科、知道等等知识类产品一样,它们满足了用户的知识生产、共享、获取等需求。不过,长期来看,知识对于互联网的价值主要在于,起到一个从数据到AI的“桥梁”作用,它不可或缺且会日益重要。
第一,知识让机器具有认知能力。
每家互联网公司都在强调自己拥有海量数据,不过,不同数据价值是截然不同的。从应用场景看,搜索数据、社交数据、电商数据、支付数据、视频数据等等的价值可以说大不相同;从数据形式看,结构化与非结构化的数据价值不同,前者更可能被机器利用;从数据性质看,感知类和知识类数据价值截然不同,前者是视觉、声音、运动等物理感知数据;后者则是知识类数据,“人类对物质世界以及精神世界探索的结果总和。”只有人类才能产生、创作、总结和理解的数据,比如支付、搜索、创作、语言等等数据。
而知识类数据最核心的价值在于,可让机器形成认知能力。百度AIG(人工智能技术体系)负责人王海峰曾提出,AI可以分为感知层和认知层,感知是人类和动物都有的能力,机器一定程度也可以比人类更强;但认知是人类的专属能力。机器感知能力目前已趋于成熟(比如百度世界大会上语音技术可以实时生成字幕,再比如图像识别很多时候比人准),但认知能力还有很大的提升空间。知识类数据可以让机器在感知能力的基础上形成认知能力。
第二,知识可以让机器与人类对话。
我们要机器成为合作伙伴也好,智能助理也罢,前提就是要能够与机器沟通,就是交互。目前我们与机器的主要交互方式,是反人性的——用输入法打字即便再简单也需要一定的学习成本,只有触摸、语音、视觉这样的交互方式才是自然的,是小孩子都拥有的能力。
尽管眼下已经有语音交互技术、图像识别技术,但整体来说还不够智能,比如语音无法理解长句子等复杂句式,再比如图像识别更多是对条形码等简易图片有效。要机器实现与人类的自然对话,像一个真正的助理那样与用户交互,就需要它储备足够多的知识。有知识储备的机器有了认知,就不只是拥有语音或者图像识别能力,而是具备语义理解能力,从听清进步到听懂,从看出来升级到看得懂。
再举个例子,一个真正的秘书不只是可以识别主人,还能根据主人表情揣摩其情绪,进而做出响应。iPhone X的Face ID目前只能识别主人的脸,如果有了知识就可以“读脸”揣摩主人情绪,比如用户愁眉苦脸时可以推荐一首欢快的歌曲。百度世界大会上李彦宏演示的“火车司机疲劳识别”,本质上就是在图像识别技术上加载了知识图谱后的成果,机器可以理解“什么表现是疲劳驾驶”。
第三,知识可以让机器智能决策。
如果机器只有感知能力,本质上只是改变数据输入方式——机器的数据输入自动化、无人化、实时化,进而提高输入效率、降低人力成本,增加采集场景。然而机器的本质还是传统意义上的功能计算机。就算可以做出决定,本质也只是“if this then that”的、在人类设定的规则下的按部就班。
然而,当机器通过足够多的知识建立认知能力,对世界有自己的理解后,就可以进行智能决策。一个例子是AlphaGo——相对于深蓝等基于规则的下棋程序不同,它每一步的走棋,是基于对围棋规则的认知以及下赢对方的目标而进行的,它是真正意义上的AI下棋。AlphaGo Zero则是进阶版,它可以不借助任何围棋棋谱与人类经验自我学习进步,等于说是构建了一套自主的知识体系,它成为知识的输出者,棋谱也值得人类棋手去学习。当然,前提也是有围棋规则这个人类知识的输入。
我们不论是招聘秘书,还是聘请管家,都希望找一个“有一定想法”的,会主动思考和自我决策的人,而不是找一个让TA做什么才做什么的人。同样的道理,要机器有“一定的想法”,能够自我决策,变得智能,就必须要有足够多的知识输入,让其形成认知能力。
因此可以看到,在AI时代,我们要让机器真正意义上认知这个世界,要让机器与我们更自然地交互,要让机器可以智能做出决策,都必须要输入足够多的知识给机器。如何给机器输入知识?核心技术就是知识图谱,它就像AlphaGo“吃”的棋谱一样,是将人类掌握的不同知识进行关联存储于计算机中,形成网状结构并持续动态完善,让机器不断汲取知识,对世界的认知日益完善。
看到这里就能明白,为什么李彦宏会说知识图谱是百度整个人工智能非常基础的构件了。知识图谱对于人工智能可以说是不可或缺,陆奇说,“AI革命的本质是快速的、自动地获取知识”,王海峰则认为知识图谱是AI的基石。“如果知识是人类进步的阶梯,知识图谱就是AI进步的阶梯”,知识是AI的基础已得到行业共识——有数据的巨头企业很多,然而有知识图谱技术的巨头却屈指可数。
知识图谱到底有哪些应用场景?
说到语音技术,人们就会想到Siri;说到图像技术,人们会想到iPhone X的Face ID;说到知识图谱,人们可能会想到百度搜索结果右侧的关联内容,这是百度2014年便已大规模应用的知识图谱产品,3年应用量增加了160倍。
不过,知识图谱的应用场景远不止于搜索,它跟自然语言处理技术一样更为底层,很多时候是透明的,许多AI应用,背后都在应用知识图谱技术,目前这些场景最典型:
1、资讯。
资讯行业正在迎来一场大变革——内容创作进入自媒体时代,内容分发信息流日益流行,而信息流的基础就是个性化推荐技术。要做好个性化推荐技术只需做好两点:一个是理解用户的阅读兴趣;另一个是理解资讯内容。然而两点要做到都不容易,理解用户的前提是足够多的用户兴趣数据,理解内容的前提则是知识图谱,平台必须要有一定的“认知”才知道不同内容意味着什么,适合哪些兴趣的用户,而不是简单的关键词匹配。
举个例子,一个文章内容是马云最新演讲解读,是将其推荐给电商行业人士,还是希望获得成功的年轻人,还是李彦宏等企业家们?每个人都可能感兴趣,如何推荐就要结合对内容的认知,以及对用户兴趣以及当前场景的理解,知识图谱就派上用场了。特别是在视频领域,要理解内容不是靠文字识别,而是要靠机器视觉技术,对内容本身的理解难度更高,知识图谱更重要。
现在,今日头条、百度、一点资讯、搜狐、网易、企鹅、UC、微博等等都在做信息流。百度世界大会上宣布百度信息流月活超过6亿,相比去年5月刚推出时日均阅读量提升105倍,短视频日均播放量提升169倍,这个成果,与知识图谱的优势密不可分。
2、泛娱乐。
看上去,娱乐与人工智能八竿子打不着关系,更与知识图谱没什么瓜葛。实则不然,传统娱乐或许确实不需要什么信息技术,然而新娱乐时代,技术重要性与日俱增。今年百度世界大会上,爱奇艺CEO龚宇的演讲是让人印象十分深刻的环节,彻底颠覆了许多人对娱乐的认知。
爱奇艺通过自制内容战略取得突破,推动其会员模式成功,将于2018年IPO。很少人知道的是爱奇艺一直很强调对技术的应用,创作、制造、宣发、营销、预测等等环节都应用AI技术。比如基于机器学习的多时间窗口预测电影票房,提前半年方差准确率高达77%;比如《中国有嘻哈》这个小众音乐节目的成功,也得益于爱奇艺对年轻受众用户画像再采取针对性措施;再比如爱奇艺可以基于娱乐知识图谱来预测哪个艺人会成为下一个黑马。
早在2015年,爱奇艺就建立了“视频深度学习产学联合实验室”,计划通过可视计算、机器学习、大数据挖掘算法和自然语义分析,挖掘人与视频间的多维关系,构建视频知识图谱和视频推荐系统,提升爱奇艺智能推荐和流量、票房预测精度。百度正在输出AI能力,相信爱奇艺会与大股东百度有更深层次的合作,特别是视频知识图谱领域,爱奇艺将是一个绝佳场景。
3、金融。
金融是百度最先商用的AI场景,正如李彦宏所说:“金融的数据化本质,加上业务规则清晰,使它成为人工智能最佳的应用场景。”金融的知识相对垂直,因此也非常适合与知识图谱技术结合。我记得2015年,百度就已将知识图谱应用在股票领域,旗下产品股市通通过数据、信息与股票的关系,以及股票与股票之间的关系,在股票领域首创知识图谱,实现智能选股。不只是百度金融在应用知识图谱,整个金融行业都在将知识图谱应用在个人征信、贷款风控、保险销售、保险策划、金融指数、反欺诈、客户管理管理、智能客服等领域,出现了不少提供金融AI技术或者是金融知识图谱服务的创业公司,百度金融也在积极地推进智能金融科技的开放,包括金融知识图谱的开放。
4、手机。
智能手机2017年最大卖点是全面屏,同时还有一个亮点是AI——iPhone X、华为Mate 10等等旗舰机都有不少AI元素。怎样的手机称得上真正的AI手机?关键在于智能化功能和智能化能力。智能化功能上除了像FaceID这样可以识人外,还要有比Siri更聪明的助理,真正意义上成为用户的个人助理,给用户做决策,这离不开知识图谱技术。智能化能力上就是要在芯片、系统、云端形成AI能力,可以越用越快、安全等等,要实现这些能力需要手机领域的知识图谱。
可以说,智能手机要AI化离不开信息/服务知识图谱和手机知识图谱。不过,AI技术、云服务以及知识图谱技术都是互联网巨头擅长的事情,是多数手机公司的短板。怎么办?最近百度与小米就AI达成深度合作,联系到此前DuerOS与HTC、vivo等合作来看,百度未来很可能会给手机公司提供知识图谱技术助力智能手机真正“智能”起来。
知识图谱的应用场景远远不止这些,它是AI的基石,理论上来说每一个AI场景都是知识图谱的场景,而AI将改变各行各业,其应用场景之广泛可想而知了。截至目前,百度知识图谱已经应用到几十个领域,百度知识图谱技术奠基人王海峰曾在一次演讲中表示:“人工智能与传统产业融合的过程中,要想为这个行业提供更好的服务,就需要对这个行业进行定制化,要有行业知识,这时候就需要在通用知识图谱的基础上,有相应的行业知识图谱,进而帮助这个行业提升生产力,帮助这些行业、产业升级。”从这段话可以看出,百度知识图谱也会开放给更多行业,让各行各业吃上知识图谱。