首页

智能语音融合通信

商汤科技CEO徐立：让AI产业化落地，还要靠这双轮驱动？

2018-01-30 10:35:20 来源：搜狐科技热度:

目前，人工智能浪潮的兴起与很多科学家创业有很大关系，从某种意义上，这是一种科学产业。但这只是最近几年才发生的。

在我读书的时候，有一个段子：我们要去读博士，很多海外名校教授说，其实读博士不是一个致富的路径，一般是有钱了再去读博士、做科学家，与做科学家是为了有钱，这两个逻辑是反的。

还有一个事实是，在中世纪，基本上只有贵族才能做真正的科学研究，因为科学和产业之间的矛盾和冲突非常大，它们是两个截然不同的点。

我们定义了科学家：认真做科学研究，专注于技术、基础理论的突破。

从100 年前到现在，很多时候，很多理论得到了创新和发展，但是真正意义上能够和产业结合的很少，我们大家耳熟能详各种各样的科学家，但科学真正意义上的成功，都与最后的产业落地相距较远，产业关注什么事情？

关注真正的盈利能力、标准化、快速变现、解决方案……真正的产业，实际上来自于市场的需求。

所以，科学和产业还是背道而驰的，完全不一样的概念。但现在这个阶段，这两条线似乎走到了交叉路口。那么，到底什么事情使得科学和产业能够交汇在一起？

我觉得很关键的一点是，科学和产业的交汇点是双轮驱动的。

一、双轮驱动科学与产业交汇

什么是双轮驱动？

第一，技术突破是增量性的。

通常情况下，技术核心突破来得快一点，而科学发展会有几年是平稳的，也就是说，理论研究非常重要，但是未必能够真正被应用到我们认为的、认知的商业上去。

而科技有时是跳跃式发展的，它不是直线性、增量性的。

比如说，人工智能的这一轮突破，从某种意义上，就是把传统的人工指导的智能，转化成纯数据驱动的智能，包括我们现在耳熟能详的深度学习、基于深度学习的纯数据驱动方法在内，都是颠覆式的变化，而不是一个增量式的变化。

也只有在这种状态下，才能够带来完全不同的新生产力。

第二，产业需要具备怎样的条件？

刚才我举例说，目前的人工智能是颠覆式的科技发展，其实这样颠覆性的发展在历史上也发生过，比如一些新材料、新能源的发现，但是它们在真正意义上未必等价于能进行产业变现与变化。

例如钨丝，发现很久了，但真正被用到灯泡里作为一个灯，需要从现实的场景倒推到材料的突破和材料的革命，这是一个非常重要的点。（笔记书堂推荐《我们如何走到今天·重塑世界的6项创新》，书中集中讲述了科技发明史中成功变化为产业的6项发明。文末有售。）

那么，从产业界角度，到底什么是重要的呢？

二、科技的产业现状与发展

从产业的角度，在于产业的需求是否在真正意义上到达了爆发的临界点，也就是大众是否已经被足够好的教育过了，这个科学技术是否已经可以普罗大众。

因为，科技进步能够带来的是颠覆式的劳动力、生产力；同时，如果市场被教育了，能够带来的是被大家认知的需求。

有了这两样要素，我们就觉得科学技术的推进与产业的变化能够合在一起了，可以引领人类进步、改变人类生活。

商汤科技关注的是计算机视觉、人工智能眼睛的部分。我们希望能够帮人看清、看懂这个世界，从这个角度来讲，科学家到底在做什么？

未来，科学家的延展方向很大程度上在于感知层面。

我们能否知道、看清核心与本质，在于是否有更好的感知能力，而感知的能力不仅可以从硬件的角度突破，算法、理论，以及背后的支撑都可以带来突破感知能力核心的机会。

从之前到现在，大部分的感受器处理的都是可见光，这一两年，感受器在视觉领域已经从可见光转到了不可见光，我们可以有 UV 摄像头，可以有远红外、近红外摄像头，甚至还有各种热敏摄像头，打开了一个完全不一样的应用范畴。

举个例子：

iPhone X 支持人脸解锁或支付，就是感知能力从可见光转到近红外的体现。

在近红外的情况下，我们可以做到更好地识别真人、更好地验证，所以给真正的支付，也就是打通线上线下场景起到了保驾护航作用。

我们还可以看到，现在路面上的摄像头也很多，很多人认为到了晚上摄像头就看不到了，实际上摄像头的感知能力已经达到了星光级，甚至是极光级了，也就是在非常黑的情况下都可以有非常完美的成像。

地上的摄像头如此，天上的摄像头也是如此（此处指遥感相关设备）。

商汤科技一直认为，目前来看，行业发展空间最大的是地面摄像头的应用，但是未来，天上的摄像头越来越多的情况下，大家都会面临同样的处理数据问题，所以遥感成像很早就用了超能力的超感知。

遥感影像可以有各种不同光谱，可以检测云、雪，区分地块，可以对不同的区域进行不同的处理，把不同景别的数据进行连接和拼接。

所以，这是在可见光范畴之内的延伸，科技进步令我们在基础的感知能力上有了核心的提升。

另外，人感知场景是 3D 立体的，而图片永远是 2D 的，在这方面，从 2D 到 2.5D 到 3D 的延伸给我们的应用带来了非常不一样的变化。

我们一直认为这样对场景进行感知带来的是新的交互能力，而交互能力的改变一直是互联网革命的开始。

大家是否记得 iPhone 手机刚出滑动式交互的时候有一款非常火爆的游戏叫《愤怒的小鸟》？它火爆是因为它设计的理念非常吻合手机的人机交互的模式。

所以当我们的感知系统可以更好地感知 3D，可以把 3D 场景中的物体更好地呈现出来的时候，下一个新交互模式就有可能产生了，就是基于新的 3D 感知以及 AR/VR/MR 等技术的。

试想一下，如果未来利用单个摄像头的手机，就能给大家带来不一样的 3D 体验，那么2018 、2019 年一定会产生越来越多的基于与现实更完整融合的游戏场景、社交场景。所以，科学家做的是感知能力提升的概念。

三、科学家做大数据的先天不足

从理论基础来说，我们发现科学家做大数据驱动人工智能的时候有很多先天性不足，目前来看，缺少可解的事情。

如果说以前是由人指导的智能，就是我们用大数据做统计学习，会在统计学习的过程中加很多先验知识。

例如，我们认为在座的人的年龄分布是均匀分布的，或者是正态分布，这个分布情况是人为加的先验。在某种意义上，先验对于预测是有很大的指导作用的。

但是，当数据越来越大，人不对这个数据做先验假设了，所有的规律都要智能从数据中自己学出来，这种情况会带来一个问题，产生一个很大的缺陷：缺少可解释性。

所以，在大数据角度，我们真正意义上要解决的问题之一是，我们可能需要对数据、机器认知的内容给出更多的标注，也就是一些正确答案，但并不是所有的事物都有正确答案，所以我们还缺少用于监督的信息。

举例：

A 正向学习

在一些特定的场景下，如我们遇到过一个医疗场景的需要，一个医院研究所有两个国家级的老专家，能够通过片子看出早期疾病，老专家希望把知识传授给电脑，他们问我们能不能做这样的事。

机器目前能做的是做一些定义非常清晰的概念，这是不是早期的某种病患事情本身是定义非常清晰的，可惜的是样本数太少。

要做这样的训练通常需要一百万的数据。香港医生一天阅片不能超过 8 张（超过 8 张称之为疲劳阅片，是要上报的）。如果按照老专家一天读 10 张的进度，要 300 年-500 年的诊断才能够提供足够的数据，这件事情在各种意义上难度非凡。

在这种缺乏样本的学习方面，目前的科学家正在顺着理论基础往上查，把原来的问题转化成新的研究问题，譬如说多模态、多任务的学习，弱监督、无监督的学习，甚至是做在没有样本的情况下迁移样本、生成样本的学习。

B 逆向打通

我可以通过增强学习来帮助我们打通。例如我们现在已经可以用一句描述形成一张照片：小鸟有白色的胸部、浅灰色的头部和黑色的翅膀和尾巴。机器生成了一张照片，也就是说世界上不存在这只鸟。

这就说明，我们已经可以逆向打通这个环节：从文本描述生成样本数据、样本案例。

继续推演，如果能够用文本生成图片，是不是也可以用文本生成视频？导演可能就不用干活了，因为写一个剧本就能生成视频。科学就是把一些原本觉得不可能的事情渐渐变为可能。

大家看到这样的技术后，说不定可以不要轻信朋友圈转发的内容了，因为万事都有可能。

但是，这些科学技术的突破，从感知能力、理论基础的提升角度来说，还与真正的产业有很长的距离。

四、产业界在做哪些事情？

产业的 AI 突破，首先就是“云+端”模式打通：云端就是服务器、计算能力的提升，而端就是从各种设备端，有越来越强的计算能力。

为了迎接 AI 技术的突破，其实有越来越多的设备已经准备好了智能，或者被智能化，目前就看有没有合适的算法放到我的车里、机器人里、手机里……甚至其他各种各样的手持设备上，这个是产业正在发生的有趣的变化。

从我们现在来看，AI 技术应用趋势是多场景、多维联动，全栈式的创新能力，从底层的算法到中间各式各样的技术模块，再到上面提过的核心的应用。

这部分核心应用，在真正意义上，与产业的真实需求，仍然不一样。

我们跟很多企业打过交道，企业说，“我们需要被 AI 化”。

企业还说，为了这个命题，我们找到了一堆问题，我们的人都做不好，是不是可以用 AI 的方法来调整？

我想说，不可能，很难做到。

五、产业界在做哪些事情？

刚才我讲，当一个问题的定义、输入、输出都清晰，并且有人来打通这个流程的时候，用 AI 来替换这些能力，是会比较自然的。

所以 AI 做的事情只是在应用场景当中去提升生产效率。这个事情是能做的，但是如果在人都不知道这件事情该怎么做的情况下，要让 AI 帮助你梳理、归纳、演绎，是非常艰难的。

所以我们需要能够把真实的需求梳理清楚，带到这个行业来。

要做到产业、科学的融合，我觉得有两大块外部要素：

要素一：外部的温度环境。

要素二：工业化角度的“三化”。

首先，外部管理会起非常好的加速、催化作用。

从全球范围看，中国是有史以来第一个从国家层面推动 AI 发展的国家，欧洲、美国大部分国家只是建议去做，但中国是全国推进的。

政策加温、一些白皮书的制订往往会从全民、全国的意义上帮助产业落地。

第二，资本增压。我们看到，在现阶段，资本对于人工智能、技术的拥抱使得这个产业从原始技术核心突破，到工业落地的整个链条都缩短了很多。

第三点，也是很关键的一点，就是资源齐备。

目前来看，计算能力已经达到了一定程度；计算的资源，以及基于的平台、对一些操作系统的研究等，都已经达到了一个点。综上所述，中国的外部环境已经可以让科学向产业进行很好的转化。

从产业本身角度，要做到产业、科学的融合，还需要三个“化”：

第一，技术产品化。

没有AI 企业会真正通过卖技术来变现，这非常难。一个核心技术的突破，就像无中生有一样，所以对它进行商业变现的时候一定要有相应的产品来做载体，这个就是现在大部分企业正在逐步完成的技术产品化进程。

第二，落地规模化。

如果我们要令一个技术形成足够大的、真正意义上影响力，就需要它有规模化能力。

在一个城市、两个城市覆盖没有什么用，我们需要的是快速增长的能力，或者说，如果这些技术能够被标准化地嵌入到某种产品中，那么它的推广就会变得非常成功。

现在，大家使用的很多设备已经搭载了非常多的 AI，比如，现在一些普通的手机摄像头就能够实现单反相机的虚实变化，其实就是 AI 技术落地到手机产品中的集中体现。

第三，场景多元化。

目前，AI 在哪个行业上最能形成行业的急剧变化，并不是很清晰，所以，场景多元化是可以把各个技术端融合，形成好的新技术的方式。

目前的情况有点像第一次工业革命的时候，技术突破了、有很好的蒸汽机，但是如果没有多元化的场景应用，技术距离变现、推进产业革命还是有很长的距离。

当时的应用是：

可以做大规模的工业制造
可以做农业的收割、灌溉
可以做铁路、交通
当时世界上市值大的企业都是做铁路做运输的。

我们目前在公共服务、个人应用，到整个社会管理方面都会有变化。所以从这个角度来看，技术的场景多元化将是这波 AI 落地的核心要素之一。

首先，AI 和个人应用会给大家带来非常多的娱乐化过程。譬如说个人手机相册管理，现在大家拍的照片，已经可以根据人来进行管理，可以将自己的照片、我的朋友、我的小孩，我的家人分成不同的组。

未来，机器将可以根据年龄、亲密程度等更多维度和标签进行切分和梳理。

第二，AI 还可以具有更多的创造元素，例如可以在视频中模拟各种各样的艺术效果，甚至学习梵高、莫奈。

前段时间看到有人模仿齐白石画的虾，我觉得不用模仿了，你可以拍一张真的虾，通过一个算法让照片立刻变成齐白石的风格。

第三，AI 与社会治理还可以深度结合。

现在的极端，整个社会治理方面还没有全盘使用技术，但如果我们从衣、食、住、行的各个方面，甚至从地面到天空的每个角度，都用算法来进行演练和演化的话，就可以做出一个整体化的规划。

比如在出行领域，一方面，车内的 AI 可以帮助无人驾驶、避障、更好地提供导航的服务；另一方面；利用天上的 AI，实时感知地面的情况，可以对道路进行很好的规划，使天和地的连接达到更好的协同作用。

所以，技术突破和场景完全可以有一个很大程度的连接。在不远的未来，很多事情都可能有更好的变化。

六、终极的 AI 是什么？

不是产品，而是公共服务，因为 AI 能到千人千面。AI在未来会做到根据每个人的不同状态给出真正意义上的定制化服务。

最后，我想说，AI 真的可以把每个人的生活变得更好，但科学和产业中间会有很长的路来连接， AI 的落地是一场耐力赛。目前来看，我们处在一个非常好的时代，因为环境正催化连接加速。谢谢大家！

下一篇：DFKI与IAV启用联合研发实验室将AI用于汽车研发上一篇：康佳A1系列人工智能电视来袭，开启智慧家居物联

责任编辑：周帅洁

双轮驱动徐立