“这就像我们在淘宝上买东西,看到的都是卖家秀,拿到手的却是买家秀。这其中最大的差别,就是光线环境的问题。”
“图像识别的卖家秀和买家秀之间,永远隔着一盏灯光的距离。”眼擎科技(Eyemore)创始人&CEO朱继志日前在IF创新大会2018上发布全球首款AI成像芯片时说,“我们经常看到在各种图像识别比赛中,图像识别率很高。但在实际场景中,比如人脸识别,却没有任何一家厂商敢提供识别率数据,因为现场问题实在太多了。” 20180125-eyemore-3眼擎科技(Eyemore)创始人&CEO朱继志
下图是朱继志在发布会现场分享的一张PPT。左边,是《花花公子》杂志御用模特Leina一张裸照的一部分。这张照片细节丰富、层次分明、边缘清晰,三十年来所有和图像算法相关的图片,都拿它来做标准;但实际在现场拍到的图片,却往往是右边的模样,根本无法识别。
20180125-eyemore-1“图像识别的卖家秀和买家秀之间,永远隔着一盏灯光的距离。”
“这就像我们在淘宝上买东西,看到的都是卖家秀,拿到手的却是买家秀。这其中最大的差别,就是光线环境的问题。”朱继志说,给美女拍照片,会设置很多灯光。然而现实生活中的光线环境是不可控的,遇到弱光、逆光、反光情况时,成像效果就很差,AI算法无法识别。
给人看的像素时代终结,给机器看的视觉时代开启
要解决卖家秀和买家秀的问题,就要靠视觉器官的进化,把视觉放在一个系统整体来看。首先是眼睛,在前端负责感知,产生图像;然后是大脑,在后端负责认知,它分析图像视觉;此外,还有第三部分—大脑如何控制眼睛,也就是双方怎样进行智能的交互?只有大脑、眼睛、脑眼交互这三部分都智能化了,才能说机器视觉是智能的。这也代表了人工智能在产业里发展的三个阶段:大脑的进化、器官的进化、大脑和器官交互方式的进化。 20180125-eyemore-2视觉的三种智能
要了解眼睛这个成像器官的进化,就要先回顾一下成像技术的历史。成像技术从30年代美国的胶卷时代开始,代表厂商是柯达;80年代进入数码时代,产业转移到了日本,今天看到的所有的数码照片,都是源自80年代日本的成像架构,包括索尼、尼康、佳能等公司。然而到了AI时代,行业对图像的需求可能会发生本质的变化:图像不再是给人看的,而是要给机器看。
给人看的时候,关注的自然是像素,喜欢自拍的姑娘,一定会关心手机前后摄像头是多少像素。然而当大家开始用iPhone X刷脸的时候,似乎又没有多少人关心摄像头的像素问题。因为常识告诉我们,人眼看世界的时候,是没有像素概念的。
人眼是人类长期进化的结果,最强大之处在于对环境的适应能力。正常情况下,看哪里都是清楚的,颜色都是对的,不存在卖家秀和买家秀的问题。相比之下,机器和人眼最大的差距,就是适应性太差,而要解决适应环境的问题,机器能用的资源只有三种:算力、算法和数据。
为了解决各种复杂光线问题导致的问题,眼擎科技使用了各种新型的算法,计算复杂度是数码成像的50倍以上,通过对大量场景数据的测试,使得成像引擎能够像人类眼睛一样自动的适应各种环境,消除各种光线环境的影响,输出稳定的视觉图像。
从IoE到VoE,新的千亿级市场诞生
视觉技术分为两种:成像(imaging)和图像处理(image processing)。前端成像技术负责生成视觉图像,后端图像处理负责分析、识别、处理视觉图像。换句话说,成像相当于人的眼睛,图像处理相当于人的大脑。
目前人工智能领域的明星公司,包括商汤、旷世、地平线、云从、依图、深鉴等,都是基于图像处理算法为核心技术的独角兽公司。在过去的三年里,受深度学习技术的驱动,图像处理获得了飞速的发展,但前端的成像技术,仍然停留在二十年前的水平,成为AI视觉未来发展以及商业应用落地的严重的瓶颈,也是当前各大AI公司的下一个必争之地。
“AI将带动成像技术和产业从像素到视觉的一次大的变革和颠覆。中国是AI视觉产业落地最快的地方,我相信,这个新的成像技术的第三个阶段,会由中国主导。”朱继志说。
和数码时代相比,AI时代的成像在成像架构、算法模型、评判标准、光线适应性等诸多关键环节都发生了本质上的变化,传统的数码成像技术架构已不能满足AI视觉的需求,面临迅速被淘汰的窘境。未来五年,成像技术将有望完成从“图像”到“视觉”的划时代升级,视觉成像芯片和AI处理芯片一样,成为人工智能的核心部件,由此衍生的产业升级需求,将在未来五年催生出成像领域千亿级别的新增量市场。 20180125-eyemore-3从IoE到VoE,新的千亿级市场诞生
给机器配置视觉中枢
算力、算法和数据集成到一起成为产品,就是一颗芯片,比如眼擎科技此番推出的全球首款AI视觉专用成像芯片Eyemore X42。这颗芯片采用了全新的成像引擎架构,集成了超过20种的新型成像算法,感光度最高可以达到40万,单次曝光动态范围可以超过16bit,最大功耗在1.5W以内。 20180125-eyemore-4全球首款AI视觉专用成像芯片Eyemore X42
完全自主研发的eyeMix、eyeNoise等核心成像算法构成了X42的基础。它抛弃了传统的日系全局成像架构,转而采用分区域、分层的Eyemore成像引擎架构,解决了视觉成像中存在的弱光、逆光、反光等痛点。 20180125-eyemore-5Eyemore成像引擎
“做成像芯片其实是一件很苦逼的事情。眼擎科技成立四年了,很多人都在问我这期间做了什么?我只能苦笑着说我们在调试图像,在调试图像,在不停的调试图像。因为成像是一个主观性比较强的事情,我们测试了500+以上的场景,前后耗时四年,才打磨完成了这款全球首个面向AI视觉应用领域推出的成像芯片。”看得出来,朱继志在回忆往事时也是不胜唏嘘。
Eyemore X42的使命只有一个,那就是成像,就是要使成像引擎在各种复杂光线环境下,能排除现场光线的干扰,给AI视觉算法输出稳定可靠的高品质视觉图像,尤其是在微弱光线下超越人眼的视觉成像能力,帮助众多AI公司客户解锁更加丰富的应用场景。而为了提高芯片的成像性能,研发人员甚至将标准的视频压缩功能全部去掉。朱继志对《电子工程专辑》表示,这就好比Intel的CPU虽然集成了显卡功能,但Nvidia的专用GPU一定是未来的主流。
未来是个软件定义硬件的世界,朱继志对此也深信不疑。所以,在X42的芯片架构中,所有的底层成像功能与各种算法都是可以被调用的。与传统成像产品的“黑盒”属性不一样,X42芯片是一个“白盒”,可以提供完整的开发工具,支持各种平台(包括Windows、Linux、Android、iOS)的开发接口API。这样做的目的,也是希望让所有的视觉算法工程师不必懂任何硬件,就能够精确的掌控成像效果,从而提升AI视觉分析算法的效率和准确性。
三年完成500家公司的Design-in
然而,一颗全新的芯片出来,谁会相信你?谁敢用?怎么用?
在创立眼擎科技之前,朱继志在国内最大的芯片分销公司工作了八年,负责推广各种类型的芯片。他深知芯片行业通行的规则,是要客户在使用一颗全新的芯片之前,必须准备好一系列的方案。首先是要有开发工具套件,让客户可以先学习调研;当项目明确之后,要有产品模组,帮助客户快速产品化;当产品销售上了批量,被完全验证之后,才会直接使用芯片;如果量再大,还需要提供IP授权;如果客户有特殊的要求,还需要提供深度定制。这套完整的流程,就是传说中的Design-in。目前,眼擎科技AI视觉产品生命周期全栈式成像解决方案已经准备就绪,所有客户即刻就可以开始使用。 20180125-eyemore-7眼擎科技AI视觉产品生命周期全栈式成像解决方案
众所周知,芯片行业有属于自己的固定周期。做一颗原创芯片,从技术开发,到市场大规模成熟应用,一般需要接近七年的时间,也就是“3+2+2”模式:三年开发,两年推广,两年成熟。按照这一规律,成立于2014年的眼擎科技在经历了3年开发期后,2018年将开始进入规模推广期。 20180125-eyemore-8芯片开发的“3+2+2”模式
在朱继志为公司规划的三年市场战略中,眼擎科技将重点布局四个市场应用方向:1、自动驾驶的视觉成像;2、智能手机的AI成像;3、基于人脸识别的高端智能安防;4、包括军工和医疗在内的工业视觉成像。到2020年底,眼擎科技通过完成超过500家的AI视觉客户的design-in,占领50%以上的AI视觉成像市场,成为新兴的AI视觉成像技术的全球领导者。同时,眼擎科技将围绕视觉成像技术,建立完整的成像生态,与AI视觉产业链的各个环节合作,包括共建实验室、战略合作、联合开发、技术授权等多种方式,共同推进AI视觉的发展,为下一个阶段将“Eyemore Inside”推向千亿级数量的视觉应用奠定基础。
“3D结构光电商扫描仪产品”是朱继志在现场分享的一个实际案例。一家做“深度相机”的厂商此前在为电商扫描商品的3D模型时使用了两个成像模组,一个拍结构光,一个拍彩色画面。而在采用眼擎科技的分时复用方案之后,仅仅用一个成像模组就解决了问题。然后,再通过交互接口API大幅提升了AI视觉算法的效率和准确率,这在以前是不可想象的。 20180125-eyemore-9Eyemore成像引擎应用案例
关于AI、视觉与芯片一些思考
● 第三种智能
所谓的“第三种智能”,其实是指AI与视觉的关系。AI做的是大脑,成像做的是眼睛。这里就存在一个问题:大脑该如何控制眼睛?传统的技术方法是定义一个通信控制接口,但在视觉应用中这种做法会非常复杂。比如,人眼有一个特点,就是“定睛一看”。通俗而言,就是人眼的成像是非常聚焦的,只看到关注的东西,其他都是模糊的。当AI算法解决了“要看什么”的问题后,前端成像就有了目标,可以把所有的资源都调配到关注的对象上,做到“指哪打哪”。这种根据AI的需求来成像,能解决很多以前解决不了的问题。从半年前开始,眼擎科技将大脑和眼睛的交互接口的开发当作重点来突破,也希望能跟更多的AI算法公司合作,共同推进大脑和眼睛交互的“第三种智能”。
● 从一家独大到三国鼎立
朱继志表示,以前,主流的处理器都集成了图像功能,包括成像和图像处理,但位置很不重要,这是Intel模式;现在,视觉处理成了核心,以前被集成的视觉部分会被分拆出来单独成为一颗芯片,这是Nvidia模式,其他的AI芯片也都是这个思路。同样的,集成的成像功能处理能力也不够,也会被从SoC处理器中独立出来,这就是Eyemore成像芯片正在做的事情。俗话说,“天下事,分久必合,合久必分”,以前芯片行业是CPU一家独大,现在因为视觉的原因,变成三分天下了。也就是说,视觉影响了芯片的行业格局。 20180125-eyemore-10AI时代,芯片行业将从一家独大变为三国鼎立
● 去中心化的AI视觉产品产业链
区块链是最近极火的概念,其核心思想就是去中心化。同样的,在AI产业链中,也在上演去中心化的过程。朱继志指出,传统的硬件产品中,最核心的是CPU处理器,操作系统运行在CPU上,谁掌握了这个入口,谁就成了中心,比如Intel、高通、MTK这些芯片都是中心。但在AI产品里,AI算法和数据运行在包括GPU在内的AI大脑芯片上,CPU将不再是中心。
在中心化时代里,CPU会不断集成各种功能,最终成为turn-key的SoC模式。当芯片集成了所有功能之后,所做的产品就会变得毫无差异化,最后比拼的只剩制造能力和销售能力。而在AI时代,即便用同样的芯片,不同的产品也会因为不同的算法和数据,产生极大的差异性和更大的市场价值,这就是在芯片去中心化后对AI产品产生的最大价值。 20180125-eyemore-11去中心化的AI视觉产品产业链