在 2017 年 10 月的秋季发布会上,Google 发布了智能相机 Clips,它没有取景框和麦克风,只有摄像头和快门,使用机器学习来帮助用户抓拍精彩瞬间,所有一切都自动完成。这个其貌不扬的「小产品」实际上凝聚了 Google 在智能硬件上的巨大野心。
在那次发布会上,Google 提出了「AI+硬件+软件」的概念,而 Clips 正是这个理念下最具代表性的产品。1 月 27 日,Clips 终于上架 Google 商店,以 249 美元的价格出售。也许是为了配合上市,Google 以 Clips 为案例发表了一篇长文,阐述「以人为本」的设计理念,从中可以看到 Google 对 AI 应用的一些思考、坚持的原则和方法论。
以下内容根据 Google Design 发表的「The UX of AI」一文编译,内容有适当删减。
解决真正的人类需求
机器学习无法得知哪些问题需要被解决,如果不从人的需求出发,最终就会为了一个很小甚至是不存在的需求,去建立一个强大的系统。所以,AI 应该从人的需求出发。
在今年,人们将拍摄大约一万亿张照片,对于大多数人来讲,这意味着我们会有一个实际上不会再去翻看的电子相册。尤其是对于新生儿的父母,他们生活中的每个点滴都值得记录。在那些珍贵而又短暂的时刻,他们需要将注意力放在手机上,通过屏幕来看自己的孩子,而不是和孩子进行交流。
我们需要一个随时随地在线的摄影师在身边,捕捉那些珍贵但转瞬即逝的时刻,比如孩子的微笑,Clips 就是为此而生。
AI 需要人类的引导
机器学习是一个多学科的系统,根据数据自动分析出规律然后进行预测。模型的任务就是评判这些规律的重要性,尽可能保证准确。但需要注意的是,从建立模型、选择数据源到打标签,都会影响最终的结果,而这些都会受到人类判断的影响。所以,人类引导在机器学习中的作用不可忽视。
解决抓拍照片的问题,最紧迫的一点是:如果人们拍摄了大量照片,但其实并不想事后重新编辑、整理,那么该如何标记这些照片呢?这就需要一个理论上的「人类专家」来完成这个任务。这里的理论有两层含义:首先,如果人类无法完成这个任务,那么 AI 也不能。其次,通过研究人类专家的行为,我们可以知道如何进行数据收集、标记和建立机器学习模型。
通过不断的尝试,我们找到了一个纪录片制作人、一个摄影记者和一个艺术摄影师,利用他们的专业知识和经验,试图回答「哪些瞬间值得被记录」。
判断标准要统一
我们将景深、三分法则、灯光照明、构图、故事性等标准全部加入进去,让它在一个足够简化的框架下进行学习。
老师给出两个完全不同的例子时,学生会快速给出反馈,但算法不会。对于 Clips 来说,不光要让它学会哪些瞬间值得记录,还要知道忽略哪种类型的照片。
比如在抓拍时,忽略手指挡住镜头、快速晃动、模糊的照片,留下稳定、清晰、构图合适的照片,面部检测可以实现这一点
拍照的前提是彼此熟悉,用相机朝向某人时,他们会微笑或点头表示同意,有了智能相机,可以根据社交关系来判断你所要关注的人是谁,判断标准可以使这些人在你照片中出现的次数等,这样就避免抓拍到不相关的陌生人。
建立信任
Google 在 Clips 上投入精力的原因之一是想向全世界展示,将机器学习内置到设备中,并进行隐私保护的重要性。相机是个很私人的东西,我们一直在努力确保它的硬件、智能系统和内容都只属于用户自己,所以在 Clips 上增加了软件取景器和快门按钮。用户对于留下来的照片有最终决定权,我们会展示被挑选出的「精彩瞬间」,用户也可以自己选择视频的长短,或者删除哪些照片。
和传统的工具相比,机器学习系统无法避免 bug,所以「完美」是不可能的,甚至不能当成一个目标。因为用机器学习进行预测,本身就是一个模糊的技术。但也正是因为这种模糊性,我们可以设计出更强大、复杂的判别系统。Clips 能做的不仅是保存、删除、编辑,还根据用户、拍摄对象的状态不断变化,随时间不断学习。
在「以人为本」的理念下,我们可以释放机器学习更大的潜力,让机器变得更加智能,探索增强人类能力的方法。首先要牢记几点:寻找和解决人类的真正需求、维护人类的价值、增强人类的能力而不是将一切都自动化。
人工智能的作用不应该是替我们大海捞针,而是向我们展示它能清除多少海草,以便我们更容易找到针。