人工智能赋能监控行业 但实用性还有待提高

2017-11-29 15:18:20 来源:中安网 热度:
随着安防行业的快速建设与发展,目前全国摄像机的总量已达到亿级规模,每天有海量的视频资源不断产生,公安机关办案需要对大量的视频录像进行观看研判。当前视频图像建设应用工作是构建立体化现代化社会治安防控体系的重要组成部分,也是深入推进“警务大数据”工程的重要抓手。人像识别作为视频图像应用的新方法新手段,在公安实战中具有重要价值。

  回顾过去十年来人工智能的发展,一切都是有意义的,不过最好的还没有到来。随着2018年的到来,还会有很多激动人心的进展出现,特别是在人工智能视频监控方面。迄今为止,人工智能的成就一直都是趣味性大于实用性。不过,时代在变化,人工智能除了在医疗和卫生领域取得了重大突破外,在安全行业也看到了积极的进展,尤其是视频监控领域的改善。

人工智能在视频监控中的多方面应用

人工智能克服人类的生理缺陷

监控操作人员的一个问题是注意力疲劳,大脑会自然地交替出现注意力集中和注意力分散。在监控过程中,注意力分散会导致严重的后果。而人工智能可以做到从不分心,与人类合作来杜绝这种错误的监控系统。

尽管视频监控技术可以录制视频,允许人们有需要的时候可以拿出来进行观察,但它永远无法告诉人类操作者,“嘿,这看起来不太对!”除了经常产生误报的运动检测,还没有任何功能可以积极弥补人脑的心理缺陷。

直到去年,机器视觉开发商Movidius和安全硬件制造商Hikvision宣布了合作意向以及开发一套配备深度神经网络的智能摄像机的打算——当坏事发生时,摄像头会提起注意,并提供实时警报。

出色的面部识别

犯罪行为发生后,为了找出肇事者,摄像机的镜头往往会被仔细审查。可惜的是,只有从屏幕上辨别出肇事者时,才能识别他们。一些高级人工智能软件希望能改变这一现状。

在犯罪发生之后,经常刻意审查相机镜头,以查明可能的犯罪人是谁。上海交大目前正在研究该类项目,在实验过程中,研究员使用了1856名男性的身份证照片,他们的年龄在18到55岁之间,其中一半的人有犯罪史。90%的照片用来训练这一AI算法,剩下的10%用来检验算法效果,结果十分惊人,这一系统的识别准确率高达89.5%。

在测试中,系统在100万幅面部图像的单独数据集中匹配同一人的两幅图像的准确率为75%。如果给予10次识别机会,准确率会提高到90%。

显然,面部识别系统有很多潜在的价值,可以与视频监控协同合作。它可以帮助执法人员在人群中发现个人面孔,这将有助于抓捕罪犯,甚至防止犯罪的发生。

实时应对犯罪

人们希望新型的人工智能监视系统能够实时监控犯罪行为。例如,Movidius系统可以发现无人看管的对象,实际应用在机场或火车站——摄像头可以识别无人看管的包,追踪遗落的时间并发出警告,让现场的安全人员检查可疑活动。

再比如,可以使一个经过训练的摄像系统,用于发现小偷在行窃前和行窃中的肢体语言和动作。当这些行为被识破后,安全团队就可以部署人员对这一情况进行检查。

虽然准确率高达90%,但依然无法进行现实应用

这项研究的意义其实不在于是否能识别罪犯,而是证明了面相和行动具有相关性。

其实有一种方式可以理解,面相和情绪相关,情绪容易激动的人面部都有相似的特征,而情绪容易激动的人也可能容易犯错,比如打人伤人之类的。

目前并没有论文显示,机器学习有没有把罪犯分类,是伤害罪还是高智商犯罪。小智君认为只有一两种罪是可能通过面相看出来的,比如上面提到的伤害罪,可能由情绪变化引起。其他的犯罪基本不大可能通过面相表现。

同时行动受情绪影响非常大。而每个人都有自己的情绪波动范围,这个是内在的,而且很有可能通过面部特征表现出来。经常激动的人脸部就容易形成某些特征,这跟经常锻炼的人身体容易形成某些特征一样。就像根据人体的体型肌肉判断哪些人是健身俱乐部的会员一样,是有一定道理的。

很多人认为基因决定面相,其实并不全如此,不考虑畸形脸(畸形脸也不在论文的识别范围),基因只能决定大体框架,人脸的面部脂肪、肌肉甚至骨骼在成长过程中都是可以微调的,而且调动范围不像想象中那么小。

上海交大研究里面提到的“罪犯与常人的的面部特征的三大不同”,一是罪犯上唇的弯曲程度比非罪犯要大23%,二是罪犯两只眼睛内角之间的距离比正常人短6%,三是罪犯从鼻尖到嘴角两条线的角度比非罪犯小20%。

其中比较重要的关注点:嘴——嘴唇和嘴角,而嘴算是人类面部表情最丰富、脂肪最多的地方之一,完全可以说和基因无关,单靠后天长期做某些表情就可以改变嘴的脂肪、肌肉分布。而眼睛距离虽然看起来锻炼不出来,不过差距只有6%,非常小,也是可以通过长期的微表情改变的,况且这么小的差距也不能用来识别什么,所以即便理论上已经已经达到90%,但用机器判断人脸表情这件事,本身就有待商议。小智君预测,未来监控系统将利用全国摄像头以及一些监听设备采集的视频和音频信息进行处理和分析,最终提前找出与即将发生的犯罪行为相关的人。利用图像识别,语音识别,语义分析,云计算,数据挖掘,多信息融合等等。

也可以简单的概括为:data-driven,即数据驱动。而其中能真正很快提高识别准确率的就是“多信息融合技术”,除了利用脸部特征信息,还可以利用声音特征信息,利用声音内容(比如电话交谈)等信息进行融合和判断。

人工智能在许多行业和领域都有很大的潜力,但很难忽视它在安全领域的变革。无论是用于商店监控,还是房主保护自己的财产,或是执法查明犯罪行为,其可用之处有更多。
 

责任编辑:吴礼得