图为:广播科学研究院无线所邸娜
一、关于水印
数字水印不是密码技术,也是起源于古老的艺术,就是密写术,很早的斯巴达人就把木板刻在木板上,只要用火把蜡烤化了就可以看到字,起到了加密解密的角色,今天也有很多密写术,有很多功能强大的试纸,一沾水就数字,因此数字水印就衍生在了密写术思想的基础上,再加上现在数字技术特别地兴盛,所以产生了现在的水印技术。
二、数字水印的划分
第一是按载体划分,最常见的载体是视频、图片、文本跟音频,但是对于视频跟图片为载体的水印,它的特点是人的视觉的特性,对这个水印的嵌入并不敏感,而且它的嵌入量很大,但是它的算法是比较复杂的,对于音频水印来讲,人耳的敏感度要很高,对一些噪音的敏感度,要比对视频像素的破坏要高。所以对水印的嵌入来讲难度更大,他的算法虽然是很简单的,但是它的嵌入的方法要比其他的大很多。
第二是按水印的特性来划分,划分成鲁棒水印跟脆弱水印。鲁棒水印可以标定一些特殊的信息不易被篡改,脆弱水印容易被篡改,这种水印用于防盗版和电视中的放插播。
第三是按内容划分,可以分为有意义水印和无意义水印。所谓有意义的水印即自身是某一图像的编码,无意义的水印如果赋予编码也就变成有意义水印了,现在音频的带宽只有20K+,很窄,限制了水印的嵌入量,而且在做互动的时候,它的作用就是通过音频来打通手机跟台内的一些互联互通的作用。所以对于从使用角度上来讲,无意义水印就足矣了。
三、音频水印的定义及特性
音频水印的定义就是以音频为载体的密写术,把不可见的标记隐藏在音频中,只有通过专用的检测器和识别技术才能提取出来。音频水印有一个特点,任何算法,根据人耳的心理特征模型去嵌入的理论上都是有损的,而且这个水印潜入的鲁棒性越好,音质影响就越大,鲁棒性差了,它的检测率就差了。
音频水印的特点之一:受不同类型音频的影响比较大。比如说音乐类的音频,水印的隐藏性就很好。但是大量的实验后我们就发现,实际上隐藏得深不见得好检,反而访谈类节目水印是很容易检出的。水印对音频是一种干扰,反过来讲音频对水印也是一种干扰,对水印做不同的处理,音乐类的频度比较深、比较多,就可以做全频带的嵌入,加大功率。对待背景音比较干净的对话,其音频的能量本来就在10K以下,在10K以上就会衰减到负90dbfs,这时候就要把水印加在10K以上的位置。
音频水印的特点之二:准确率很高,识别速度比较快,这个是由序列的相关特性决定的。而且音频水印的唯一性强,尾随级序列的空间本来是正焦的,通俗一点就是互不相干,因此这种唯一性可以给我们互动的节目直接挂钩。这种水印算法在成本上很低,一台电脑就可以实现各种水印的算法和应用,最原始的应用是防盗版,现在则把主要的热点都集中在电台和电视台的互动当中。
四、音频特征识别的问题
(一)直播的时候用户采集上传的水印特征,在服务器上做匹配计算的时候,服务器本身也要从直播流中提取特征,它也在计算。而且匹配的精度跟采集的时间有关,所以采集时间上必须有个阈值,满足这个时间他才能进行匹配计算,这就是为什么用微信摇电视的时候,大概要10秒左右的时间。而且在录播的时候,它就跟图像特征识别的方式一样,前期也要做大量的提取的工作。
(二)噪音问题。如果微信在摇电视的时候,有噪音混进去,比如说尖叫声、哭闹声,都有影响,这就是为什么有时候摇不到电视。
(三)用户移动终端访问互动接口,这也是电台和电视台的无奈。
五、在音频水印领域的有益尝试
第一是可以在车载广播中进行互动。2016年在廊坊电台跟保定电台做过车载水印互动的试验,其中在电台的主播间加了水印,在车厢内和高速、低速共同做了实验,因为不同车里头喇嘛的位置不一样,声音的传播特性也是不一样的,车厢相对比较复辟,用户和喇叭的距离比较近,这个对水印鲁棒性有一个很大的挑战,开车时外面传来的噪音,还有调频信号接收的质量,都用了不同的手机终端做了实验,除了驾驶员的位置上没有机会做实验,其他位置都能顺利完成。
第二是在电视中互动的场景。因为声音是从电视机的喇叭里播出来的,在空气传输过程中会出现墙面跟家居的反射抵消、扩散,麦克在采集声音的时候,性价比比较低。声场跟互动的户型是有关系的,狭长的客厅就声音就衰落得快,对于声音直射的客厅声音衰落得没有那么快,得对音频各个频段都进行不同的处理,让它不挑弧形也不挑位置,在家里其他的房间也能检测出来。
第三个是在廊坊105台做了大量的广告监测的服务,一般从早上6点半开始,到晚上9点,大量的广告播出都在整点跟半点时段,广告播放连续量很大。音频水印可以给予广告监测开始时间、结束时间、播放次数,并且把这个广告自动地截取下来。在整个开发过程中,广播电视播出系统产业链上主要的系统集成商都有密切合作,积累了很多开发经验。