首页

OBD车联网T-BOX

【分析】人工智能在广电推荐系统中的应用

2017-03-30 14:47:37 来源：DVBCN 热度:

从1956年至今，60年过去，人工智能将迈向新阶段。人工智能也将改变整个广电行业，提升其价值。近日，广东省广播电视网络股份有限公司副总工程师徐江山详细分析了人工智能在广电推荐系统中的应用。

一、人工智能风起云涌，技术革命引领未来

1、CES 2017 , 人工智能引爆全球最火黑科技盛会

CES 2017 于1月5日-8日在美国拉斯维加斯举行，埃森哲技术总监认为：人工智能统治本年度的CES，变得无处不在。

AI可谓已经走上了一条极速发展的轨道。通过改变工作的本质，机器和人类之间产生了一种新的关系，埃森哲研究发现，AI技术可以在2035年把经济年增长率翻倍，并且把劳动效率提高40%。根据美银美林全球研究，美国AI和机器人市场预计到2020年达到1530亿美元，其中机器人830亿美元，AI 700亿美元。

2、什么是人工智能？人工智能为什么重要？

“人工智能（AI）”是达特茅斯大学助理教授John McCarthy在1956年发明的一个词，这个一般性术语是指展现出看似具有智能行为的硬件或者软件。用McCarthy教授的话来说，它是“制造智能机器、尤其是智能计算机程序的科学和工程。”

AI之所以重要是因为他解决了极其复杂的问题，例如人类福祉的重要领域——从健康、教育、商业、交通，乃至于公用事业和娱乐等等。

3、人工智能为什么在今天得以兴起？

AI研究始于1950年代，为什么会在现在出现拐点呢？最近几年AI的效率出现转变是因为有了新的算法、可用的数据量变得更大、用来训练它们的硬件变得更好，以及催化开发者采用它们的云计算服务。

把近似于大脑神经元功能的，人工的、基于软件的计算器连接到一起。它们组成了一个“神经网络”。

4、国际技术巨头全面布局人工智能

1）IBM

IBM在AI 领域无出其右，如80年代的专家系统、1997 年击败国际象棋冠军卡斯帕罗夫的深蓝计算机、2011 年在美国智力竞赛节目《危险边缘》中战胜其人类对手的沃森系统均出自 IBM。IBM在2014 年后在AI领域布局围绕沃森和类脑芯片展开，试图打造AI 生态系统。目前IBM已撤销全球业务咨询GBS和技术服务GTS等部门，并转型成认知解决方案和云平台公司。IBM未来十年战略核心是“智慧地球”计划， IBM 每年在其投入研发投资约在 30 亿美元以上，涵盖节能减排、食品安全、环保、交通、医疗、现代服务业、软件及服务、云计算、虚拟化等热点方向。

2）Google

谷歌 AI 途径为：从互联网、移动互联网等传统业务延伸到智能家居、自动驾驶、机器人等领域；积累底层人工智能技术，研发更高级的深度学习算法，增强图形识别和语音识别能力。谷歌试图将AI渗透到了旗下各产品，为用户带来更多使用场景、及更智能化功能。

谷歌无人驾驶汽车始于2009年，2011年为其收购510 Systems、 Anthony’sRobots等公司。目前无人驾驶行驶里程达180万英里，且成功发布了全球第一款完全能够自动驾驶的原型车“豆荚车”，并宣称到 2020年谷歌自动车将正式上市。

谷歌2014年1月耗资2.63亿美元收购DeepMind ，并于同年12月与牛津大学的两支AI研究队伍建立合作。 2015年2月，Deepmind 系统学会了 49 款雅达利经典游戏。2016年3月，由 Deepmind 研发AlphaGo 以 4:1 嘉绩击败世界围棋冠军李世石，激发全世界对人工智能的关注。

3）NVIDIA

与CPU相比，GPU 具有数以千计的计算核心，及强大、高效并行计算能力，可实现 10-100倍应用吞吐量，特别适用于AI 海量训练数据情形。目前深度学习解决方案几乎完全依赖NVIDIA GPU。根据艾瑞咨询，2020年全球AI 市场规模达1190 亿元，市场潜力巨大。据机构预测，硬件市场占AI市场份额将达30%。此外，NVIDIA还专门设计了全球首款针对深度学习的GPU架构（Pascal 架构）。

4）Intel

近年来，英特尔将业务从PC芯片、移动芯片拓展至云数据中心、物联网、人工智能等领域，提出“2016 重建计划”，根据 CB Insights，英特尔在AI领域总投资额排在第二位。英特尔AI 终端布局聚焦于人机交互，通过提供英特尔 Curie 模块、Edison 计算平台、Cedar Trail 芯片平台、RealSense 实感技术及凌动处理器等技术，将设备数据上传至后端数据中心。 AI 后端布局主要是研发适合机器学习 CPU 芯片（如 Xeon Phi）、及 FPGA 芯片，以拓展 AI 计算性能。

5、人工智能对未来技术革命的影响

Google CEO Sundar Pichai：“过去10年我们一直在做一件事，那就是打造移动优先的世界。而在接下来的10年时间里，我们将转到一个AI优先的世界。”

Amazon CEO 贝索斯：“AI在未来20年对社会产生的影响之大怎么评估都不为过。”

二、智能推荐系统总体架构及基础算法

1、总体架构

数字电视节目推荐系统主要由以下四个功能模块组成：用户特性文件模块、节目特性文件模块、合作过滤模块、推荐模块。

2、节目特征建模

1）节目特征描述

基于内容的节目特性可以从节目分类、节目制作信息(主要演员、导演、制作商、制作年代等)，节目内容信息(对节目内容的文字描述)、节目播出信息(播出频道、播出时间、节目时间)等几个方面来描述。

节目特征可来自各个途径的文本表述，也可来自对节目的语音识别及图像识别而形成的文本表述，这方面是目前需要研究和加强的领域。

2）节目特征定义

节目特征用于描述节目的娱乐新、知识性方面的特点。常用的节目特征定义方式包括：节目的名称、类型、导演、演员、关键词等元数据信息。

基于节目特征实现个性化推荐的优势在于，只需要分析单个用户的历史行为就可以推荐，即使只有少量用户也可以产生推荐列表，并且推荐的效果往往能够符合用户的“心理预期”，从而提高用户对推荐引擎的信任。

3）节目特征的发展

节目特征模型的准确性对推荐效果的影响显著，目前较成功的商业推荐引擎会采用更专业的描述信息来构建节目特征，常用的描述信息包括：

节目标签：用户对节目评价的“关键词”，一般不成体系；

微类型：由专业人员对节目类型进行细化，netflix目前有一支专业的影评团队给节目标注微类型。

娱乐基因：从更多维度描述节目，如故事背景、特效、奖项、剧情结构、价值观、亚文化等，一般成体系。采用用人工标注的方式成本高昂，业内前沿的技术是用语义分析技术，从影评信息中提取基因，如Jinni目前已支持该项技术。

4）节目特征的定量计算

由于节目特征是通过一系列文本数据构成，在推荐算法中为比较不同节目之间特征的相似性，需要进行定量计算。目前常用的计算方法包括： DICE系数、编辑距离等。

3、用户特征建模

1）用户特征描述

初始用户特征的获取。用户特征文件的自动更新：显性反馈、隐性反馈（聚类、贝叶斯、NN算法等）。显性用户特征：基于分类人群收视率社会调查及用户主动方式的特征提取，能够解决用户初始特征的缺失问题，即系统冷启动和突发兴趣问题；隐性用户特征：来自于用户长期的行为特征数据的提取，反映的是用户稳定的喜好特征。

2）用户特征的定义

用户特征（画像）用于刻画用户收看节目的口味，其最常用的模型是：用户对节目进行评分的列表构成的向量。

用户的性别、年龄、收入等冷数据，在广电业务中使用较少，因广电运营商主要面向的是家庭用户。

3）用户特征的变种

对不同类型节目的评分，对不同节目标签的评分。用户特征的变种，往往能够在某种推荐场景中更准确的描述用户的“口味”，从而使得特定的推荐算法更准确。

4）直接评分

通过节目评分功能直接采集，较知名的评分系统如IMDB，豆瓣电影等；显性评分能够直接了当的反映用户对节目的偏爱程度。评分方法包括：正负值（踩/顶）、5分制、10分制等。

鉴于用户惰性，在没有激励的情况下，用户并不愿意主动进行评分，这会造成用户特征矩阵非常稀疏，导致推荐算法的结果不准确。

5）广电大数据节目推荐系统算法研究及应用-用户特征提取

间接评分：为了解决直接评分过于稀疏的问题，采用计算间接评分的方式构建用户特征。间接评分的修正：点播节目以主动收视为主，直接评分的可信度较高；直播节目以被动收视为主，如果采集到用户收看每个频道时间过长，则时间线上靠后的节目的隐性评分的可信度较低；基于用户收视模式修正间接评分是目前推荐算法研究的前沿之一，netflix等公司正致力该方面的研究。

6）家庭用户的特征提取

在家庭中，多个家庭成员共用机顶盒的情况很普遍，家庭用户的特征建模也是目前业界研究的重点。

目前常用的模型包括：

基于用户组（Group-based)的特征模型：将用户的偏好融合为整个组的偏好，这种模型适用于推荐适于所有成员一起收看的节目；

家庭内部特征模型：将家庭用户的特征按照不同的口味划分为多个特征，每个特征代表了一类需求，这种特征模型有适用于有成员主导电视的情况，例如有孩子的家庭，每天的17点至19点可能由孩子主导电视收看动漫类节目。家庭内部口味的划分方法可以通过人工分类、聚类、双聚类的多种方法实现。

案例：Jinni提供了针对多个口味特征分别推荐的算法，youtube、GroupLens等能够提供针对家庭或多个好友共同收看节目的推荐算法。

7）基于MDS聚类算法的隐性用户特征提取

试验记录20个用户从2006年11月1日到2007年4月30日的全部收视节目，应用MDS变换聚类算法，通过计算可以看到19个用户的收视样本都具有较为明显的聚类特征，将这些收视样本在变换空间的对应点投影到两维坐标系，我们可以清晰地看到聚类云团。

8）基于MDS聚类算法的用户特征提取

按照变换空间像点距离聚类中心近远的排序，本文计算得到了每个用户对应于其每个类别中心的10条实义节目样本。

经过聚类得到的对应于每个用户每个类别中心的节目样本，具有相同或相似的节目特征，基本属于相同的节目类别，这些样本节目的特征，就反映了用户的收视特征。

由于收视记录是基于机顶盒的，也即是基于家庭的，因此上述聚类结果存在多个类别中心的现象是合理的。

4、特征的自动提取

1）TF-IDF自动提取多类特征

TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。

节目标签提取：通过对节目内容信息，评论信息等文本进行分词，利用TF-IDF技术可以提取关键词形成节目标签。

用户画像：将用户看成文档，看过的节目名称和节目标签当作文档的关键词，则可以通过TF-IDF算法，提取用户画像。

5、特征相似度匹配

1）深度学习计算特征相似度

在实际业务场景计算相似度时，单靠特征标签无法解决所有问题。

例如：用户A，有一个标签为琅琊榜，其偏好程度为5；用户B有一个标签为伪装者，其偏好程度为4。如果就这个两个标签计算相似度，A与B的相似度为零。但这两部电视剧为同一套制作阵容，其相似度是非常高的。这时候可以应用词向量模型。

三、广电智能推荐系统的应用

1、广东省广电网络-节目推荐系统功能

2、广东省广电网络节目推荐总体架构

3、广东省广电网络-数据采集系统

系统能力：使用标准HTTP协议采集用户行为数据；支持覆盖300万互动电视用户；支持持久化存储2836亿条用户行为数据；支持采集开机记录、机顶盒心跳、直播行为、点播行为、页面浏览行为、增值业务访问、业务报错日志；支持实时和非实时向第三方系统分发数据。

4、广东省广电网络-节目推荐系统

系统能力：支持热度排行节目推荐；支持关联节目推荐；支持用户口味节目推荐；支持群体喜好节目推荐；输入媒资数据、用户行为数据、BOSS数据；输出推荐列表，支持300万用户规模，180万机顶盒同时在线。

5、广东省广电网络—节目推荐系统分层架构

基于Hadoop集群构建分布式存储和计算平台，对海量用户行为数据、直播、点播节目数据执行离线推荐算法；基于storm和NoSQL技术构建实时计算模块，对用户近期行为（分钟级别）进行实时入库、跟踪处理，通过执行近线推荐算法生成针对用户近期兴趣点的推荐结果；基于用memCached、nginx等技术，实现近线存储、在线分析和应用请求处理功能，根据推荐请求的时间、地域等上下文信息对推荐结果进行最终的拼装、过滤等在线处理；基于机器学习算法，实现学习反馈模块，不断调整推荐算法参数。

四、“智能”运营，赢在未来

1、人工智能，助力广电“智能”运营