近日,北京经开区融媒体中心在当虹科技的技术支持下,正式启用融合了DeepSeek-R1和DeepSeek Janus Pro的BlackEye多模态视听大模型,率先开启“DeepSeek+视听+行业端侧”的大模型应用之旅,为新闻生产注入全新动能。
“仅需几十秒,就可快速生成一段高精度视频,大大节省了视频生产的时间和成本。”“视频横转竖一直是我们视频业务的难点,这次终于有了好用的工具。”“文生视频、图生视频、智能横转竖、智能慢动作、智能抠像,有一说一,功能真的太全面了”……北京经开区融媒体中心记者、编辑们表示,有了多模态视听大模型这位“赛博同事”,内容生产质效正在飞速提升。
据悉,北京经开区融媒体中心布局应用的多模态视听大模型,是其联合专注大视频领域的国家级专精特新“小巨人”企业当虹科技打造。该大模型在当虹科技BlackEye多模态视听大模型融合DeepSeek-R1和DeepSeek Janus Pro基础上,完成视听传媒垂类场景数据调优训练。基于DeepSeek-R1强大的模型推理能力,该大模型融合了多种深度神经网络组件,包括Transformer、Diffusion等组件,通过文本、图像、视音频、三维模型等多种模态的编码、解码、多模态潜空间对齐、多模态语言推理及生成等技术,实现不同模态信息之间的推理和预测生成,具备了更强大的多模态理解能力,可以更好地理解和处理视听内容,显著提升传媒文化领域内容生产、审核、推荐和用户体验等方面的效率与质量。
小亦观察到,通过多模态视听大模型进行一段10分钟的养生视频创作,大模型可一键理解视频内容,并由DeepSeek-R1进行深度思考,给出健康科普、食材挑选、烹饪技巧等三个角度的短视频脚本,并结合BlackEye文生视频、图生视频等生成式算法,以及AI超分、AI插帧、AI横竖屏同步制作等分析式算法,短时间就能制作出精美的专业级视频。
目前,该多模态视听大模型可以生成电影、连环画、3D卡通等八种风格的2K视频并可通过AI超分算法进一步提升至4K。同时,为了适应手机竖屏观看需求,还可将横屏视频智能转化为竖屏,AI横竖屏同步制作效率大幅提升。
“多模态视听大模型的应用,标志着北京经开区融媒体中心在AI技术应用领域迈出关键一步。”北京经开区融媒体中心有关负责人表示,作为率先拥抱前沿AI技术的区级融媒体中心,北京经开区融媒体中心已通过本地化部署,在保障数据安全的基础上实现了大模型与新闻场景的深度适配。未来,北京经开区融媒体中心将持续借助AI 技术能力,进一步加大在新闻挖掘、内容创作、新闻分发、用户互动等领域的应用力度,积极探索 AI 技术在媒体行业的创新应用场景,为用户提供更丰富、更优质、更智能的新闻服务,引领区级融媒体中心在新时代的智能化发展浪潮。