谷歌视频智能分析视频中的图像
谷歌希望帮助解决每个制作视频的组织所面临的最大问题之一——文件太多,没有足够的时间和人力来优化内容中的价值. 现在,识别帽子里有猫的每一个片段的想法是非常令人生畏的.
“(我的媒体客户)拥有数十万甚至数百万的视频资产. 他们要么在现场直播, recorded, 或者存档内容, 他们需要能够处理这些内容并/或重新利用这些内容并做出一些商业决策,尼尔·安德森说。, CEO of 新媒体研究顾问,为许多大型媒体公司提供媒体内容工作流解决方案. “没有足够的员工来实时观看这些内容."
元数据问题
到目前为止, 要创建详细的视频元数据,需要人工实时地制作基于时间码的注释. 这既耗时又昂贵. 要在视频剪辑中搜索对象,需要一个包含该剪辑中所有内容的列表. 没有视频内容的搜索栏——要找到视频需要编辑或查看者浏览公司的所有内容, 鉴于现在正在创建的内容数量,这是不可能的. 自动图像识别是谷歌云新视频智能API的一部分 here). 这种自动图像识别可以扫描视频内容并创建与时间码相关的图像标签.
Cantemo 在他们的新产品中使用谷歌云来提供视频图像识别 iconik基于云的媒体资产管理(MAM)平台. “摄取的资产使用 谷歌视频智能 (GVI) API. 我们收集基于时间码的元数据,并将它们与资产关联起来, 使用户可以搜索到,Parham Azimi说, Cantemo的首席执行官. “客户(可以)在他们的资产中搜索特定的项目,否则这些项目是无法被发现的. 这也使得用户可以检测视频中的特定镜头和场景.“图像识别目前仅适用于存档的视频内容.
信号与噪声分离
GVI API已经接受了数百万YouTube视频内容的训练. 对视频的每一帧进行分析,并与图像库进行比较. GVI的分类分为视频主题、镜头信息和帧分析. 框架分析就像它听起来的那样——每个框架都是基于共同的对象或活动来识别内容的. 镜头分析识别编辑的所有帧中最常见的对象. Shot analysis can take into account activities that may be happening to the objects within a frame; a single frame may be a person standing, 而多帧可能是一个人跑步或锻炼. 视频级别的注释可用于识别整个视频的主题. 它针对3到5分钟的短内容进行了优化, 谷歌产品经理拉姆·拉马纳坦表示.
创建低分辨率720p扫描, 谷歌云检测所有镜头,并为一段视频提供单独的标签. 通过这种方式,生产级文件可以留在它们所在的位置, 迈克尔·沃尔伯格说, Cantemo的产品开发副总裁. 该服务返回带有概率变量的建议,供用户批准或拒绝. 标签有一个百分比测量, 它允许人类回去检查分析并删除不准确的标签.
培训
如果GVI库中没有智能,那么如何识别特定类型的汽车? 这就是机器学习应用于图像识别的地方,以便首先识别内容,并在未来更好地识别图像. 对于已知对象和活动之外的视觉效果, 用户需要训练应用程序来识别特定的图像, 安德森说. “这就是机器学习的问题. 就其本质而言,它必须学习才能识别某些东西."
自动识别徽标, 例如, 所有版本的logo都需要先上传到系统中. 然后用户必须验证哪些标识是正确的,安德森说. “这些算法都不是100%准确的,唯一能让它们变得更好的方法就是训练它们."
“能够专门为客户定制训练机器智能平台,以识别与他们相关的物体,将是我们未来产品的重要组成部分,阿兹米说. “分析运动鞋的视频会产生‘鞋子’、‘运动鞋’、‘运动鞋’等标签. 但经过定制训练的系统可以说出这款运动鞋的确切型号和制造商."
Cloud vs. On-Prem
安德森说,他95%的客户都在使用本地mam. 媒体公司会把他们的内容放到云端吗? 有些人对此感兴趣, 但我可以告诉你MTV不会把他们所有的内容都放到云端,他说. 他的客户在考虑使用GVI(或其他图像识别服务)时关心的一个问题是,他们是否想让自己的知识产权中的数据可用.
“服务提供商——i.e. 谷歌、亚马逊和/或IBM沃森(拥有数据). 客户将获得元数据, 但是他们付钱给服务提供商来训练他们自己的数据集,安德森说。. “所以挑战在于:唯一拥有MTV档案的人就是MTV.“MTV或任何其他媒体公司面临的问题是,在数据所有权方面可以进行哪些谈判,以及哪些权衡是有意义的.
未来的希望
图像识别有很多潜在的用途——为观众提供个性化的内容, 能够识别媒体库中的内容的媒体公司获得更好的投资回报率, 标记不适当内容的能力, 识别粗糙剪辑的亮点, 或者只是寻找最高质量的图像. Cantemo和谷歌希望在未来完全有可能在包含特定图像类型的特定库中找到每个剪辑.
Cantemo的图标现在处于测试阶段,将于秋季在IBC发布. GVI API是 对开发人员开放 to use.