您的位置
主页 > 站长在线 » 正文

谷歌送上主播福利,手机拍视频也用神经网络实时换背景

来源:www.jz265.com 点击:1619

YouTube故事中的神经网络视频分段(加上效果)

雷锋网络AI技术评论:视频分割是一项多功能技术。在分离视频的前景和背景之后,导演和视频制作者可以将两者用作两个不同的视觉层以用于后续处理。或者替换。对背景的修改可以传达不同的情感,允许前景的主角出现在另一个地方,或者增强该视频消息的影响。然而,传统上这项工作是手工完成的,这非常耗时(例如需要逐帧选择人员);节省时间的方法需要一个专门的电影制片厂,以绿色屏幕为背景。从而将其与其他所需内容实时替换。

然而,过去复杂的背景分割工作现在只需一部手机即可完成!谷歌今天在YouTube应用程序的故事中集成了一个新的视频分段功能,可以准确,实时地在手机上分割视频。前景背景。此功能专为YouTube视频作者设计。在当前的测试版中,故事是一种新的轻量级视频格式,允许视频作者在不需要专门设备的情况下替换和更改视频背景。创造价值。谷歌还发布了一篇博客,介绍技术细节,雷锋网(公众号:雷锋网)人工智能技术评论汇编如下。

谷歌研究人员利用机器学习的力量将这项任务视为语义分割问题,并设计了一个卷积神经网络来实现其目标。具体而言,他们根据这些要求和限制设计了适用于移动电话特性的网络架构和培训流程:

作为在手机上运行的解决方案,它需要足够轻便,比目前最先进的照片分割模型快10到30倍。对于实时推理任务,所需的模型计算需要达到每秒至少30帧。

作为视频模型,它应该利用视频的时间冗余(相邻帧内容相似)并展示时间持久性(相邻输出结果相似)

作为一项基本规则,高质量的结果还需要高质量的标记训练数据

为了为机器学习管道提供高质量的培训数据,Google已经标记了数以万计的照片,包括各种丰富的(人物)姿势和背景内容。注释包括对像素精确的前景字符的图像结构,例如头发,眼镜,颈部,皮肤,嘴唇等,并且背景均匀地标记为“背景”。注释的质量在人类贴标签者的交叉验证测试中。 98%的IOU已经实现。

一个小心标记为9类的训练样本的例子;前景元素的标注区域直接覆盖在图像上

该视频分割任务的具体定义是为视频输入的每个帧(RGB的三个通道)计算二进制掩码。这里要解决的关键问题是实现不同帧的计算掩模之间的时间连续性。使用LSTM和GRU的现有方法是有效的,但是实时在电话上运行的应用程序所需的计算能力太高。因此,谷歌研究人员所考虑的另一种选择是使用在前一帧中计算的掩蔽图像作为第四个通道,以及新帧的原始RGB三个通道作为网络输入,从而实现时间连续性。如下图所示

将原始图像的帧(左图像)分成三个颜色通道,然后添加从前一帧图像计算的掩模图像(中间)。这些将一起用作神经网络的输入,以预测当前帧的屏蔽(右)。

对于视频分割任务,我们希望实现帧之间的时间连续性,同时还要照顾图像内容的突然变化,例如人们突然出现在摄像机视野中。为了训练模型能够稳健地处理这些条件,Google研究人员对每张图像的真实背景分割结果进行了各种不同的处理,然后将其用作前一帧的掩模:

清空前一帧屏蔽:此条件用于训练网络正确分割视频的第一帧并正确分割视野中新出现的对象。这模拟了某人突然出现在相机视野中的情况。

仿真变换的真实背景掩蔽:轻微的变换可以训练网络相应地进行调整,掩盖对前一帧的适应性。训练网络发生了很大的变化,以确定掩盖的不适并放弃这一结果。

转换后的图像:平滑视频的原始图像,模拟相机快速移动并旋转时拍摄的图像

演示实时视频分段

基于修改后的输入/输出格式,Google的研究人员根据标准沙漏分割网络架构进行了以下改进:

使用大卷积内核(大步长为4或更大)在高分辨率RGB输入帧中检测对象特征。卷积具有少量通道的层的计算开销相对较小(在这种情况下,是RGB三个通道的输入),因此在此使用大卷积内核几乎不会影响计算要求。

为了提高操作速度,该模型将大步和类似U-Net的跳转连接结合起来,进行大幅度下采样,同时在上采样时保留低级功能。对于Google的这种分段模型,与无跳转连接相比,具有跳转连接的模型的IOU显着增加了5%。

具有跳转连接的沙漏分割网络

为了进一步提高速度,Google研究人员优化了默认的残留网络瓶颈。在学术论文中,研究人员通常更喜欢在网络中间将通道数减少到1/4(例如,通过使用64个不同的卷积内核将256个通道减少到64个通道)。然而,谷歌的研究人员认为,他们可以更积极地减少频道,可以减少到1/16甚至1/32,而不会显着降低性能。

大规模压缩ResNet瓶颈

为了美化图像的边缘并提高图像边缘分割的准确性,在整个分割网络上添加了几层全分辨率密集连接的DenseNet层,这类似于神经网络匹配。该技术带来的整体数值性能没有太大提高,只有0.5%的IOU,但人类视觉感知的分割质量明显提高。

在这些变化之后,网络在移动设备上的运行速度非常快,不仅在iPhone 7上每秒超过100帧,Pixel 2超过每秒40帧,而且还具有高精度(根据Google的验证数据集) 94.8%),为YouTube故事提供各种丰富而流畅的实时响应功能。

视频细分小组的近期目标是在YouTube故事小节目的小开放期间进行更多测试。随着分割技术的改进和扩展到更多的标签识别细分,谷歌的AR服务也可能在未来进行整合。

通过谷歌博客,雷锋网络人工智能技术评论汇编