虚拟pc-谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了练习,功能改写30项SOTA。
AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研讨,追赶OpenAI的步伐。
最近,来自谷歌团队的研讨人员提出了一种通用视频编码器——VideoPrism。
它能够经过单一冻住模型,处理各种视频了解使命。
图片
论文地址:https://arxiv.org/pdf/2402.13217.pdf
比方,VideoPrism能够将下面视频中吹蜡烛的人分类、定位出来。
图片
视频-文本检索,依据文本内容,能够检索出视频中相应的内容。
图片
虚拟pc,再比方,描述下面视频——一个小女子正在玩积木。
还能够进行QA问答。
– 她放在绿色积木块上方积木的是什么颜色?
-紫色。
图片
研讨人员在一个异构语料库对VideoPrism进行了预练习,包括3600万高质量视频字幕对和5.82亿个视频剪辑,并带有噪声并行文本(如ASR转录文本)。
值得一提的是,VideoPrism在33项视频了解基准测验中,改写了30项SOTA。
图片
通用视觉编码器VideoPrism
当时,视频根底模型(ViFM)有巨大的潜力,能够在庞大的语料库中解锁新的才能。
虽然之前的研讨在一般视频了解方面取得了很大进展,但构建真实的「根底视频模型」依然是一个难以完成的方针。
对此,谷歌推出了一种通用视觉编码器——VideoPrism,旨在处理广泛的视频了解使命,包括分类、本地化、检索、字幕和问答(QA)。
VideoPrism对CV数据集,以及神经科学和生态学等科学范畴的CV使命进行了广泛评价。
经过运用单一冻住模型,以最小的适应度完成了最先进的功能。
另外,谷歌研讨人员称,这种冻住编码器设置一起遵循从前研讨,并考虑了其实际实用性,以及高核算和微调视频模型的本钱。
图片
设计架构,两阶段练习法
VideoPrism背面的设计理念如下。
预练习数据是根底模型(FM)的根底,ViFM的抱负预练习数据,是世界上一切视频的代表性样本。
这个样本中,大多数视频都没有描述内容的并行文本。
然而,如果训在这样的文本,它就能供给有关视频空间的无价语义头绪。
因此,谷歌的预练习策略应首要重视视频模式,一起充分运用任何可用的视频文本对。
在数据方面,谷歌研讨人员经过聚集3600万高质量视频字幕对,以及5.82亿视频剪辑与噪声并行文本(如ASR转录、生成的字幕和检索到的文本)来近似建立所需的预练习语料库。
图片
图片
在建模方面,作者首先从一切不同质量的视频-文本对中比照学习语义视频嵌入。
随后,运用广泛的纯视频数据,对语义嵌入进行大局和标记提炼,改善了下文所述的掩码视频建模。
尽管在自然言语方面取得了成功,但由于原始视觉信号缺乏语义,掩码数据建模对于CV来说依然具有挑战性。
现有研讨经过借用直接语义(如运用CLIP引导模型或分词器,或隐含语义来应对这一挑战)或隐性推行它们(比方标记视觉patches),将高掩码率和轻量级解码器结合。
在上述想法的根底上,谷歌团队依据预练习数据采用了两阶段办法。
图片
在第一阶段,进行比照学习,运用一切视频文本对,将视频编码器与文本编码器对齐。
依据从前的研讨,谷歌团队最小化批中一切视频文本对的相似性得分,进行对称交叉熵丢失最小化。
并运用 CoCa 的图像模型初始化空间编码模块,并将WebLI归入到预练习中。
在核算丢失之前,视频编码器的特征会经过多头注意力聚集池(MAP)进行聚合。
这一阶段允许视频编码器从言语监督中学习丰富的视觉语义,由此产生的模型为第二阶段练习供给语义视频嵌入。
图片
第二阶段,继续练习编码器,并进行了两项改善:
– 模型需要依据未掩码的输入视频patches,来预测第一阶段的视频级大局嵌入和token式嵌入
– 编码器的输出token在传给解码器之前,要进行随机洗牌,以避免学习捷径。
值得注意的是,研讨人员的预练习运用了两个监督信号:视频的文本描述,以及上下文自监督,使VideoPrism能够在以外观和动作为中心的使命上体现出色。
事实上,之前的研讨标明,视频字幕首要揭示外观头绪,而上下文我监督有助于学习动作。
图片
试验成果
接下来,研讨人员在广泛的以视频为中心的了解使命上评价VideoPrism,展现其才能和通用性。
首要分为以下四类:
(1) 一般仅视频了解,包括分类和时空定位
(2) 零样本视频文本检索
(3) 零样本视频字幕和质量检查
(4) 科学范畴的CV使命
分类和时空定位
表2显现了VideoGLUE上的冻住主干的成果。
在一切数据集上,VideoPrism都大幅优于基线。此外,将VideoPrism的底层模型巨细从ViT-B增加到ViT-g能够显着进步功能。
值得注意的是,没有基线办法能在一切基准测验中取得第二好的成果,这标明曾经的办法可能是针对视频了解的某些方面而开发的。
而VideoPrism在这一广泛的使命上继续改善。
这一成果标明,VideoPrism将各种视频信号整合到了一个编码器中:多种粒度的语义、外观与运动头绪、时空信息以及对不同视频源(如网络视频与脚本扮演)的鲁棒性。
图片
零样本视频文本检索和分类
表3和表4别离总结了视频文本检索和视频分类的成果。
VideoPrism的功能改写多项基准,并且在具有挑战性的数据集上,VideoPrism 与之前的技能比较取得了非常显著的进步。
图片
根底模型VideoPrism-B 的大多数成果,实际上优于现有的更大规划模型。
此外,VideoPrism与表4中运用域内数据和额定模态(例如音频)预练习的模型相当,乃至更好。这些在零样本检索和分类使命中的改善体现了VideoPrism强壮的泛化才能。
图片
零样本视频字幕和质量检查
表5和表6别离显现了,零样本视频字幕和QA的成果。
尽管模型架构简略且适配器参数数量较少,但最新模型仍具有竞争力,除VATEX外,在冻住视觉和言语模型的办法中独占鳌头。
成果标明,VideoPrism编码器能够很好地推行到视频到言语的生成使命。
图片
科学范畴的CV使命
通用ViFM在一切评价中运用同享的冻住编码器,其功能与专门用于单个使命的特定范畴模型相媲美。
尤其是,VideoPrism通常体现最好,并逾越了具有基本规划模型的范畴专家模型。
扩展到大规划模型能够进一步进步一切数据集的功能。这些成果标明ViFM有潜力显著加速不同范畴的视频分析。
图片
融化研讨
图4显现了融化成果。值得注意的是,VideoPrism在SSv2上的继续改善标明,数据管理和模型设计作业在促进视频中的运动了解方面的有效性。
尽管比照基线已经在K400上取得了有竞争力的成果,但所提出的大局蒸馏和token洗牌进一步进步了准确性。
图片

共有 0 条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注