虚拟pc-谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

2024/02/26域名新闻

【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism，在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了练习，功能改写30项SOTA。
AI视频模型Sora爆火之后，Meta、谷歌等大厂纷纷下场做研讨，追赶OpenAI的步伐。
最近，来自谷歌团队的研讨人员提出了一种通用视频编码器——VideoPrism。
它能够经过单一冻住模型，处理各种视频了解使命。
图片
论文地址:https://arxiv.org/pdf/2402.13217.pdf
比方，VideoPrism能够将下面视频中吹蜡烛的人分类、定位出来。
图片
视频-文本检索，依据文本内容，能够检索出视频中相应的内容。
图片
虚拟pc,再比方，描述下面视频——一个小女子正在玩积木。
还能够进行QA问答。
– 她放在绿色积木块上方积木的是什么颜色?
-紫色。
图片
研讨人员在一个异构语料库对VideoPrism进行了预练习，包括3600万高质量视频字幕对和5.82亿个视频剪辑，并带有噪声并行文本（如ASR转录文本）。
值得一提的是，VideoPrism在33项视频了解基准测验中，改写了30项SOTA。
图片
通用视觉编码器VideoPrism
当时，视频根底模型（ViFM）有巨大的潜力，能够在庞大的语料库中解锁新的才能。
虽然之前的研讨在一般视频了解方面取得了很大进展，但构建真实的「根底视频模型」依然是一个难以完成的方针。
对此，谷歌推出了一种通用视觉编码器——VideoPrism，旨在处理广泛的视频了解使命，包括分类、本地化、检索、字幕和问答（QA）。
VideoPrism对CV数据集，以及神经科学和生态学等科学范畴的CV使命进行了广泛评价。
经过运用单一冻住模型，以最小的适应度完成了最先进的功能。
另外，谷歌研讨人员称，这种冻住编码器设置一起遵循从前研讨，并考虑了其实际实用性，以及高核算和微调视频模型的本钱。
图片
设计架构，两阶段练习法
VideoPrism背面的设计理念如下。
预练习数据是根底模型（FM）的根底，ViFM的抱负预练习数据，是世界上一切视频的代表性样本。
这个样本中，大多数视频都没有描述内容的并行文本。
然而，如果训在这样的文本，它就能供给有关视频空间的无价语义头绪。
因此，谷歌的预练习策略应首要重视视频模式，一起充分运用任何可用的视频文本对。
在数据方面，谷歌研讨人员经过聚集3600万高质量视频字幕对，以及5.82亿视频剪辑与噪声并行文本（如ASR转录、生成的字幕和检索到的文本）来近似建立所需的预练习语料库。
图片
图片
在建模方面，作者首先从一切不同质量的视频-文本对中比照学习语义视频嵌入。
随后，运用广泛的纯视频数据，对语义嵌入进行大局和标记提炼，改善了下文所述的掩码视频建模。
尽管在自然言语方面取得了成功，但由于原始视觉信号缺乏语义，掩码数据建模对于CV来说依然具有挑战性。
现有研讨经过借用直接语义（如运用CLIP引导模型或分词器，或隐含语义来应对这一挑战）或隐性推行它们(比方标记视觉patches)，将高掩码率和轻量级解码器结合。
在上述想法的根底上，谷歌团队依据预练习数据采用了两阶段办法。
图片
在第一阶段，进行比照学习，运用一切视频文本对，将视频编码器与文本编码器对齐。
依据从前的研讨，谷歌团队最小化批中一切视频文本对的相似性得分，进行对称交叉熵丢失最小化。
并运用 CoCa 的图像模型初始化空间编码模块，并将WebLI归入到预练习中。
在核算丢失之前，视频编码器的特征会经过多头注意力聚集池（MAP）进行聚合。
这一阶段允许视频编码器从言语监督中学习丰富的视觉语义，由此产生的模型为第二阶段练习供给语义视频嵌入。
图片
第二阶段，继续练习编码器，并进行了两项改善:
– 模型需要依据未掩码的输入视频patches，来预测第一阶段的视频级大局嵌入和token式嵌入
– 编码器的输出token在传给解码器之前，要进行随机洗牌，以避免学习捷径。
值得注意的是，研讨人员的预练习运用了两个监督信号:视频的文本描述，以及上下文自监督，使VideoPrism能够在以外观和动作为中心的使命上体现出色。
事实上，之前的研讨标明，视频字幕首要揭示外观头绪，而上下文我监督有助于学习动作。
图片
试验成果
接下来，研讨人员在广泛的以视频为中心的了解使命上评价VideoPrism，展现其才能和通用性。
首要分为以下四类:
（1）一般仅视频了解，包括分类和时空定位
（2）零样本视频文本检索
（3）零样本视频字幕和质量检查
（4）科学范畴的CV使命
分类和时空定位
表2显现了VideoGLUE上的冻住主干的成果。
在一切数据集上，VideoPrism都大幅优于基线。此外，将VideoPrism的底层模型巨细从ViT-B增加到ViT-g能够显着进步功能。
值得注意的是，没有基线办法能在一切基准测验中取得第二好的成果，这标明曾经的办法可能是针对视频了解的某些方面而开发的。
而VideoPrism在这一广泛的使命上继续改善。
这一成果标明，VideoPrism将各种视频信号整合到了一个编码器中:多种粒度的语义、外观与运动头绪、时空信息以及对不同视频源（如网络视频与脚本扮演）的鲁棒性。
图片
零样本视频文本检索和分类
表3和表4别离总结了视频文本检索和视频分类的成果。
VideoPrism的功能改写多项基准，并且在具有挑战性的数据集上，VideoPrism 与之前的技能比较取得了非常显著的进步。
图片
根底模型VideoPrism-B 的大多数成果，实际上优于现有的更大规划模型。
此外，VideoPrism与表4中运用域内数据和额定模态（例如音频）预练习的模型相当，乃至更好。这些在零样本检索和分类使命中的改善体现了VideoPrism强壮的泛化才能。
图片
零样本视频字幕和质量检查
表5和表6别离显现了，零样本视频字幕和QA的成果。
尽管模型架构简略且适配器参数数量较少，但最新模型仍具有竞争力，除VATEX外，在冻住视觉和言语模型的办法中独占鳌头。
成果标明，VideoPrism编码器能够很好地推行到视频到言语的生成使命。
图片
科学范畴的CV使命
通用ViFM在一切评价中运用同享的冻住编码器，其功能与专门用于单个使命的特定范畴模型相媲美。
尤其是，VideoPrism通常体现最好，并逾越了具有基本规划模型的范畴专家模型。
扩展到大规划模型能够进一步进步一切数据集的功能。这些成果标明ViFM有潜力显著加速不同范畴的视频分析。
图片
融化研讨
图4显现了融化成果。值得注意的是，VideoPrism在SSv2上的继续改善标明，数据管理和模型设计作业在促进视频中的运动了解方面的有效性。
尽管比照基线已经在K400上取得了有竞争力的成果，但所提出的大局蒸馏和token洗牌进一步进步了准确性。
图片

虚拟pc-谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

admin

共有 0 条评论

发表回复取消回复

admin

共有 0 条评论

发表回复 取消回复

发表回复取消回复