西安服务器租用-单张图片引导,保留主体,风格百变,VCT帮你轻松实现

近年来,图画生成技能取得了很多关键性打破。特别是自从 DALLE2、Stable Diffusion 等大模型发布以来,文本生成图画技能逐渐成熟,高质量的图画生成有了广阔的有用场景。然而,关于已有图片的细化修改依旧是一个难题。
一方面,由于文本描述的局限性,现有的高质量文生图模型,(西安服务器租用)只能使用文本对图片进行描述性的修改,而关于某些具体作用,文本是难以描述的;另一方面,在实际使用场景中,图画细化修改使命往往只要少数的参阅图片,这让很多需求大量数据进行练习的计划,在少数数据,特别是只要一张参阅图画的情况下,难以发挥作用。
最近,来自网易互娱 AI Lab 的研讨人员提出了一种基于单张图画引导的图画到图画修改计划,给定单张参阅图画,即可把参阅图中的物体或风格搬迁到源图画,一起不改动源图画的整体结构。研讨论文已被 ICCV2023接收,相关代码已开源。
论文地址:https://arxiv.org/abs/2307.14352
代码地址:https://github.com/CrystalNeuro/visual-concept-translator
让我们先来看一组图,感受一下它的作用。
图片
论文作用图:每组图片左上角是源图,左下角是参阅图,右侧是生成成果图
主体结构
论文作者提出了一种基于反演-交融(Inversion-Fusion)的图画修改结构 ——VCT(visual concept translator,视觉概念转换器)。如下图所示,VCT 的整体结构包括两个进程:内容-概念反演进程(Content-concept Inversion)和内容-概念交融进程(Content-concept Fusion)。内容 – 概念反演进程经过两种不同的反演算法,别离学习和表明原图画的结构信息和参阅图画的语义信息的隐向量;内容-概念交融进程则将结构信息和语义信息的隐向量进行交融,生成最终的成果。
图片
论文主体结构
值得一提的是,反演方法是近年来,特别是在生成对立网络(GAN)范畴,广泛使用且在很多图画生成使命上取得突出作用的一项技能【1】。GAN Inversion 技能将一张图片映射到与练习的 GAN 生成器的隐空间中,经过对隐空间的操控来完成修改的意图。反演计划能够充分使用预练习生成模型的生成能力。本研讨实际上是将 GAN Inversion 技能搬迁到了以分散模型为先验的,基于图画引导的图画修改使命上。
图片
反演技术【1】
方法介绍
基于反演的思路,VCT 设计了一个双分支的分散进程,其包括一个内容重建的分支 B* 和一个用于修改的主分支 B。它们从同一个从 DDIM 反演(DDIM Inversion
【2】,一种使用分散模型从图画计算噪声的算法)获得的噪声 xT 动身,别离用于内容重建和内容修改。论文采用的预练习模型为隐向量分散模型(Latent Diffusion Models,简称 LDM),分散进程产生在隐向量空间 z 空间中,双分支进程可表明为:
图片
图片
双分支分散进程
内容重建分支 B* 学习 T 个内容特征向量
图片
,用于恢复原图的结构信息,并经过软注意力操控(soft attention control)的计划,将结构信息传递给修改主分支 B。软注意力操控计划借鉴了谷歌的 prompt2prompt【3】工作,公式为:
图片
即当分散模型运转步数在必定区间时,将修改主分支的注意力特征图替换内容重建分支的特征图,完成对生成图片的结构操控。修改主分支 B 则交融从原图画学习的内容特征向量
图片
和从参阅图画学习的概念特征向量
图片
,生成修改的图片。
图片
噪声空间 (
图片
空间) 交融
在分散模型的每一步,特征向量的交融都产生在噪声空间空间,是特征向量输入分散模型之后预测的噪声的加权。内容重建分支的特征混合产生在内容特征向量
图片
和空文本向量上,与免分类器(Classifier-free)分散引导【4】的方式共同:
图片
修改主分支的混合是内容特征向量
图片
和概念特征向量
图片
的混合,为
图片
至此,研讨的关键在于如何从单张源图片获取结构信息的特征向量
图片
,和从单张参阅图片获取概念信息的特征向量
图片
。文章别离经过两个不同的反演计划完成这一意图。
为了恢复源图片,文章参阅 NULL-text【5】优化的计划,学习 T 个阶段的特征向量去匹配拟合源图画。但与 NULL-text 优化空文本向量去拟合 DDIM 路径不同的是,本文经过优化源图片特征向量,去直接拟合估量的洁净特征向量,拟合公式为:
图片
图片
与学习结构信息不同的是,参阅图画中的概念信息需求用单一高度归纳的特征向量来表明,分散模型的 T 个阶段共用一个概念特征向量
图片
。文章优化了现有的反演计划 Textual Inversion【6】和 DreamArtist【7】。其采用一个多概念特征向量来表明参阅图画的内容,丢失函数包括一项分散模型的噪声预估项和在隐向量空间的预估重建丢失项:
图片
试验成果
文章在主体替换和风格化使命上进行了试验,能够在较好地保持源图片的结构信息的情况下,将内容变成参阅图片的主体或风格。
图片
论文试验作用
文章提出的 VCT 结构相较于以往的计划有以下优势:
(1)使用泛化性:与以往的基于图画引导的图画修改使命相比,VCT 不需求大量的数据进行练习,且生成质量和泛化性更好。其基于反演的思路,以在敞开世界数据预练习好的高质量文生图模型为基础,实际使用时,只需求一张输入图和一张参阅图就能够完成较好的图片修改作用。
(2)视觉精确性:相较于近期文字修改图画的计划,VCT 使用图片进行参阅引导。图片参阅相比于文字描述,能够更加精确地完成对图片的修改。下图展示了 VCT 与其它计划的比照成果:
图片
主体替换使命比照作用
图片
风格搬迁使命比照作用
(3)不需求额定信息:相较于近期的一些需求添加额定操控信息(如:遮罩图或深度图)等计划来进行引导操控的计划,VCT 直接从源图画和参阅图画学习结构信息和语义信息来进行交融生成,下图是一些比照成果。其中,Paint-by-example 经过提供一个源图画的遮罩图,来将对应的物体换成参阅图的物体;Controlnet 经过线稿图、深度图等操控生成的成果;而 VCT 则直接从源图画和参阅图画,学习结构信息和内容信息交融成方针图画,不需求额定的约束。
图片
基于图画引导的图画修改计划的比照作用
网易互娱 AI Lab
网易互娱 AI Lab 成立于2017年,隶属于网易互动娱乐事业群,是游戏职业抢先的人工智能试验室。试验室致力于计算机视觉、语音和自然语言处理,以及强化学习等技能在游戏场景下的的研讨和使用,旨在经过 AI 技能助力互娱旗下热门游戏及产品的技能晋级,目前技能已使用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉悟》、《阴阳师》、《大话西游》等等。

共有 0 条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注