主机测评-新AI框架HyperHuman:用于生成具有潜在结构扩散的超真实人类

近日,一项名为HyperHuman的新型人工智能结构正式露脸,为生成超逼真人体图画创始了崭新纪元。这一结构的重要突破在于结合了结构分散技能,成功克服了以往模型在生成人体图画中面临的种种应战。
主机测评,用户无需专业技能,只需供给文本和姿势等条件,HyperHuman就能从中生成高度逼真的人体图画。这关于图画动画、虚拟试穿等多种应用具有深远意义。以往的方法要么依赖于变分自动编码器(VAEs)以一种重建方法,要么经过生成对抗网络(GANs)提高逼真度。然而,这些方法在练习不稳定和模型容量有限的情况下,往往仅适用于小规模数据集,导致生成的图画缺乏多样性。
image.png
HyperHuman结构引入了结构分散模型(DMs),成为生成AI中的主导架构。尽管从前的文本到图画模型(T2I)在使用结构分散时依然面临应战,HyperHuman经过Latent Structural Diffusion Model和Structure-Guided Refiner的组合,成功解决了人体形状的非刚性变形问题。这两个模块相互协作,使得图画的外观、空间联系和几何在一个统一的网络中协同建模。
HyperHuman的关键在于认识到人体图画在多个层次上都具有结构性质,从粗粒度的身体骨架到细粒度的空间几何。为了完成这一点,研究人员建立了一个名为HumanVerse的大规模人体中心数据集,其中包含340百万张野外人体图画,并进行了详细的注释。根据这个数据集,HyperHuman规划了两个关键模块,分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者经过增强预练习分散骨干,一起去噪RGB、深度和法线等方面,确保了纹路和结构的空间对齐。后者则经过空间对齐的结构图为详细、高分辨率的图画生成供给了预测条件。
image.png
此外,HyperHuman还采用了强壮的调制计划,以减轻两阶段生成流程中错误累积的影响。经过精心规划的噪声计划,低频信息走漏得以消除,确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习,促进了特征融合。这一整套规划确保了模型关于结构性和纹路丰富性的统一处理。
与当前技能的比较成果显示,HyperHuman在生成的图画中展现了杰出的质量。在每行的第一个4×4网格中,展现了由HyperHuman核算的输入骨架、联合去噪法线、深度和粗糙RGB(512×512)。
HyperHuman的呈现为生成超逼真人体图画供给了一种全新的方法,突破了以往模型的局限性,为未来的虚拟试穿、图画动画等应用带来了更为广阔的可能性。

共有 0 条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注