域名停放-Stability.ai开源全新文生图模型，性能比Stable Diffusion更强！

2024/02/15域名新闻

2月13日，闻名大模型开源平台Stability AI在官网，开源了全新文本生成图画模型——Stable Cascade（以下简称“SC”）。
据悉，SC是依据最新Würstchen根底模型开发而成，大幅度降低了对推理、练习的算力需求，例如，练习Würstchen模型运用了约25，000小时功用却更强劲，而Stable Diffusion2.1大约运用了200，000小时。
所以，SC的布置非常便捷合适中小企业和个人开发者，可以在4090、4080、3090等消费级GPU上进行微调。目前，SC只能用于学术研究无法商业化，未来会逐渐敞开。
开源地址:https://github.com/Stability-AI/StableCascade
Würstchen论文地址:https://openreview.net/pdf?id=gU58d5QeGv
图片
自Stability AI发布Stable Diffusion系列文生图模型以来，全球已有几十万开发者运用其产品，Github超过60，000颗星，成为开源分散模型领域的领导者。
但Stable Diffusion有一个坏处，便是对AI算力资源要求很高，不太合适一般开发者进行模型微调。所以，在提升功用的前提下又发布了新一代文生图模型SC。
Stable Cascade模型介绍
SC是根据Würstchen模型开发而成，「AIGC敞开社区」将依据其论文为我们解读技能原理和功用特性。
图片
与之前的Stable Diffusion系列比较，SC的核心技能思路是将文生图进程拆解成A、B、C三个阶段来完成。
这样做的好处是，在保证质量的前提下可以对图画进行极限分层紧缩，然后运用高度紧缩的潜在空间完成更优的图画输出，以减少了对传输、算力、存储的需求。
图片
A阶段:潜在图画解码器，经过运用VQGAN模型来解码潜在图画，并生成完好分辨率的输出图画。
VQGAN里面有一个编码器和一个解码器，编码器会把原始图画编码成较低分辨率但信息丰富的离散向量;
解码器则可以从这些向量重构出与原始图画极为类似的图画。全体完成了16倍的数据紧缩。
B阶段:以第A阶段的潜在表明为条件，并结合语义紧缩器的输出和文本嵌入来进行条件生成。
(域名停放)在分散进程，重构了第A阶段练习得到的潜在空间，并受到语义紧缩器供给的具体语义信息的强烈引导。
这种条件引导，保证了生成的图画可精准还原文本提示，提升对文本的语义了解。
图片
C阶段:以B阶段的生成的潜在图画和输入文本为条件，生成具有更低维度的潜在表明。
经过在低维空间中进行练习和推理，可以更高效地进行分散模型的练习和生成，大大降低了计算资源的需求和时刻本钱。
所以，整个图画生成的进程这三大模块就像齿轮相同环环相扣，经过练习一个在低维潜在空间上的分散模型，并结合高度紧缩的潜在表明和文本条件，以及向量量化的生成对立网络，完成了高效、低消耗的文本到图画组成。
Stable Cascade特征功用
除了文本生成图画之外，Stable Cascade 还可以生成图画改变和图画到图画的特征功用。
图画改变:根据原始图画，在不改变色彩、全体架构的情况下，衍生出更多形态的图画。
其技能原理是，运用 CLIP 从给定图画中提取图画嵌入，然后将其返回到模型中。
图片
图画到图画生成:上传一张图画，然后生成类似形态，不同色彩、类型的图画。其技能原理是，向给定图画增加噪声，然后将其用作生成的起点。
图片
Stable Cascade试验数据
为了测试SC的功用，研究人员将其与SDXL、SDXL Turbo、Playground v2和Würstchen v2主流分散模型进行了深度比较。
图片
成果显示，Stable Cascade在即时对齐和图画质量方面都表现最佳，推理过程却比SDXL、Playground v2更少。
此外，在练习Würstchen根底模型时，参数总量比SDXL多14亿，但练习本钱仅是其8分之一。
图片

域名停放-Stability.ai开源全新文生图模型，性能比Stable Diffusion更强！

admin

共有 0 条评论

发表评论取消回复

admin

共有 0 条评论

发表评论 取消回复

发表评论取消回复