Hunyuan-DiT

  • Paper: Hunyuan-DiT : A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

  • Authors: Zhimin Li, Jianwei Zhang, Qin Lin, Jiangfeng Xiong, Yanxin Long, Xinchi Deng, Yingfang Zhang, Xingchao Liu, Minbin Huang, Zedong Xiao, Dayou Chen, Jiajun He, Jiahao Li, Wenyue Li, Chen Zhang, Rongwei Quan, Jianxiang Lu, Jiabin Huang, Xiaoyan Yuan, Xiaoxiao Zheng, Yixuan Li, Jihong Zhang, Chao Zhang, Meng Chen, Jie Liu, Zheng Fang, Weiyan Wang, Jinbao Xue, Yangyu Tao, Jianchen Zhu, Kai Liu, Sihuan Lin, Yifu Sun, Yun Li, Dongdong Wang, Mingtao Chen, Zhichao Hu, Xiao Xiao, Yan Chen, Yuhong Liu, Wei Liu, Di Wang, Yong Yang, Jie Jiang, Qinglin Lu

  • Code & Pretrained Model: GitHub

背景

  • 现有一些基于 Diffusion 的文生图模型,如 DALL-E、SD 和 Pixart 缺乏对中文提示词的理解,而 AltDiffusion、PAI-Diffusion 和 Taiyi 这一类具有中文理解能力的模型则仍有进步空间

基于 DiT 的模块改进

Hunyuan-DiT

图像编码器

使用预训练 VAE 提取图像编码用于学习数据分布,SDXL 中的 VAE 相比于 SD1.5 中的 VAE 有较大的提升

文本编码器

使用预训练中英双语 CLIP 模型以及多语种 T5 模型提取文本编码

混元 DiT

  • 按照的大小分块
  • 为了提升模型在细粒度文本条件表现,在特征提取模块使用交叉注意力层融合文本特征
  • Transformer 块包含编码块和解码块,块中包含了自注意力-交叉注意力-FFN
  • 在解码块增加了与编码块之间的跳层链接
  • 训练时使用 v-prediction 的方式具有更好的表现

v-predition 相关资料 在使用 v-prediction 方法时,模型不直接预测噪声 ε,而是预测了一个加权后的量 v,这个量结合了噪声 ε 和原始数据 x 的信息,能在采样步骤较少的情况下提供有效的信号来指导采样过程

位置编码和多分辨率图像生成

两种位置编码可视化
  • 使用二维 RoPE 对绝对位置和相对位置进行编码
  • 为了实现多分辨率图像生成,尝试了两种类型的编码
    • Extended Positional Encoding,随着宽高的不同,编码结果也会有巨大的差异
    • Centralized Interpolative Positional Encoding,定义边界为编码结果变化的范围,且以图像中心为编码 0 点

提升训练稳定性

  • 使用 QK-Norm,在计算 Q、K 和 V 之前增加归一化层
  • 在跳层模块后增加归一化层,从而避免梯度爆炸
  • 使用 FP32 进行训练避免溢出

数据流

数据收集与筛选

图像重标注

多轮对话增强提示

DEADiff

  • Paper: DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations

  • Authors: Tianhao Qi, Shancheng Fang, Yanze Wu, Hongtao Xie, Jiawei Liu, Lang Chen, Qian He, Yongdong Zhang

  • Code & Dataset: GitHub

研究背景

  • 基于扩散模型的文本-图像生成模型(T2I)的发展,一些工作尝试引入参考图像作为生成模型的状态,风格图像就是其中一种
  • 利用T2I的已有工作
    • 基于本文转换的方法,将风格图像编码为文本嵌入空间的编码,这种图像到文本的模态转换容易导致信息的丢失
    • 针对风格微调参数的方法容易导致过拟合,且在现实生产中不具有实用性
    • 通过图像编码器提取风格图像特征
      • T2IAdapter-Style 和 IP-Adapter 使用 Transformer 作为图像编码器,以 CLIP 图像嵌入作为输入,并通过 U-Net 交叉注意层利用提取的图像特征
      • BLIP-Diffusion 通过 Q-Former 将图像嵌入转化为文本嵌入空间,作为扩散模型文本编码器的输入

研究方法

参考资料

Querying Transformer(Q-Former)

  • 由 Image Transformer 和 Text Transformer 组成,共享 Self-Attention 层参数
  • Image Transformer 提取与本文内容最相近的视觉特征
    • 输入:图像特征和可学习 Queries
    • 由于共享 Self-Attention 层参数,Queries 可同时与图像特征和文本特征进行交互
  • Text Transformer 作为输入文本的编码器和解码器

提取风格特征和内容特征

解耦风格特征与内容特征提取

DEADiff
  • STRE(Style Representation Extraction)
    • 使用风格相同的图像作为扩散模型的风格图像和输出目标
    • CLIP 提取的风格图像特征作为Q-Former输入的图像特征,文本“Style”提取特征作为Q-Former的文本特征,内部做交叉注意力,输出与文本相关的图像特征作为风格特征
  • SERE(Content Representation Extraction)
    • 使用主体相同但风格不同的图像作为扩散模型的风格图像和输出目标
    • CLIP 提取的风格图像特征作为Q-Former输入的图像特征,文本“Content”提取特征作为Q-Former的文本特征,内部做交叉注意力,输出与文本相关的图像特征作为内容特征

Disentangled Conditioning Mechanism(DCM)分离条件机制

在使用Diffusion模型去噪的过程中,提取的风格特征和语义特征将作为交叉注意力层的状态输入,从而引导模型更有效地分离风格特征和语义特征

模型使用Stable Diffusion v1.5作为文本-图像生成模型,将16个交叉注意力层编号为0-15,其中,4-8层为Coarse层,其余为Fine层

Disentangled Conditioning Mechanism
  • 输入
    • 风格信息将作为高分辨率Fine层的状态输入,使得提取的风格特征更注重笔画、纹理和颜色等细节信息
    • 语义信息将作为低分辨率Coarse层的状态输入
  • 网络结构 Text-image Crossattention Layer
    • 1)计算图像特征的Key和Value
    • 2)固定参数计算文本特征的Key和Value
    • 3)计算Query
    • 4)分别拼接图像和文本的Key以及图像和文本的Value
    • 5)计算交叉注意力

构建成对数据

准备主体词列表和风格词列表,组合得到相同主体或相同风格的提示词对,利用Text-to-images模型生成图像

  1. 构建文本提示词
    • 1)主体词:人物、动物、物体和场景四种类别,12000
    • 2)风格词:艺术风格、艺术家风格、笔触等,650
    • 3)1个主体词对应约14个风格词构成提示词组合,160000
  2. Midjourney生成图像 1个提示词生成4张分辨率为的图像,上采样到后,构建文本-图像对,1060000
  3. 成对图像选择
    • 1)风格特征学习:随机选择相同提示词生成的图像构成图像对
    • 2)内容特征学习:随机选择主体词相同但风格不同的提示词对应的图像对

p