Diffusion-LM:用扩散过程控制文本生成
Diffusion-LM 在连续词向量上迭代去噪,让梯度引导可以控制句法等细粒度属性,而不用重新训练语言模型。
机构
在 AI、系统、语言和机器人方向有重要贡献的顶尖研究型大学。
Diffusion-LM 在连续词向量上迭代去噪,让梯度引导可以控制句法等细粒度属性,而不用重新训练语言模型。
ControlNet 用「零卷积」把一份可训练的副本接到冻结的 Stable Diffusion 上,让边缘图、深度图、姿态、分割图直接控制生成,且不到 5 万张图也能稳定训练。
DPO 用一个分类式损失直接在偏好对上求解 RLHF 问题:不训练单独的奖励模型,不跑强化学习循环,训练时也不采样。
FlashAttention 是精确注意力算法,用分块和重计算压缩 GPU 内存搬运:GPT-2 提速 3 倍、BERT-large 提速 15%,显存随序列长度线性增长。