无需领导采样,清华大学提出视觉模子练习新范
作者:[db:作者] 发布时间:2025-02-10 08:37
AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected][email protected]领导采样 Classifier-Free Guidance(CFG)始终以来都是视觉天生模子中的要害技巧。但是近来,清华年夜学 TSAIL 团队提出了一种极端简略的方式,实现了原生无需领导采样视觉模子的直接练习。他们在 Stable Diffusion,DiT,VAR,LlamaGen,MAR 五个一模一样的视觉架构长进行了验证,分歧发明新方式机能与 CFG 相称,而采样本钱减半。算法称号:Guidance-Free Training (GFT)论文链接:https://arxiv.org/abs/2501.15420文生图义务中,免领导采样算法 GFT 与领导采样算法 CFG 均能年夜幅晋升天生品质,而前者更为高效。GFT 可经由过程调理采样时的「温度系数」来调理 diversity-fidelity trade-off与此同时,GFT 算法坚持了与 CFG 练习流程的高度分歧,只要变动不到 10 行代码就可轻松实现。视觉领导采样的成绩与挑衅天生品质跟多样性是彼此管束的关联。年夜言语模子(LLMs)重要经由过程将模子输出直接除以一个采样温度系数 来衡量二者,可显明进步天生品质。但是,晚期研讨却发明这类温度采样方式对视觉天生完整不起感化。现在,视觉天生依附引入一个新的无前提模子,用领导采样(CFG)到达相似温度采样的后果:但是,CFG 中引入的无前提模子却给视觉模子练习带来了各种掣肘,由于在每一个采样步咱们都须要停止有前提跟无前提两次模子推理,招致盘算开支倍增。别的,在对预练习模子微调或进一步蒸馏时,咱们也须要分辨斟酌有前提跟无前提两个视觉模子的练习,这又增添了模子练习的开支及算法庞杂度。为了防止 CFG 领导采样招致的额定盘算开支,已有的方式年夜多采取基于一个预练习好的 CFG 老师模子持续蒸馏的手腕。但这引入了一个额定的练习阶段,可能会带来机能丧失。GFT 算法恰是实验处理这一成绩。简略说,它实现了原生免 CFG 视觉模子从零练习,且有着跟 CFG 相称的收敛速率,算法稳固性与采样表示。更主要的是,它充足简练、通用。一种算法可同时用于分散、自回归、掩码三种视觉模子。Guidance Free Training 算法计划GFT 完整采取了监视练习中的分散丧失函数。在练习中,其跟 CFG 最年夜的差别是:GFT 并不显式参数化一个「有前提视觉模子」,而是将其表现为一个采样模子跟一个无前提模子的线性组合:如许在在咱们练习这个「隐式」有前提模子时,咱们实质上在直接练习其背地参数化好的采样模子。论文证实,跟着线性组合系数 β(又称「伪温度系数」)的变更,其对应的采样模子将跟 CFG 算法界说的采样散布逐一对应。GFT 的算法魂魄:简略、高效、兼容在现实安排中,因为 GFT 算法在计划上能够与 CFG 练习方式坚持了高度对齐,这使得其能够最低本钱被安排实现( 10 行代码),乃至不须要变动已有代码的练习超参数。GFT 练习也十分高效,与 CFG 比拟,它不须要任何额定的内存开支,只要增添约 20% 的练习时光,即可节俭 50% 的采样本钱。别的,GFT 高度通用。不只仅实用于分散视觉模子,对自回归、掩码这类团圆视觉模子也同样实用:试验验证GFT 在分散模子 DiT、Stable Diffusion,自回归模子 VAR,LlamaGen,掩码分散模子 MAR 五个一模一样的模子下面分辨停止了试验验证。起首,研讨者测试了 GFT 作为一个微调算法,把当下已有的 CFG 预练习模子转换为免领导采取模子的才能。发明在 FID 指标上,GFT 能够做到无损转换。随后、研讨者测试了 GFT 作为一个预练习算法,跟 CFG 练习的比拟(雷同练习步)。成果标明,GFT 练习出的免领导采取模子才能与 CFG 模子持平乃至更优。连丧失函数收敛曲线也基础重合。最后,论文还在差别模子上测试了 GFT 对采样品质跟多样性衡量曲线的把持才能。作者先容本文有两位独特一作。陈华玉、清华年夜学盘算机系四年级博士生。重要研讨偏向为强化进修与天生式模子。曾在 ICML/NeurIPS/ICLR 国际集会上宣布多篇学术论文。是开源强化进修算法库「天授」的重要作者(Github 8k 星标)。导师为朱军教学。姜凯、清华年夜学 TSAIL 团队练习生,重要研讨偏向为视觉天生模子。导师为陈键飞副教学。
电话
020-66888888