Copyright © 2022-2025 aizws.net · 网站版本: v1.2.6·内部版本: v1.25.2·
页面加载耗时 0.00 毫秒·物理内存 92.2MB ·虚拟内存 1433.3MB
欢迎来到 AI 中文社区(简称 AI 中文社),这里是学习交流 AI 人工智能技术的中文社区。 为了更好的体验,本站推荐使用 Chrome 浏览器。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com





,
是提前设置好的噪声参数,是含有 1000 个元素呈等差数列的列表。k 代表加噪步数。
,用来反映每个 token 的视觉锚定程度。它可以在每个训练步中的自动更新,对于 y 中的每一个 token
:

。可以看出,对于正样本,监督信号 c 随 s 的增大而增大,对于负样本则相反。由于当
时,该 token 没有锚定视觉信息,无监督信号,此时设置 a=0.5, s=0,则 c=1,监督信号将不发挥作用。
之后,可以根据 DPO 方式定义新的视觉锚定分布:

和
分别代表来自 policy 模型和 reference 模型的反馈信号。可以看到,相对于原始的 DPO,该团队在此基础上为每一个 token 加入了监督信号
,而且
可以在训练过程中的每一个 step 中迭代,达到自我校准的目的。
,该项可以推导出合理的上下界。由于正负样本不同的
计算方法,在训练过程中会让
不断增大,让模型输出锚定更多的视觉信息。





声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。