元语音 [浏览需要 0 积分] 发布于 2026-01-04 10:16:37 ORPO 论文链接 这篇论文的分析非常好,唯一的缺点是:为什么一定要增大 chosen / rejected 之间的比值,这里未必正确。 整体而言,KAIST 出的论文一如既往的好,论文分析的非常好,比值比,概率比。分析 nice。 语音 #强化学习 1 浏览 (59) 点赞 (1) 收藏