Workflow
LUFFY
icon
Search documents
X @Bitget Wallet 🩵
Bitget Wallet 🩵· 2025-10-15 14:56
Join @LUFFY_BNB for #FOMOThursdays & scratch your way to the top prize of 110,000 LUFFY!Limited to 20,000 entries, max 6 entries per user.Trade $LUFFY for more entries, 2.56M $LUFFY available: https://t.co/Ml1VRykUcoStarts: Oct 8, 21:00 UTC+8Scratch: Oct 9, 22:00 UTC+8 https://t.co/wfcWpcgbfh ...
X @Bitget Wallet 🩵
Bitget Wallet 🩵· 2025-10-14 02:59
Nakamas! Trade $LUFFY to join FOMO! @LUFFY_BNB🏆 1 Top Prize: 110,000 LUFFY🍀 1,750 Lucky Prizes: 1400 LUFFY20,000 limited entries:🎟️ Trade >$20 of LUFFY for 1st card🎟️ Trade >$100 of LUFFY for 1 extra (5 max)⏰ Trading starts: Oct 14, 11:00 UTC+8🎟️ Claim cards: Oct 15, 21:00 UTC+8Trade now: https://t.co/fp2YtLIpSe ...
边学边练,推理觉醒:LUFFY让强化学习即学即用!
机器之心· 2025-05-05 03:40
破解 "只学不练" 与 "只练不学" 的难题 想象你准备参加一场高水平的数学竞赛。如果你只是反复背诵往年题目的标准答案,从不亲自动手解题,那么一旦遇到新题型,很可能束手无策;反过来,如果 你闭门造车,只凭自己反复试错而从不参考老师和高手的解题经验,进步又会异常缓慢。这就好比 AI 模型 训练中长期存在的两种极端: 「 模仿学习 」 只顾照搬 示范却缺乏自我实践, 「强化学习 」 一味自我探索却不借鉴现有经验。 这两种 「只学不练 」 和 「只练不学 」 的策略各有弊端:前者往往学得快但 泛化差 ,后者可能探索勤但 效率低 。那么,有没有两全其美的办法,让模型既能借 鉴高手经验又能保持自主探索?最近,上海 AI 实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式: LUFFY(Learning to reason Under oFF-policY guidance) 。 论文链接:https://arxiv.org/abs/2504.14945 代码仓库:https://github.com/ElliottYan/LUFFY 图表 1. 在六项竞赛级数学推理基准上的整体表现。在 A ...