组合级别投资决策
Search documents
高智商 ≠ 高财商?50天实盘测试:LMArena 高分王者也可能是「韭菜」
机器之心· 2025-11-02 03:10
该研究团队来自伊利诺伊大学厄巴纳-香槟分校(UIUC)。核心贡献者之一 Haofei Yu 为计算机系博士生,另一位核心贡献者 Fenghai Li 为计算机系本科生,指 导教师 Jiaxuan You 为计算机系助理教授,指导 UIUC U Lab。Jiaxuan You 教授的研究聚焦于大模型智能体(Agentic LLM)的基础能力、垂直应用、生态建 设,博士毕业于斯坦福大学,已在 NeurIPS、ICML、ICLR 等顶级会议发表论文三十余篇,总引用量近两万次,多次担任 Area Chair 并组织 Workshop;其开 发或主导的开源项目累计获得三万余颗 Star。 「在大模型热潮中,如何真正评测它们的智能?」 过去的评测多停留在知识问答、推理或指令理解层面。而 LiveTradeBench 首次让大模型「下场交易」——在真实金融市场的动态博弈中,检验其感知、推理与决 策能力。 LiveTradeBench 的研究启动于数月前,并连续进行了为期五十天的实盘测试,覆盖美股市场与去中心化预测市场 PolyMarket,是最早探索「实盘智能体评测」的 工作之一。 在这里,模型不仅要理解财经信息,更要在不 ...