Workflow
基准
icon
Search documents
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
量子位· 2025-05-29 04:42
LIFEBench团队 投稿 量子位 | 公众号 QbitAI 你是否曾对大语言模型(LLMs)下达过明确的 "长度指令" ? 比如,"写一篇10,000字的长文,详细分析某个议题。"看似简单的要求,实际却往往让这些模型"力不从心": 不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。 一篇最新研究论文 《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》 对这一问题 进行了深入探讨,提出了一个全新的基准测试集 LIFEBENCH,系统评估大语言模型在长度指令遵循方面的表现。 研究结果揭示:这些看似无所不能的模型在长度指令,特别是长文本生成任务中,表现不尽人意。 当模型被明确要求生成特定长 度的文本时,大多数模型表现糟糕。 接下来,让我们一起来看看这篇论文是如何揭示这些"瓶颈"的! LIFEBENCH:专注长度指令遵循的基准测试 LIFEBENCH,全称" L ength In struction F ollowing E valuation Bench mark",是一套专门评估大语言模型在长度指令下表 ...
路透调查:印度央行将在八月将基准利率下调至5.50%,与四月调查一致。
news flash· 2025-05-29 02:07
路透调查:印度央行将在八月将基准利率下调至5.50%,与四月调查一致。 ...
原油:多单、正套轻仓持有,关注OPEC+会议
Guo Tai Jun An Qi Huo· 2025-05-29 01:07
2025 年 5 月 29 日 商 品 研 究 原油:多单、正套轻仓持有,关注 OPEC+会议 黄柳楠 投资咨询从业资格号:Z0015892 huangliunan021151@gtjas.com 研 究 所 1. 澳大利亚 4 月加权 CPI 年率 2.4%,预期 2.3%,前值 2.40%。 2. 新西兰至 5 月 28 日联储利率决定 3.25%,预期 3.25%,前值 3.50%。 3. 法国第一季度 GDP 年率终值 0.6%,预期 0.8%,前值 0.80%。 4. 雪佛龙从美国获得有限使用许可,可以继续在委内瑞拉运营。 5. 路透调查:沙特 7 月对亚洲原油售价或降至 6 个月低位。 6. 阿联酋能源部长:欧佩克+正在尽最大努力平衡市场,确保供应方面有足够的投资。如果没有欧 佩克+,尤其是八国集团,局势将会陷入混乱 7. 德国 5 月季调后失业率 6.3%,预期 6.3%,前值 6.30%。 8. 德国 5 月季调后失业人数 3.4 万人,预期 1 万人,前值 0.4 万人。 9. 瑞士 5 月 ZEW 投资者信心指数 -22,前值-51.6。 10. 金十数据 5 月 28 日讯,受美国阵亡将 ...
谷歌推出开源框架,要给AI大模型的跑分“立规矩”
3 6 Ke· 2025-05-28 23:34
"不服跑个分",曾经是风靡手机圈的一句话,只不过随着用户越来越注重产品的综合体验,"唯分数 论"已经逐渐被手机行业边缘化。可贯彻着万物皆可跑分的原则,AI大模型也成为了"不服跑个分"新的 受众。 只不过相比于智能手机、PC,AI大模型跑分如今还属于是"百家争鸣"的状态。 其中既有清华大学的C-Eval、上海交通大学的CMMLU、伯克利的大模型竞技场(Chatbot Arena)等知名学府推出的榜单,也有民间高手自建的MMLU,甚至于做投资的红杉中国也 搞出了自己的AI基准测试工具xbench。 有鉴于此,谷歌也坐不住了。 01 除了测试AI大模型的性能,作为业界巨头,谷歌还为LMEval引入了Giskard安全评分,以展示其规避有 害内容的表现,百分比越高则代表安全性越强。同时为了打消开发者的顾虑,谷歌方面强调测试结果会 存储在加密的SQLit数据库中,确保数据本地化、且不会被搜索引擎抓取。 02 可是谷歌旗下如今是有Gemini模型的,他们再做一个LMEval真的不是既当裁判员,又当运动员吗? 其实谷歌也是不得已而为之,毕竟当下AI大模型的基准测试可谓是群魔乱舞。比如,Meta最新的LIama 4模型之所以 ...
不只看股市、债市!又有FOF基金修改业绩比较基准,将期货及商品价格指数也纳入
Mei Ri Jing Ji Xin Wen· 2025-05-28 07:08
Core Viewpoint - 华夏基金 announced an adjustment to the performance benchmark of its 华夏聚恒优选三个月 (FOF) fund, reflecting a trend in the industry where fund performance benchmarks are being modified, although such changes are relatively rare for FOF funds [1][3]. Group 1: Benchmark Adjustment Details - The previous benchmark was "中证800指数收益率×45%+中证港股通综合指数收益率×5%+中债综合指数收益率×50%", which will be changed to "中证偏股型基金指数收益率×12.5%+经汇率调整后的标准普尔500指数收益率×12.5%+上海期货交易所有色金属期货价格指数收益率×3%+大连商品交易所豆粕期货价格指数收益率×3.5%+上海黄金交易所Au99.99现货实盘合约收益率×3.5%+中证纯债债券型基金指数收益率×65%" [2]. - The new benchmark includes six indices instead of three, providing a more balanced and diversified reference compared to the previous structure [2]. Group 2: Industry Context and Trends - The domestic public FOF sector has seen rapid growth since its inception in September 2017, with the number of funds reaching 512 and total assets growing to 1510.79 billion yuan, an increase of 179.29 billion yuan compared to the end of 2024 [3]. - Many FOF funds have previously had simple performance benchmarks, often limited to major stock and bond indices, which may not fully reflect the diversified asset allocation strategies employed by fund managers [3][4]. - Over 100 public fund products have changed their performance benchmarks this year, with multi-asset combination products being the primary focus of these changes [3]. Group 3: Market Evolution and Regulatory Changes - The evolution of the benchmark system is driven by the expansion of the securities market and innovation in financial instruments, with the number of listed companies in A-shares surpassing 5,000 [4][5]. - New regulations emphasize the importance of benchmark transparency and investor protection, requiring institutions to clarify that benchmarks reflect allocation frameworks rather than income commitments [5].
新西兰央行将基准利率下调25个基点至3.25%,符合预期
news flash· 2025-05-28 02:09
5月28日,新西兰央行将基准利率下调25个基点至3.25%,符合预期。 ...
抑制“赌风格追热点” 浮动费率基金锚定目标拼业绩
● 本报记者 王鹤静 从费率结构来看,新一批浮动费率基金的管理费分为固定管理费(0.6%)、或有管理费(0.6%)、超 额管理费(0.3%)三部分。持有期限不足一年,按1.20%年费率收取;持有期限达一年及以上,若持有 期间相对业绩比较基准的年化超额收益率(扣除超额管理费后)超过6%且持有收益率(扣除超额管理 费后)为正,按1.50%年费率收取;若持有期间的年化超额收益率在-3%及以下,按0.60%年费率收取; 其他情形按1.20%年费率收取。 在这8只浮动费率基金中,刘旭管理的大成至信回报三年定开、方建管理的银华惠享三年定开、杨金金 管理的交银瑞元三年定开、张延闽管理的南方前瞻共赢三年定开均相对业绩比较基准跑出超额收益。 尤其是大成至信回报三年定开,截至5月26日,该基金成立以来的回报率超30%,相比业绩比较基准, 该基金的超额收益率高达20%以上。从2024年以来披露的定期报告来看,大成至信回报三年定开的股票 仓位始终维持在60%-80%,今年一季度末的股票仓位不到70%。该基金重仓持有中国移动、美的集团、 豪迈科技、格力电器的时间都在一年以上。今年一季度,该基金还显著加仓了阿里巴巴、腾讯控股、中 国电信 ...
罕见!基金价格一度翻倍,紧急提示风险!发生了什么?
券商中国· 2025-05-27 15:23
在产品换将或逐步追平比较基准的预期下,炒作资金将溢价幅度与空间瞄准业绩比较基准的操作套路,使 得业绩比较基准已翻倍的易方达黄金主题基金在场内的溢价出现罕见情形。 易方达基金5月26日发布公告,该产品的二级市场交易价格已远超基金产品份额净值,当前溢价幅度已超 25%。而在不久前,易方达黄金主题基金产品发布基金经理变更公告,之后即出现产品的交易溢价飙升至 67%,该基金产品在二级市场上的涨幅一度高达119%,截至5月26日,易方达黄金主题基金产品的年内价格涨 幅仍有56.84%的高收益,远高于该基金32%的年内净值收益。 值得一提的是,自基金合同生效至最新一期的基金定期报告期末,易方达黄金主题基金产品的A类基金份额净 值增长率为25.60%,同期业绩比较基准收益率为126.25%,而产品换将后的价格涨幅高度接近126.25%的基金 业绩比较基准,也暗含出炒作资金对该基金产品之后净值收益的预期。 公募提醒基金交易风险 5月26日,易方达基金发布公告称,旗下易方达黄金主题基金的A类人民币份额在二级市场交易价格已经明显 高于基金份额净值。按2025年5月22日数据计算,该只黄金主题基金的基金份额净值为1.307元,而同 ...
信托、理财、保险资管产品拟出新规,或将无需披露业绩比较基准
Hua Xia Shi Bao· 2025-05-27 09:01
不披露业绩比较基准或基于多方面考虑 长期以来,业绩比较基准被视为资产管理产品吸引投资者的重要指标。 《办法》第十三条提到,资产管理产品可以不披露业绩比较基准。披露业绩比较基准的,应当说明业绩比较基准 的选择原因、测算依据或计算方法,重点反映业绩比较基准与投资策略、底层资产和相关金融市场表现的关系。 此外,产品管理人应当保持产品业绩比较基准的连贯性,原则上不得调整业绩比较基准。 华夏时报(www.chinatimes.net.cn)记者 卢梦雪 见习记者 张萌 北京报道 银行存款利率屡创新低,不少投资者转向资产管理产品,却发现自己陷入新的困局:"业绩比较基准挺高,怎么实 际收益缩水这么多?" 在记者的走访中,不少投资者表达了类似困惑:实际收益未达预期,有的甚至出现"本金不保"的情况,与机构宣 传的"业绩比较基准"存在显著落差。 投资者合法权益应如何保障?日前,国家金融监督管理总局发布《银行保险机构资产管理产品信息披露管理办法 (征求意见稿)》(下称:《办法》),对资产管理信托产品、理财产品、保险资管产品的信息披露行为进行规 范,允许资产管理产品不披露业绩比较基准,披露则应明确测算依据等信息。此外,产品业绩比较基 ...
今年涨幅前10基金,成立以来大幅跑赢业绩基准?
Sou Hu Cai Jing· 2025-05-27 08:26
Core Viewpoint - The overall performance of the domestic A-share market has been lackluster in 2023, with the CSI 300 index down by 1.34% and the STAR 50 index down by 0.84% as of May 23. However, some funds have shown significant gains, with 21 open-end funds achieving over 50% net value growth this year [1][2]. Fund Performance Summary - The top-performing funds this year can be categorized into three main types: 1. Four funds focused on innovative enterprises listed on the Beijing Stock Exchange, including products from Huaxia, CITIC, Wanjia, and Huitianfu [3]. 2. Four funds investing in advanced manufacturing, particularly in the AI industry chain, from Penghua, Qianhai Kaiyuan, Ping An, and Yongying [3]. 3. Two funds heavily invested in Hong Kong consumer and pharmaceutical stocks, namely Guangfa Growth Navigator and Bank of China Hong Kong Stock Connect Medical A [3]. Performance Against Benchmarks - All top 10 funds have outperformed their respective performance benchmarks. For instance, Huaxia's fund has increased by 66.2% against a benchmark growth of 25.4%, outperforming by 40.8% [3][4]. Similarly, Guangfa's fund has risen by 62.1% compared to a mere 1.9% benchmark increase, outperforming by 60.2% [3][4]. Long-term Performance - Over the past year, the top 10 funds have maintained strong performance, with the lowest growth at 48% and five funds exceeding 100% returns. All have significantly outperformed their benchmarks [4][5]. Historical Performance - Since their inception, all top 10 funds have shown positive returns, with the best performer, Qianhai Kaiyuan, achieving a net value increase of 138.5% against a benchmark growth of 30% [6][7]. Annualized Returns - As of May 23, the annualized returns for these funds range from 10.9% to 36.9%, with newer funds generally showing higher annualized returns [8][9]. Fund Manager Assessment - The China Securities Regulatory Commission has mandated that fund companies assess fund managers based on medium to long-term performance, emphasizing the importance of benchmarks over three-year periods [5][6]. Fund Size and Manager Experience - The top 10 funds have accumulated significant assets, with some exceeding 10 billion yuan in size. However, many of these funds and their managers do not meet the industry standard of having over 10 years of experience [9][10].