Workflow
语言模型
icon
Search documents
AI写综述,靠谱吗?
Hu Xiu· 2025-07-04 07:49
当Sam Rodriques还是神经生物学的研究生时,他发现了科学研究中的一个基本问题。他说:"我们说不定已 经拥有了理解人体细胞或大脑的所有必要信息,但不知道到底能否确定这一点,因为没有人类能读完和搞懂 所有这些文献。" 五年后,Rodriques说用人工智能(AI)已经接近解决这个问题。2023年9月,他和初创公司FutureHouse的团 队开发出了一个人工智能系统。这个系统能在几分钟内完成科学知识的总结,准确度超过了维基百科页面 [1]。团队随后用这个系统快速生成了大约17000个人类基因的维基百科式条目,之前它们大多没有详细介绍 页。 Rodriques不是唯一用人工智能来汇总科学知识的人。几十年来,学者们一直在寻找方法来加快文献综述这项 耗时的工作。伦敦国王学院的研究综述专家Iain Marshall说,"综述太长、强度太高,而且经常写完就过时 了。"最近,随着支撑ChatGPT等工具的生成式AI即大语言模型(LLM)的快速发展,人们对自动化综述工作 有了新的期待。 一些较新的基于人工智能的科学搜索引擎已经能通过查找、分类和总结出版物,帮助人们撰写叙述性文献综 述,也就是用文字形式系统地整理研究成 ...
第45届国际预测大会在京落幕 预测研究“中国力量”引全球瞩目
Sou Hu Cai Jing· 2025-07-04 07:10
7月2日,第45届国际预测大会(ISF 2025)在北京圆满闭幕。 国际预测大会是该领域最具权威性的国际学术会议。自1981年创办以来,今年首次在中国大陆举办,吸 引了来自全球35个国家和地区的580位顶尖预测科学学者、行业领袖及政策制定者注册参会,规模创历 史新高,充分展现了预测科学在全球的重要性日益增长及中国在该领域的影响力日益提升。 大会围绕"预测科学的前沿与创新"主题,聚焦人工智能、大数据、经济管理、能源环境、气候变化等关 键领域,设置了13场主旨报告、5场深度工作坊、12个平行论坛共计106个专题分论坛,累计开展348场 学术报告。专家学者们就贝叶斯预测、机器学习、大语言模型、预测不确定性、预测组合等热点议题, 以及预测在宏观经济、金融、供应链、能源、医疗、灾害防控等领域的应用展开了广泛而深入的交流。 据了解,下一届国际预测大会(ISF 2026)将于明年在加拿大举行。 ISF 2025大会报告人。主办方供图 本届大会不仅促进了全球预测科学前沿成果的分享与碰撞,也为深化该领域的国际科研合作与交流搭建 了重要平台,对推动预测科学的发展及其在应对全球挑战中的应用具有重要意义。 国际预测者协会主席Laur ...
Science子刊:2024年的生物医学论文,至少有14%利用了AI辅助写作
生物世界· 2025-07-04 06:47
撰文丨王聪 编辑丨王多鱼 排版丨水成文 当世界发生变化时,人类书写的文字也会随之改变。像战争、传染病大流行这样的重大事件会影响文本语料库中的词频分布。科学学科的兴衰在学术著作中也可 见一斑。那么,科学技术的进步是否也在我们的写作中留下了类似的痕迹呢? 2022 年 11 月, ChatGPT 横空出世,这让人类的写作经历了前所未有的变革:首次出现了一款广泛可用的大语言模型 (LLM) ,它能够在包括学术界在内的 多个领域生成和修改具有媲美人类表现的文本。此后,许多研究人员在日常写作任务中融入了大语言模型 (LLM) ,甚至与大语言模型共同撰写了论文。这也引 发了人们对科研诚信、大语言模型生成内容中的事实错误以及论文工厂滥用大语言模型生成虚假论文的担忧。 基于这些担忧,有研究人员开始尝试追踪 大语言模型辅助写作 ( LLM-assisted writing ) 在科学文本中留下的痕迹。 2025 年 7 月 2 日,德国图宾根大学的研究人员在 Science 子刊 Science Advances 上发表了题为 : Delving into LLM-assisted writing in biomedical ...
AI杀死了破折号,也绞杀了语文
Hu Xiu· 2025-07-04 04:23
死因,是被无数人当成了AI的接头暗号。 X的一个大V,@levelsio曾经公开发贴,直接把所有的有破折号"——"的帖子直接给屏蔽了,一个不看。 朋友们,最近的互联网上,发生了一起非常赛博、非常魔幻的凶杀案。 死者,是破折号。 就是这个"——"。 看着像一的玩意。 就这么一个人畜无害、平平无奇,甚至有点学院派的标点符号,突然就暴毙于社交媒体的汪洋大海之中。 我就不贴特定的文章了,我直接举个例子,给大家看一下AI生成的典型样本。 比如这是我进知乎,随手截图的一个问题。 我们把这个问题,扔给ChatGPT,随手让他写一篇6000字的文章。 说实话,我看了真的会心一笑。 因为但凡一些社交媒体上能屏蔽特定符号,我不仅想屏蔽破折号,我还想屏蔽掉双引号。 说实话,最近在很多的社媒平台上,看到一些AI写的内容,看得真的有点烦了。 而且还用着各种蹩脚的双引号和破折号。 然后就会出一篇,让我看的已经恶心的想吐的文章。 | 在这个时代,谁还没站过对立面呢? | | --- | | 有时候是和家庭。有时候是和公司。有时候是和一带你曾深信不疑的朋友。更有时候,是你站在了自己所爱的 | | 群体面前,像是突兀的一把刀。那种感觉,就像你 ...
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 01:42
VScan团队 投稿 量子位 | 公众号 QbitAI 多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越"吃不消": 视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。 为解决这个问题, 腾讯AI Lab联合CMU 提出全新解决方案 VScan 。 该方法聚焦于大规模视觉语言模型推理阶段的效率瓶颈,通过精妙的两阶段视觉token筛选机制,在几乎不损性能的前提下,实现高达2.91x 的推理加速。无需修改模型架构、无需重新训练, 兼容FlashAttention, VScan为业界提供了一种轻量、通用、即插即用的推理加速方案。 为了处理更复杂、更丰富的视觉输入,现有LVLM往往需要编码远超文本Token规模的视觉信息。例如,LLaVA-NeXT在处理高分辨率图像时 会引入多达2,880个视觉Token,而Qwen2.5-VL在应对多图像或视频输入时,甚至能处理高达16,384个视觉Token——这一规模已远远超过 传统语言模型所处理的输入长度。 随着Token数量的激增,输入序列随之拉长,而自注意力机制的计算复杂度呈平方增长,这使得推理阶段 ...
AI眼镜行业深度解读:万亿市场如何掘金?
2025-07-03 15:28
AI 眼镜行业深度解读:万亿市场如何掘金?20250703 摘要 AI 眼镜作为 AI 大模型落地移动终端硬件的载体,具备稀缺性和成长性, 其核心功能包括替代蓝牙耳机、运动相机,甚至可能替代智能手机,市 场潜力巨大。 Meta 与雷朋联合推出的雷朋 Meta 是全球爆款产品,2024 年销量达 142 万台,其成功在于外观与普通眼镜无异,但增加了 AI 交互功能,且 性价比突出,延迟可接受,续航较长。 市场规模测算显示,AI 眼镜在音频、运动相机和 AR 显示替代方面分别 有 1,700 亿、300 亿和 1.8 万亿元人民币的潜力,远期市场空间巨大, 预计未来三至五年全球出货量可达 14 亿台。 2024 年 AI 眼镜全球销量约为 152 万副,渗透率仅为 0.3%,但 2025 年第一季度销量同比增长 82%,IDC 预计 2025 年销量将达 1,500 万台, 渗透率达 3.1%,市场处于导入初期,增长迅速。 AI 眼镜产业的核心驱动因素包括科技巨头入局带来的资金涌入、技术迭 代(如 Deepseek 模型和 Micro LED 显示)、成本降低以及爆品效应, 国产化路线通过零部件替代进一步降低成本 ...
让Claude当老板卖零食,结果大翻车:囤钨块、卖高价可乐、还声称要开除人类
3 6 Ke· 2025-07-02 10:08
"如果让 AI 管零食冰箱,它会做得比人类好吗?" 这个听起来有些无厘头的问题,最近被 Anthropic 团队以一种非常"离谱"的方式认真地回答了——他们真的让 Claude 3.7 接手公司小冰箱的售货运营业 务,结果却上演了一出 AI 版的办公室情景喜剧。 在这场被称为「Project Vend」的实验中,Anthropic 联合 AI 安全公司 Andon Labs,设置了一个非常接地气的场景:让 Claude AI 充当一名"自动售货机运 营经理",负责管理公司一台放在办公室角落的小冰箱,包括订货、定价、收款、回应员工请求等日常运营任务。 人类点零食,它却卖钨块? 一开始,Claudius 的表现还算规矩。员工们通过 Slack 提需求,比如"来点可乐"、"买点薯片"。Claudius就乖乖上网下单、安排补货。可后来,有员工开玩 笑说道"来点钨块",画风就开始逐渐变得离谱。 Claudius 没有理解"钨块"作为玩笑的语境,反而异常兴奋地展开了采购行动,大量订购钨块,直接把原本应该放饮料的小冰箱塞满了金属块。此外,它还 试图把零度可乐卖到 3 美元(约合 21 元人民币)一瓶,哪怕员工直接告诉它"这 ...
AI:加速能力退化的元凶
3 6 Ke· 2025-07-02 07:16
越依赖LLM,智商越低 自2022年末AI浪潮席卷公众认知以来,相关讨论已汗牛充栋。作为从业二十年的软件工程师,我想谈 谈观察到的两种危险认知。 "LLM是我的好搭档" 不会真的有人把程序当成自己的伙伴,这话的潜台词其实是:LLM能给用户带来巨大收益。 神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技 术、新观点、新风向。 编者按:当业界沉迷于用AI提效的幻象,本文以程序理论与熵增原理揭穿残酷真相:过度依赖LLM正 加速工程师批判性思维退化,而重塑技术敬畏已成生存必修课。文章来自编译。 把LLM当盟友的工程师,往往被迫或主动追求速度至上——对他们而言,交付速度比思考深度更重 要。虽然LLM确实能快速生成代码,但也会伴随着各种长尾风险: 使用LLM的风险 资深工程师失去在攻坚中成长的机会,现有能力逐渐萎缩: "微软研究发现:AI带来的自信常以牺牲批判性思维为代价" "在这个推崇'条件反射式AI使用'的世界,我主张保留编程的手艺本质" "LLM直接给我成品结论,却剥夺了思维成长的过程" 初级工程师永远无法建立核心能力,更遑论培养下一代。 创造剥夺:众多开发者反馈AI夺走了心流状态和 ...
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 02:02
SRFT团队 投稿 量子位 | 公众号 QbitAI 通过单阶段监督微调与强化微调结合,让大模型在训练时能同时利用专家演示和自我探索试错,有效提升大模型推理性能。 中国科学院自动化研究所深度强化学习团队 联合 美团 ,提出一种 单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning) 。该方法通过基于熵的动态加权机制,将两种训练范式结合。 在大语言模型(LLM)的推理能力提升上,监督微调(SFT) 和强化学习(RL,有时也称作强化微调,RFT)是两条核心技术路线。但它们 各自都存在瓶颈: SFT擅长模仿专家解题思路,类似"背书",能快速为模型打下基础,但缺点是容易陷入死记硬背,缺乏在新问题上灵活应用和寻找最优解的能 力; RFT/RL通过不断试错来探索解题方法,类似"刷题",能够发现更优解法,但其探索过程效率低下,容易面临模式崩溃风险。 因此,目前研究者通常采用两阶段 顺序 方法SFT→RFT/RL:先用SFT学习高质量数据集,再用RFT/RL进一步优化对齐LLM策略(即先"背 完书"再"去刷题")。 然而,这种串行方式不仅影响学习效率,还常常导致模型 ...
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 00:54
正因如此,在这个多模态模型席卷科研与工业的新时代,回顾并总结纯视觉范式下的通用视觉模型研究 仍然是一件十分有意义的事情。 清华大学自动化系鲁继文团队 最近发表于 IJCV 的综述论文系统梳理 了该方向的研究进展,涵盖输入统一方法、任务通用策略、模型框架设计、模型评测应用等内容,希望 能为未来视觉模型的发展提供参考与启发。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。如今,多模态大模型兴起,视 觉被看作是语言模型众多输入模态中的一种,视觉模态数据被离散化为 Token,与文本一起被统一建 模,视觉的「独立性」正在被重新定义。 在这种趋势下,传统意义上以视觉任务为核心、以视觉范式为驱动的通用视觉模型研究,似乎正在逐渐 被边缘化。然而,我们认为视觉领域仍应保有自己的特色和研究重点。与语言数据相比,视觉数据具有 结构化强、空间信息丰富等天然优势,但也存在视觉模态间差异大、难替代的挑战。例如:如何统一处 理 2D 图像、3D 点云和视频流等异质输入?如何设计统一的输出表示来同时支持像素级分割和目标检 测等不同任务?这些问题在当前的多模态范式中并未被充分解决。 论文标题: Vision Gener ...