Workflow
语言模型
icon
Search documents
晚点独家丨Agent 初创公司 Pokee.ai 种子轮融资 1200 万美元,Point 72 创投,英特尔陈立武等投资
晚点LatePost· 2025-07-09 11:38
以下文章来源于晚点科技 ,作者晚点团队 晚点科技 . 晚一点,好一点 今年 4 月,《晚点 LatePost》曾访谈 AI Agent 创业公司 Pokee.ai 创始人朱哲清, 他分享了强 化学习如何用于构造 Agent 。 我们了解到,Pokee.ai 近期完成种子轮融资,募资额约 1200 万美元。投资人包括对冲基金 Point72 旗下风险投资机构 Point72 Ventures、芯片公司高通的风投部门 Qualcomm Ventures, 以及英特尔 CEO 陈立武、前 Adobe CTO Abhay Parasnis 和前 Tinder CTO Maria Zhang。 Pokee.ai 去年 10 月成立,最近也只有 7 名员工。创始人朱哲清告诉我们,完成融资后 Pokee.ai 不计划大规模扩招,短期内研发员工数量不会超过 10 人。资金将用于扩张其 Agent 产品 Pokee 的可选工具集、加快对大公司客户销售。 创立 Pokee.ai 之前,朱哲清曾任 Meta "应用强化学习" 部门负责人,用强化学习算法改善内容推荐系 统,把上任前只剩 3 人,一度要关停的部门扩张至 10 余人,为 ...
「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式
机器之心· 2025-07-09 07:10
机器之心报道 编辑:泽南、+0 现在的世界模型,值得批判。 我们知道,大语言模型(LLM)是通过预测对话的下一个单词的形式产生输出的。由此产生的对话、推理甚至创作能力已经接近人类智力水平。 但目前看起来,ChatGPT 等大模型与真正的 AGI 还有肉眼可见的差距。如果我们能够完美地模拟环境中每一个可能的未来,是否就可以创造出强大的 AI 了?回想 一下人类:与 ChatGPT 不同,人类的能力组成有具体技能、深度复杂能力的区分。 模拟推理的案例:一个人(可能是自私的)通过心理模拟多个可能结果来帮助一个哭泣的人。 人类可以执行广泛的复杂任务,所有这些任务都基于相同的人类大脑认知架构。是否存在一个人工智能系统也能完成所有这些任务呢? 论文:Critiques of World Models 论文链接:https://arxiv.org/abs/2507.05169 研究人员指出了构建、训练世界模型的五个重点方面:1)识别并准备包含目标世界信息的训练数据;2)采用一种通用表征空间来表示潜在世界状态,其含义可 能比直接观察到的数据更为丰富;3)设计能够有效对表征进行推理的架构;4)选择能正确指导模型训练的目标函数; ...
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
机器之心· 2025-07-09 04:23
朱昆仑是伊利诺伊大学香槟分校(UIUC)计算机科学系的研究生,现隶属于Ulab与Blender Lab,曾在斯坦福大学、卡内基梅隆大学(CMU)与蒙特利尔学习算 法研究所(Mila)进行学术访问。他的研究方向包括大语言模型(LLM)智能体、多智能体系统、AI科学家与工具学习等,在ICML、ICLR、ACL、TMLR等顶 级会议与期刊发表论文10余篇,总引用超过1500次。 他积极参与多个广泛影响的开源项目,包括 OpenManus(RL)、ChatDev(MACNET)、ToolBench 等,累计 在 GitHub 上获得超过 5万+ stars。此外,他曾受邀在 AMD 开发者大会、阿里巴巴云栖大会等重要学术与工业会议中作报告,分享其在AI智能体方面的开源成 果。 这不仅是一个评测集,更是首个能够全面、系统化地评估 LLM 多智能体系统协作与竞争能力的综合性基准。它不仅仅是一套「考题」,而更像一个「模拟 真实社会动态的实验室」,旨在揭示多智能体协作的奥秘,并回答一系列关键问题: …… 论文标题: MultiAgentBench:Evaluating the Collaboration and Compet ...
硅谷抢人大战!OpenAI连抢特斯拉等巨头四名大将
21世纪经济报道· 2025-07-09 03:10
Core Viewpoint - The ongoing competition for AI talent in Silicon Valley is intensifying, with OpenAI successfully recruiting key personnel from Tesla, xAI, and Meta, highlighting the scarcity of top AI experts in the industry [1][2]. Group 1: Talent Acquisition - OpenAI has hired four significant AI figures from Tesla, xAI, and Meta, including David Lau and Uday Ruddarraju, indicating a strategic move to bolster its capabilities [1]. - Meta has initiated aggressive recruitment efforts, including direct outreach via WhatsApp and substantial salary offers, to build a new AI lab aimed at accelerating the development of General Artificial Intelligence (AGI) [2]. - Reports indicate that the demand for AI-skilled positions has grown by 21% annually since 2019, significantly outpacing the supply of qualified candidates [2]. Group 2: Salary and Compensation - Meta is reportedly offering salaries significantly above market averages to attract top AI researchers, with compensation for AI engineers ranging from $186,000 to $3.2 million, compared to OpenAI's range of $212,000 to $2.5 million [4]. - There are claims that Meta offered signing bonuses as high as $100 million to lure OpenAI employees, although Meta's CTO downplayed these figures, stating they apply only to a select few senior positions [3][4]. Group 3: Industry Impact - The competition for AI talent is described as reaching a "professional competitive level" in Silicon Valley, with estimates of the number of top AI experts globally being less than 1,000 [2]. - The recruitment of key personnel from Apple, such as Pang Ruoming, to Meta's new AI team may lead to further instability within Apple's AI divisions, as other engineers express intentions to leave [4].
长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」
机器之心· 2025-07-09 00:50
机器之心报道 编辑:张倩 思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。 找出这些步骤,我们就可以更深入地理解 LLM 的内部推理机制,从而提高模型的可解释性、可调试性和安全性。 但是,这些步骤没有那么好找,因为每个生成的 token 都依赖于之前的所有 token,其计算难以分解。 在最近的一项研究中,来自杜克大学和 Aiphabet 的研究者提出, 在句子层面分析推理痕迹或许是一种有前途的方法 。 作者指出,与 token 相比,句子的连贯性更强,并且往往与 LLM 提取的推理步骤相一致;与段落相比,句子不太可能混淆推理步骤,并且可以作为连接不同步骤 的有效对象。 作者提出了三种互补的方法来分析 LLM 的推理过程,这些方法旨在识别推理过程中的关键步骤,即所谓的「思维锚(thought anchor)」,这些步骤对后续推理过 程具有重大影响。 论文标题:Thought Anchors: Which LLM Reasoning Steps Matter? 论文链接:https://arxiv.org/pdf/2506.19143 第一种是 黑盒方法 。它通过反事实分析衡量句 ...
还在为AI数据发愁?张文涛和鄂维南院士团队推出Data-centric AI系统
机器之心· 2025-07-08 09:41
近年来,大模型发展主要由大型科技公司主导,其领先的核心在于规模庞大且高质量的数据资源。然而,这些公司通常并不公开其原始数据及数据处理工具,使 得学术界在大模型训练数据的构建与优化方面难以追赶,受制甚深。 尽管近年来开源了大量数据集,学术界在大模型数据准备方面仍面临诸多挑战。目前,大模型训练数据的清洗与构建仍主要依赖各个研究团队 "闭门造车",缺乏 系统化、高效的工具支持 。现有的数据处理工具如 Hadoop 和 Spark 等, 支持的操作算子大多偏向传统方法,尚未有效集成基于最新大语言模型(LLMs)的智能 算子,对于构建先进大模型的训练数据支持有限。 为此,张文涛和鄂维南院士团队提出了以数据为中心的 AI 系统 DataFlow 。它系统实现了 100 余个基于规则、本地大模型或大模型 API 的数据治理算子 (Operators),并在此基础上构建 8 条预设数据处理流水线(Pipeline),包括:大规模嘈杂数据(如 PDF 文档、纯文本、低质量问答数据、爬虫数据等)的清 洗、扩增与评估;带有思维链的强推理数据合成;RAG 数据提取与合成等等主流数据治理需求。该系统可供用户灵活组织现有算子,开发新算子 ...
Nature子刊:谈攀/洪亮团队开发蛋白质语言模型VenusMine,成功挖掘高效的PET水解酶
生物世界· 2025-07-08 08:18
近日, 上海人工智能实验室青年研究员 谈攀 联 合 上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院 洪亮 教授团队,在 Nature Communications 期刊发表了题为: Harnessing Protein Language Model for Structure-Based Discovery of Highly Efficient and Robust PET Hydrolases 的研究论文。 该研究发布了用于酶挖掘的蛋白质大模型—— VenusMine ,该 模型融合了蛋白质语言大模型与三维结构分析,通过蛋白质序列、结构和功能之间的隐含映射规则,能在海量的蛋白 数据库中高效挖掘同源性低但功能优异的酶分子。 应用该模型,研究团队成功发现了一系列 PET 水解酶,其中来自 Kibdelosporangium banguiense 的 KbPETase 表现出极高的催化效 率和热稳定性,其最适酶活是模板 IsPETase 的 97 倍。 编辑丨王多鱼 排版丨水成文 塑料废弃物,带来了重大环境挑战,尤其是 聚对苯二甲酸乙二醇酯 (PET) ,是当今使用量最大的饮料包装,用于 碳酸饮料 ...
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 07:30
HumanOmniV2团队 投稿 量子位 | 公众号 QbitAI 在多模态大语言模型(MLLMs)应用日益多元化的今天,对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习(RL) 在增强大语言模型(LLMs)的推理能力方面已展现出巨大潜力,但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。 在深入研究现有技术后,发现在当前多模态推理模型中发现现有的推理路径存在两大核心问题:全局上下文理解不足和捷径问题。 全局上下文理解不足: 当模型无法准确识别或错误解读多模态证据和上下文信息时,便会出现此问题,导致给出不正确的答案。 捷径问题: 指模型在处理多模态输入时,忽视了关键线索,未充分考量多模态信息就直接给出答案,从而导致次优或片面的结果 为彻底解决这些痛点,阿里巴巴通义实验室团队推出 HumanOmniV2 ,强调模型必须在对多模态输入 全局上下文有清晰理解 的 基础上进行推理。这种全局性理解能够有效避免模型遗漏关键多模态线索,确保推理过程的全面性和深入性。 相关代码、模型、数据都开源,地址可在文末获取。 效果展示 问题:这两个人是什么关系? A. 他们想引起人们对该产品的关注。 B. 这两个人是商业伙 ...
美科技巨头角逐五角大楼大单,向AI要营收 | 企服国际观察
Tai Mei Ti A P P· 2025-07-08 03:43
图片来源@unsplash 上月,OpenAI与美国国防部签署了一份价值2亿美元为期一年的合同订单。根据该合同,OpenAI将为其 提供AI工具,以应对作战和企业领域的关键国家安全挑战。美国国防部表示:"根据该合同,履约方将 开发原型前沿AI能力,以应对作战和企业领域的关键国家安全挑战。" 近年来,美国白宫及五角大楼与硅谷多家巨头科技公司签订合同协议,从颇有争议的百亿美元云计算大 单,到聚焦生成式AI在军事领域的应用拓展,市场潜力虽巨大,但诸多政策、原则、合作策略上的转 变,致使政府订单采购市场的争夺,变得愈发激烈。 拉近政府关系的,不止有老牌巨头 最先吃上政府铁饭碗的是大数据厂商Palantir。20年前成立之初,Palantir就服务于CIA等情报机关,为其 提供辅助分析服务,随后多年将其服务机构扩展到多个美国政府机关、军方,以及商业领域。 得益于这一点,Palantir近些年持续实现业务收入强劲增长,2024年至今,该公司股价实现飙升,最高 涨幅超过7倍。其收入60%来自于政府业务,作为Project Maven项目的主要承接单位,Palantir在2024年 与美国国防部签署了更大的合同,以扩展该项目 ...
快手团队发布8B Kwai Keye-VL!技术报告速递~
自动驾驶之心· 2025-07-07 12:17
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 快手团队发布8B Kwai Keye-VL 尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在静态图像处理方面展现出卓越的能 力,但在理解动态性强、信息密度高的短视频内容方面仍存在明显不足——而短视频正是当今数字生态中 的主流媒介。为弥补这一差距,快手团推推出了 Kwai Keye-VL ,这是一款参数规模达 8B的多模态基础模 型,专为实现领先的短视频理解能力而设计,同时保持强大的通用视觉-语言处理能力。 Keye-VL 的构建基于两大核心支柱:一是包含超过 6000 亿 token 的大规模高质量数据集,其中以视频数据 为核心;二是创新性的训练策略。该训练策略包括一个四阶段的预训练流程,以实现稳固的视觉与语言对 齐;随后是一个精心设计的两阶段后训练过程。第一个后训练阶段旨在增强模型的基础能力,如指令跟随 等;第二阶段则专注于激发其高级推理能力。 在第二阶段中,我们的关键创新之一是一种五模式"冷启动"数据混合策略,包括"思考型"、"非思考 型"、"自动思考型"、"图文思 ...