语言模型

Search documents
中泰资管天团 | 李玉刚:挑战共识、提出有价值假说的能力,很难被AI替代
中泰证券资管· 2025-06-19 08:16
人类最伟大的能力,不是知道答案,而是永远保持提问与重构答案的可能。 L. G. Valiant 在规则明确、数据丰富的任务中AI已展现出越来越强大的超人类能力。比如OpenAI宣称,GPT-4参加了多 种基准考试,包括美国律师资格考试、法学院入学考试LSAT、SAT数学部分和证据性阅读与写作部分考 试等。在这些测试中,GPT-4得分高于88%的人类应试者。 AI技术的快速进展和成熟,无疑从很多方面影响和改变着我们的生活和工作方式,尤其是在 整合共识和 主流叙事、优化"已知"领域的运行效率 方面,现有的AI模型已体现出强大的能力。 相比与当前的AI,人类的价值和竞争优势体现在哪里?个人赞同以下观点, 保持对异常现象的好奇心, 勇于挑战共识,提出有价值的假说,仍是人类最值得珍视的能力。 AI的优势:高效整合历史经验和共识, 优化"已知"领域的运行效率 当前以大语言模型(LLMs)为代表的AI模型,仍然是一个 数据和计算驱动,基于历史频率、相关性及均 值的统计归纳系统 。它的"智能",是基于"同一事物可以通过无限种方式被陈述、表达和表征"这一事 实。其能力源于语言表征的泛化能力,即能够将一种表达方式转化为另一种表达 ...
Andrej Karpathy 爆火演讲刷屏技术圈:AI 开启软件 3.0,重写一切的时代来了!
AI前线· 2025-06-19 08:10
作者|Andrej Karpathy 编译|冬梅 策划|Tina 编者按: 近日,在旧金山 AI 创业学校的讲台上,曾任职斯坦福大学、OpenAI 和特斯拉的 AI 领袖 Andrej Karpathy,以一种横跨学术与产业的独特视角,揭示了一场 正在重塑技术世界的范式转移。 Andrej 看到了一场"编程革命"正在发生。随着 AI 技术的发展,软件编程已经进入了 "3.0 时代",自然语言取代传统代码成为核心编程接口,大模型则承担起 过去需要人工编写的复杂逻辑。 Andrej 指出,这一转变远非简单的工具迭代。当开发者通过日常语言指令即可驱动系统,当用户的需求能直接转化为机器可执行的意图时,我们实际上是在 构建一种"新型计算机"。这种计算机不再依赖精确的语法规则,而是以概率化、语义化的方式理解世界——就像人类一样。 这种进化对开发者来说是一件好事,这意味着编程门槛的消弭。对用户来讲更是好事,因为能让交互方式彻底解放,人机协作再也没有语言层面的障碍。正 如 Andrej 所强调的:我们正站在人机关系的历史转折点上,未来的软件将不再是冷冰冰的工具,而是能理解、推理甚至主动协作的智能伙伴。 这场变革的 深度,或许 ...
从敦煌到大足 两大世界文化遗产首次在重庆联展
Zhong Guo Xin Wen Wang· 2025-06-19 01:50
通过数字孪生技术,展览整窟复制敦煌莫高窟第158窟、第3窟、第45窟、第17窟和大足石刻宝顶山小佛 湾第9号毗卢庵、大足石刻北山第245号窟,打破不可移动文物的地理局限性,兼顾文物保护与传播。 展览深化数字技术应用,打造沉浸式体验空间,以现代化展陈语言对石窟艺术中国化历程创新诠释。借 助AI技术与交互科技,游客通过"点亮千手观音"光影互动装置,与电子屏合掌时就能够实时生成图像, 助力观音贴金,体验千手观音"修复"工作,打破传统展陈时空界限,深度参与文物体验。 借助大语言模型,北魏时期敦煌禅定佛像(莫高窟第259窟)与南宋时期大足释迦牟尼佛像(原位于大足石 刻宝顶山小佛湾)实现跨越时空"对话"。 本次展览由重庆中国三峡博物馆联合敦煌研究院、大足石刻研究院、甘肃省博物馆、四川博物院、新疆 维吾尔自治区博物馆、敦煌市博物馆、资阳市博物馆、安岳石窟研究院、广安市博物馆等单位联合策 划。展览将持续至2026年1月5日。 (梁钦卿) "从敦煌到大足——石窟艺术中国化流变展"18日在重庆中国三峡博物馆开幕。 作为敦煌莫高窟与大足石刻两大世界文化遗产的首次联展,本次展览共呈现200余件展品,其中高善穆 石塔等国宝级文物2件、 ...
MiniMax最快今年赴港上市:新发布的M1推理模型直接叫板DeepSeek-R1与GPT-4
IPO早知道· 2025-06-18 13:10
自6月17日起,MiniMax将连续发布5天新模型。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 值得注意的是,自 6月17日起, MiniMax 将连续发布 5天新模型。 其中, 6月17日发布的 MiniMax-M1 是 世界上第一个开源的大规模混合架构的推理模型 —— M1 在面向生产力的复杂场景中能力是开源模型中的最好一档,超过国内的闭源模型,接近海外的最领先 模型,同时又有业内最高的性价比。 与 DeepSeek-R1相比,M1模型在数学和编码等任务中效率更高 ;与 GPT-4 相比, M1推理模 型 能力与之匹配 , 而 成本仅为 GPT-4的0.5% 。 6月18日, MiniMax 又发布了 新视频生成模型 Hailuo 02 ,同样 打破全球视频模型效果成本纪录 。 本文由公众号IPO早知道(ID:ipozaozhidao)原创撰写,如需转载请联系C叔↓↓↓ 据 IPO早知道消息,国内"大模型六小龙之一"的 MiniMax (稀宇科技)最快今年赴港上市。 一操办过多起香港大型科技 IPO的投行人士向「IPO早知道」透露, MiniMax 的确就赴 ...
MiniMax追着DeepSeek打
Jing Ji Guan Cha Wang· 2025-06-18 11:32
2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就 训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广 泛争议。 MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万 美元,这一成本"比最初的预期少了一个数量级"。 MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性 注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性 采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。 经济观察报 记者 陈月芹 6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发 布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训 练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro ...
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
机器之心· 2025-06-18 09:34
近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超 越了人类平均水平。这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。 更进一步的,在结合了外部工具之后,一些模型(如 o3 和 o4-mini-high)甚至在 Codeforces 平台上获得了超过 2700 的 Elo 评分 —— 这个分数已跻身参赛者前 0.1%。 然而,这些简单的量化评估,真的能体现模型解决复杂问题的能力吗?我们不妨先问几个问题:LLMs 真的具备与顶级人类选手相当的推理能力吗?模型的高分究 竟有多少来自真实的推理能力,又有多少是依赖外部工具的结果? 为了解答上述问题,来自纽约大学、普林斯顿大学等 8 家机构的研究者提出了 LiveCodeBench Pro ,这是一个极具挑战性的竞技编程基准测试。 值得一提的是,这项研究有多位参加过国际算法竞赛。例如,作者之一、纽约大学本科生 Zihan Zheng 曾代表学校参加 ICPC 世界总决赛。 LiveCodeBench Pro 收录了 5 ...
比我们想象还要震撼!“硅谷创投教父”霍夫曼深度剖析:当前的硅谷投资与科技趋势
聪明投资者· 2025-06-18 08:33
诺亚ARK近期的一期投策会上,邀请了著名风险投资人,创业孵化 FoundersSpace创始人史蒂夫·霍 夫曼,进行了一场有些"烧脑"的 AI 大图景的分享。 霍夫曼被誉为 "硅谷创投教父",不仅仅因为他在创业孵化领域的成功实践,而且《让大象飞》《穿越 寒冬》等著作也影响了大批创业者。 他是 一位资深的创业导师和科技趋势观察者,更是一位深谙风险投资之道的专家。 这场交流会上,霍夫曼 展示 了很多 新事物, 尤其是 硅谷非常激动人心的最新发展,这些趋势将对 当 下 的业务和经济产生深远影响。 比如他谈到: "(硅谷) 这里几乎没有中间地带 。 要么融不到一分钱,要么拿到的资金多得惊人。 如今 所有的资 金、所有的风投机构都在疯狂涌向少数几家炙手可热的初创公司。 " "如果 观察硅谷风投公司的投资组合,会发现 2025年将成为企业级AI的成败之年 。 " "( D eep S eek) 开源 +蒸馏这两个关键策略彻底改变了人工智能领域的竞争格局 。 " " 越来越多的企业开始围绕小型模型展开创新,这是一个巨大的增长领域,也带来了很多新的投资机 会。 " " 正在开发的 AI代理,才是人类历史上第一次真正可以执行复 ...
俄罗斯联邦储蓄银行第一副首席执行官:俄罗斯联邦储蓄银行计划在不久的将来推出具有推理能力的大型语言模型。
news flash· 2025-06-18 08:06
俄罗斯联邦储蓄银行第一副首席执行官:俄罗斯联邦储蓄银行计划在不久的将来推出具有推理能力的大 型语言模型。 ...
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 06:09
机器之心报道 编辑:+0 人类从农耕时代到工业时代花了数千年,从工业时代到信息时代又花了两百多年,而 LLM 仅出现不到十年,就已将曾经遥不可及的人工智能能力普及给大 众,让全球数亿人能够通过自然语言进行创作、编程和推理。 LLM 的技术版图正以前所未有的速度扩张,从不断刷新型号的「模型竞赛」,到能够自主执行任务的智能体,技术的浪潮既令人振奋,也带来了前所未有 的挑战。 如何在海量信息中建立真正的认知深度,而非仅仅成为一个热点的追随者?也许可以从「做题」开始。 最近,MIT CSAIL 分享了一份由工程师 Hao Hoang 编写的 LLM 面试指南,精选了 50 个关键问题,旨在帮助专业人士和AI爱好者深入理解其核心概念、 技术与挑战。 文档链接:https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view 我们将这 50 个问题划分为了几大主题,并附上图示和关键论文。希望这份指南能成为您的「寻宝图」,助您开启 LLM 探索之旅,无论是在面试中,还是 在未来的技术浪潮中,都能保持清醒的认知和持续探索的热情。 LLM 发 展历程。 ...
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
机器之心· 2025-06-18 01:24
机器之心报道 编辑:Panda 刚刚,Gemini 系列模型迎来了一波更新: 谷歌 CEO Sundar Pichai 发推表示新推出的 Gemini 2.5 Flash-Lite 是目前性价比最高的 2.5 系列模型。 可以看到,谷歌对 2.5 Flash-Lite 的定位是适合用于「量大且注重成本效率的任务」。相较之下,2.5 Pro 适合编程和高复杂度任务,2.5 Flash 则居中,更适合需要 较快速度的日常任务。 Gemini 2.5 Pro 稳定版发布且已全面可用,其与 6 月 5 日的预览版相比无变化。 Gemini 2.5 Flash 稳定版发布且已全面可用,其与 5 月 20 日的预览版相比无变化,但价格有更新。 新推出了 Gemini 2.5 Flash-Lite 并已开启预览。 | | | 2.5 Flash-Lite | 2.5 Flash | 2.5 Pro | | --- | --- | --- | --- | --- | | | | THINKING OFF | THINKING | THINKING | | Best for | | High volume cost- | Fa ...