Workflow
语言模型
icon
Search documents
腾讯研究院AI速递 20250702
腾讯研究院· 2025-07-01 16:38
生成式AI 3. Meta计划未来几年投入数千亿美元用于AI基础设施、模型训练和人才储备,目标一年内推 出超越Llama系列的下一代领先模型。 一、 争夺3500亿!2025,中国芯片集体冲刺IPO , 排队 上 市 1. 国产芯片企业纷纷冲刺IPO,摩尔线程、沐曦等近10家"中国英伟达"已进入上市流程,呈 现营收增长但持续亏损状态; 2. 中国AI芯片市场规模可达3500亿人民币,理论上可容纳35家年营收100亿元的GPU企业, 但产能受限成为行业共同挑战; 3. 国产GPU面临代工产能受限、生态构建不足等困境,需在B端AI应用或C端图形领域寻求差 异化竞争机会。 https://mp.weixin.qq.com/s/MPmn7Eh0qVEIEkgOz8ebww 二、 Meta 成立「超级智能实验室」,11人豪华团队中华人占大半 1. Meta正式成立"超级智能实验室"(MSL),将整合基础AI研究、大语言模型开发和AI产品团 队,由新任首席AI官Alexandr Wang领导; 2. 该实验室成功从OpenAI、Anthropic、Google挖来11位顶尖AI人才,华人占比超半数,包 括GPT-4o和G ...
42家上市银行齐涨 行情能否延续?
近日,银行板块持续震荡上涨。截至7月1日收盘,Wind银行业指数上涨1.51%,A股42家上市银行全部 飘红。其中,36家上市银行涨幅在1%以上,苏州银行涨幅达5.13%,厦门银行涨幅达3.98%。 业内人士认为,近期多家银行召开股东大会,分红、战略转型是关键词,也为后续银行股上涨打下基 础。 机构资金涌入+分红加码点燃做多热情 截至7月1日收盘,A股36家上市银行涨幅在1%以上,苏州银行涨幅达5.13%,厦门银行涨幅达3.98%。 且2025年一季度,商业银行成本收入比为29%,较上年提升0.05个百分点,基本保持稳定。尽管各项降 本增效措施加速落地,但在营收增长乏力的情况下,商业银行运营费用相对刚性,压降空间有限,从而 导致成本收入比提升。 值得一提的是,在近期银行股东大会上,多家银行提出"转型"关键词,投资人得以进一步了解银行下一 步发展方向。 招商银行行长王良称,要适应低利率环境带来的巨大考验,所以招商银行在今年年初的工作会议上提出 要加快"四化"转型,即加快国际化的发展,让该行业务结构更加适应中国企业走出去的金融服务需求, 避免简单依赖利率较低的单一市场;要加快综合化的发展,通过综合化经营,使该行的 ...
AI陪伴如何更具情绪价值?最新研究称冒充人类会让聊天更走心
Huan Qiu Wang Zi Xun· 2025-07-01 04:11
来源:中国新闻网 中新网北京7月1日电(记者 孙自法)施普林格·自然旗下专业学术期刊《自然-人类行为》北京时间6月30日 夜间在线发表一篇心理学论文指出,人类倾向于拒绝来自人工智能(AI)对话机器人的情绪支持,除非这 种同理心被误标记为来自人类。通俗而言,就是将AI回复标记为人类回复能增强同理心,AI冒充人类 会让聊天更走心。 论文共同通讯作者、以色列希伯来大学Matan Rubin、Anat Perry和合作者通过研究发现,相比被认为来 自人类的支持,AI生成的支持会被视为更缺乏同理心,除非那些AI生成的回复被标记为来自人类。 论文作者这次共开展了9项研究,给总计6282名受试者看了AI生成的回复,并告知他们有些回复是人类 写的、有的是AI对话机器人写的。研究人员观察到,虽然受试者评价他们收到的回复富有同理心,但 对他们以为交流对象是人类的回复评价更高。相比来自AI的即时回应,他们更愿意等待更久他们以为 来自人类的回复。 AI同理心艺术示意图(图片作者Noam Kohavi)。施普林格·自然 供图 论文作者还发现,相比标记为AI生成的回复,受试者以为的来自人类的回复能唤起更多的正面感受(慰 藉、认可、幸福、 ...
马斯克再提建新党;文心4.5系列模型开源;苹果或放弃自研AI模型
Guan Cha Zhe Wang· 2025-07-01 00:55
【观网财经丨智能早报 7月1日】 "是时候了",马斯克再提建新党 当地时间6月30日,美国企业家埃隆·马斯克再次在社交媒体平台上发文,批评美国共和党推出的"大而 美"法案。马斯克表示,"大而美"法案的"疯狂支出"将使债务上限增加创纪录的五万亿美元。马斯克还 在发文中批评共和党,暗指共和党为"猪党"(the PORKY PIG PARTY)。此外,马斯克还在发文中说, 是时候建立一个真正关心人民的新政党了。(央视新闻) 摩尔线程科创板IPO申请获受理 6月30日晚间,上交所官网显示,摩尔线程智能科技(北京)股份有限公司科创板IPO获得受理。 招股书显示,摩尔线程主要从事GPU及相关产品的研发、设计和销售,本次拟募集资金约80亿元,将用 于新一代自主可控AI训推一体芯片研发项目、新一代自主可控图形芯片研发项目、新一代自主可控AI SoC芯片研发项目以及补充流动资金。 百度正式开源文心大模型4.5系列模型 6月29日消息,外媒Majin Bu发文,透露苹果iPhone17 Pro将调整手机后盖苹果Logo徽标位置,将原先位 于后盖中间位置的苹果徽标调整至相机模组和机底中间位置。据金融界报道,如果爆料属实的话,那么 ...
猫王音响创始人再回应怼雷军:我惹了一家我惹不起的公司;钟睒睒打新“椰子水”!上市首日赚300万港元;阿里赞助3支苏超球队丨邦早报
创业邦· 2025-06-30 23:47
完整早报音频,请点击标题下方小耳机收听 【 阿里赞助 3 支苏超球队 】 6 月 30 日,淘宝闪购官宣冠名"苏超"常州队,支付宝官宣冠名"苏 超"徐州队。淘宝闪购还发布了 5 条支持常州队的理由: 淘宝官方帐号发文,谈到淘宝闪购为什么冠 名 "苏超"常州队的几点原因: 1. 常州队是全国网友一起淘到的宝,而我们是淘宝,缘分! 2. 阿里 动物园一直想添条恐龙,众所周知,常州是地球上唯一的恐龙孵化基地。 3. 常州队就像是苏超的优 惠券,淘宝闪购每天都送大额优惠券。我们都送得多,送得快。 4. 但是,淘宝闪购助常州一臂之 力,我们一起把失去的笔画都拿回来! 5. 淘宝闪购支持常州队,就像我们支持每个输过但没怕过的 普通人。 之后,花呗也宣布赞助 "苏超"无锡队,官方喊出了"花呗有 41 天无息期,支持无锡"的口 号。 (新浪财经) 【 OpenAI 被曝将重新调整薪酬以应对 Meta 挖人】 近日,随着 Meta 成功挖走多名高级研究人 员, OpenAI 的一位高管向团队成员保证,公司领导层并没有袖手旁观。 OpenAI 首席研究官马克· 陈表示,公司管理层一直在"夜以继日地与那些有录取资格的人交谈",他们 ...
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 10:23
机器之心报道 编辑:泽南、陈陈 像人一样推理。 大模型的架构,到了需要变革的时候? 在对复杂任务的推理工作上,当前的大语言模型(LLM)主要采用思维链(CoT)技术,但这些技术存在任务分解复杂、数据需求大以及高延迟等问题。 近日,受到人脑分层和多时间尺度处理机制启发,来自 Sapient Intelligence 的研究者提出了分层推理模型(HRM),这是一种全新循环架构,能够在保持训练稳定 性和效率的同时,实现高计算深度。 具体来说,HRM 通过两个相互依赖的循环模块,在单次前向传递中执行顺序推理任务,而无需对中间过程进行明确的监督:其中一个高级模块负责缓慢、抽象的 规划,另一个低级模块负责处理快速、细致的计算。HRM 仅包含 2700 万个参数,仅使用 1000 个训练样本,便在复杂的推理任务上取得了卓越的性能。 该模型无需预训练或 CoT 数据即可运行,但在包括复杂数独谜题和大型迷宫中最优路径查找在内的挑战性任务上却取得了近乎完美的性能。此外,在抽象与推理 语料库 (ARC) 上,HRM 的表现优于上下文窗口明显更长的大型模型。ARC 是衡量通用人工智能能力的关键基准。 由此观之,HRM 具有推动通用计 ...
云鼎科技:推进“人工智能+”行动 助力矿山企业智能化建设
Qi Lu Wan Bao· 2025-06-30 09:22
借助先进的NLP大语言模型技术与自研智能体平台,融合DeepSeek等行业顶尖大模型,并对接山东能源 集团综合管控平台和数据湖平台,打造了智能安全生产、智慧运营办公和生产经营决策助手等核心业务 应用,实现业务知识问答、数据问询、业务文书生成和智能客服等功能,服务于矿山行业,降低了知识 获取难度,替代低价值重复劳动,充分释放数据价值。企业整体办公效率提升20%以上,进一步推动了 业务高效发展。 在项目实践中,云鼎科技建成了一支覆盖方案设计、产品研发、测试交付、运营运维各环节的整建制人 工智能团队,形成了一批可推广复制的标准化解决方案,在国家管网集团、中国华能集团、中国平煤神 马集团等73家单位实现百余类视觉、预测场景落地应用,提效、增安成效显著。在应用建设中,坚持试 点单位建场景、内部企业验效果、标准复制促规模的"三步走"战略。借助山东能源集团内部资源优势, 以兴隆庄煤矿为应用场景开发试点,并在转龙湾煤矿、新巨龙煤矿等进行验证,场景成熟后在国内能源 企业进行标准化复制推广,落地建成了5000余个人工智能应用场景,取得了显著的经济效益及社会效 益。 在云鼎科技实践中,"人工智能+"行动逐步走深向实,助力传统行业" ...
为什么说大多数LLM初创企业注定都将失败?
3 6 Ke· 2025-06-30 07:13
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技 术、新观点、新风向。 编者按:当LLM巨头吞噬应用层,套壳创业已成高危游戏。本文揭穿平台幻觉,解剖幸存者基因—— 要么自建壁垒,要么沦为养料。文章来自编译。 大多数AI初创公司都犯了同一个的错误:以为自己是在平台之上搭建业务。但其实,他们是在掠食者 体内筑巢。 一、引言:伪装成跑道的悬崖 AI创业生态正逐渐认清一个残酷现实。过去18个月里,数千家获顶级风投支持的初创公司将未来押注 于一个理念——大语言模型(LLM)是新的应用平台。这个理念极具诱惑力:API容易调用,演示能打 动投资人,套壳创业公司融资快、产品上线更快。 但这些创业公司大多基于认知谬误:误以为模型供应商是类似AWS或iOS的稳定平台。大错特错。模型 供应商不是平台,而是掠食者。 二、模块化的幻象 LLM创业热潮的核心幻觉是可组合性的妄想。创始人以为能像当年企业基于Windows或AWS搞开发那 样,基于Claude、GPT-4或Gemini打造十亿美元级产品。但跟云基础设施不同的是,底层模型供应商在 技术栈里面并非中立层,而是垂直整合的端到端产品公司。 OpenA ...
选择合适的大型语言模型:Llama、Mistral 和 DeepSeek
3 6 Ke· 2025-06-30 05:34
Core Insights - Large Language Models (LLMs) have gained popularity and are foundational to AI applications, with a wide range of uses from chatbots to data analysis [1] - The article analyzes and compares three leading open-source LLMs: Llama, Mistral, and DeepSeek, focusing on their performance and technical specifications [1] Group 1: Model Specifications - Each model series offers different parameter sizes (7B, 13B, up to 65-70B), with the number of parameters directly affecting the computational requirements (FLOP) for inference [2] - For instance, Llama and Mistral's 7B models require approximately 14 billion FLOP per token, while the larger Llama-2-70B model requires about 140 billion FLOP per token, making it ten times more computationally intensive [2] - DeepSeek has a 7B version and a larger 67B version, with similar computational requirements to Llama's 70B model [2] Group 2: Hardware Requirements - Smaller models (7B-13B) can run on a single modern GPU, while larger models require multiple GPUs or specialized hardware [3][4] - For example, Mistral 7B requires about 15GB of GPU memory, while Llama-2-13B needs approximately 24GB [3] - The largest models (65B-70B) necessitate 2-4 GPUs or dedicated accelerators due to their high memory requirements [4] Group 3: Memory Requirements - The raw memory required for inference increases with model size, with 7B models occupying around 14-16GB and 13B models around 26-30GB [5] - Fine-tuning requires additional memory for optimizer states and gradients, often needing 2-3 times the memory of the model size [6] - Techniques like LoRA and QLoRA are popular for reducing memory usage during fine-tuning by freezing most weights and training fewer additional parameters [7] Group 4: Performance Trade-offs - In production, there is a trade-off between latency (time taken for a single input to produce a result) and throughput (number of results produced per unit time) [9] - For interactive applications like chatbots, low latency is crucial, while for batch processing tasks, high throughput is prioritized [10][11] - Smaller models (7B, 13B) generally have lower per-token latency compared to larger models (70B), which can only generate a few tokens per second due to higher computational demands [10] Group 5: Production Deployment - All three models are compatible with mainstream open-source tools and have active communities [12][13] - Deployment options include local GPU servers, cloud inference on platforms like AWS, and even running on high-end CPUs for smaller models [14][15] - The models support quantization techniques, allowing for efficient deployment and integration with various service frameworks [16] Group 6: Safety Considerations - Open-source models lack the robust safety features of proprietary models, necessitating the implementation of safety layers for deployment [17] - This may include content filtering systems and rate limiting to prevent misuse [17] - Community efforts are underway to enhance the safety of open models, but they still lag behind proprietary counterparts in this regard [17] Group 7: Benchmark Performance - Despite being smaller, these models perform well on standard benchmarks, with Llama-3-8B achieving around 68.4% on MMLU, 79.6% on GSM8K, and 62.2% on HumanEval [18] - Mistral 7B scores approximately 60.1% on MMLU and 50.0% on GSM8K, while DeepSeek excels with 78.1% on MMLU and 85.5% on GSM8K [18][19][20] - The performance of these models indicates significant advancements in model design and training techniques, allowing them to compete with larger models [22][25]
百度文心大模型4.5系列正式开源,同步开放API服务
量子位· 2025-06-30 04:39
鹭羽 整理自 凹非寺 量子位 | 公众号 QbitAI 百度文心大模型开源,如期而至。 就在今天,百度官宣文心大模型4.5系列正式开源,还同步提供API服务。 此番,百度一次性推出10款开源模型,涵盖从 47B 参数的混合专家 (MoE) 模型到轻量级 0.3B 稠密型模型,覆盖文本、多模态等多种任 务需求。 此次开源不仅权重与代码完全开放,还同步提供 API服务 ,开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台直接下载使 用。 △ 文心大模型4.5系列开源模型 值得关注的是,文心大模型4.5开源系列遵照的是 Apache 2.0协议 。 10款模型同步开源 此次百度一次性推出10款文心大模型4.5系列开源模型,在独立自研模型数量占比、模型类型数量、参数丰富度、开源宽松度与可靠性等关键 维度上,都拿出了诚意。 文心大模型4.5开源系列,还针对MoE架构提出了一种创新性的 多模态异构模型结构 。 该结构适用于从大语言模型向多模态模型的持续预训练范式,在保持甚至提升文本任务性能的基础上,显著增强了多模态理解能力,其优越的 性能主要得益于多模态混合专家模型预训练、高效训练推理框架和针对模态的后 ...