表征学习

Search documents
最低仅需2G显存,谷歌开源端侧模型刷新竞技场纪录,原生支持图像视频
量子位· 2025-06-27 04:40
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌开源模型,又上新了。 今天凌晨,谷歌正式官宣了 Gemma 3n ,原生支持文本、图像和音视频等多种模态。 在大模型竞技场中,Gemma 3n取得了1303分,成为了 第一个超过1300分的10B以下模型 。 Gemma 3n一共有5B(E2B)和8B(E4B)两种型号,但通过架构创新,其VRAM占用与2B和4B相当,最低只要2GB。 有网友表示,Gemma 3n能够用低内存占用实现这样的表现,对端侧设备意义重大。 目前,Gemma 3n已在谷歌AI Studio或Ollama、llama.cpp等第三方工具中可用,模型权重也可在Hugging Face上下载。 同时谷歌也公开了Gemma 3n的一些技术细节,接下来就一起来了解。 套娃式Transformer架构 在Gemma 3n的两种型号——E2B和E4B中,谷歌提出了"有效参数"的概念,这里的"E"指的就是effective(有效的)。 Gemma 3n的核心是 MatFormer (Matryoshka Transformer) 架构 ,这是一种专为弹性推理而构建的嵌套式Transforme ...
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 09:57
在建模复杂的数据分布方面,扩散生成模型表现出色,不过它的成果大体上与表征学习(representation learning)领域关联不大。 机器之心报道 编辑:Panda 通常来说,扩散模型的训练目标包含一个专注于重构(例如去噪)的回归项,但缺乏为生成学习到的表征的显式正则化项。这种图像生成范式与图像识别范式差 异明显 —— 过去十年来,图像识别领域的核心主题和驱动力一直是表征学习。 在表征学习领域,自监督学习常被用于学习适用于各种下游任务的通用表征。在这些方法中,对比学习提供了一个概念简单但有效的框架,可从样本对中学习表 征。 直观地讲,这些方法会鼓励相似的样本对(正例对)之间相互吸引,而相异的样本对(负例对)之间相互排斥。研究已经证明,通过对比学习进行表征学习,可 以有效地解决多种识别任务,包括分类、检测和分割。然而,还没有人探索过这些学习范式在生成模型中的有效性。 鉴于表征学习在生成模型中的潜力,谢赛宁团队提出了 表征对齐 (REPA) 。该方法可以利用预训练得到的现成表征模型的能力。在训练生成模型的同时,该方法 会鼓励其内部表征与外部预训练表征之间对齐。有关 REPA 的更多介绍可阅读我们之前的报道 ...
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
Qian Zhan Wang· 2025-06-03 05:12
转自:前瞻产业研究院 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 多模态大模型的核心技术-表征 表征学习是多模态任务的基础,其中包含了一些开放性问题,例如:如何结合来源不同的异质数据,如 何处理不同模态的不同噪声等级,测试样本的某种模态缺失怎么办。相较于多模态,基于单模态的表征 学习已被广泛且深入地研究。在Transformer出现之前,不同模态所适用的最佳表征学习模型不同,例 如,CNN广泛适用CV领域,LSTM占领NLP领域。较多的多模态工作仍旧局限在使用N个异质网络单独 提取N个模态的特征,之后采用Joint或Coordinated结构进行训练。不过这种思路在很快改变,随着越来 越多工作证实Transformer在CV和NLP以及Speech领域都可以获得极佳的性能,仅使用Transformer统一 多个模态、甚至 ...