FastVLM

Search documents
AI周观察:英伟达沙特交易驱动风险偏好提升,端侧AI加速渗透
SINOLINK SECURITIES· 2025-05-18 14:39
摘要 风险提示 芯片制程发展与良率不及预期 中美科技领域政策恶化 智能手机销量不及预期 敬请参阅最后一页特别声明 1 - 本周全球聊天助手应用普遍活跃度上升,其中海外应用如 ChatGPT、Gemini、Perplexity 和 Claude 环比增长约 6%-8%,而国内应用如豆包、ChatGLM 和腾讯元宝的提升更为显著,均达到 20%左右。模型方面,OpenAI 发布了 云端 AI 编程智能体 Codex,具备代码构建、问题解答等功能,并在 SWE-bench 测试中表现优异;腾讯发布混元 图像 2.0 模型,实现了毫秒级图像生成速度;苹果则推出了针对高分辨率图像处理优化的视觉语言模型 FastVLM,可在移动设备上高效运行并在多项测试中表现出色。 - 2025 年,英伟达面对中美出口限制升级,将推出降规版 H20 芯片应对,目前 2025 年积压中国订单已达 180 亿美 元,超过 2024 全年在华收入。同时,美国对沙特解禁 AI 芯片出口,英伟达随即签署大额合作协议。受消息提振 股价上行,但市场对 FY2026 盈利预期尚未上调,估值主导行情下,政策仍是核心定价变量。 - CoreWeave 发布 ...
iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI
Hu Xiu· 2025-05-15 12:04
都 2025 年了,还有谁没用上苹果 AI? 发布会看得热血沸腾,现实里却心灰意冷。 就在我以为苹果今年大概率也"稳中摆烂"的时候,突然发现苹果最近低调开源了一款小模型:FastVLM。 没搞发布会,也没在官网上大张旗鼓宣传,本来我也没太在意,但当技术部老哥将这款模型在顶配 iPhone 16 Pro Max 跑起来后,我承认有些坐不住了。 一句话概括,这个模型很"苹果"。 模型启动速度极快,识别图像的能力也不错,全程本地执行,没有云端那一套操作,看起来不惊艳,但用起来……有点意思。 我承认,有那么一瞬间,我觉得苹果 AI 又支棱起来了。 模型 GitHub 下载地址:https://github.com/apple/ml-fastvlm 作为一组可以在 iPhone、iPad、Mac 等设备上本地运行的视觉语言模型(Vision-Language Model), FastVLM 包括三种参数量级:FastVLM-0.5B、1.5B 和 7B。 普通用户也能将其部署到 iPhone 上,只是需要一定的技术门槛。苹果研究团队在 GitHub 提供了完整的安装教程,有技术基础的用户可以参考: 本来,只有我们国行 ...
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-13 23:52
1.【昆仑万维宣布正式开源Matrix-Game大模型】5月13日,据昆仑万维消息,昆仑万维正式开源 (17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系 列在交互式世界生成方向的正式落地,也是工业界首个开源的10B+空间智能大模型,它是一个面向游戏 世界建模的交互式世界基础模型,专为开放式环境中的高质量生成与精确控制而设计。(第一财经) 2.【百型智能推出国内首个外贸行业垂类Agent】百型智能推出国内首个外贸行业垂类Agent——AI外贸员 Zoe。据了解,Zoe可以根据企业目标拆解任务,独立完成从市场分析、寻找客户、精准筛选,到开发触 达、转化跟进的外贸开发拓客全链路,转化率高出传统人工方式10倍以上。(财联社) 3.【火山引擎发布豆包视频生成模型Seedance 1.0 lite】火山引擎发布豆包·视频生成模型Seedance 1.0 lite、 豆包1.5·视觉深度思考模型,并升级豆包·音乐模型,以更全面的模型矩阵、更丰富的智能体工具,帮助企 业打通从业务到智能体的应用链路。官方表示,此次全新发布的豆包视频生成模型 ...
OpenAI推出医疗开源测试基准HealthBench;苹果发布可在iPhone上运行的极速视觉语言模型FastVLM | 全球科技早参
Mei Ri Jing Ji Xin Wen· 2025-05-12 23:53
每经记者|蔡鼎 每经编辑|高涵 |2025年5月13日 星期二| NO.1 OpenAI推出医疗开源测试基准HealthBench 苹果日前正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone 等移动设备上的高效运行能力和卓越性能引发行业热议。FastVLM通过创新的FastViTHD视觉编码器, 实现了高达85倍的编码速度提升,为实时多模态AI应用铺平了道路。FastVLM的核心在于其全新设计的 FastViTHD混合视觉编码器,针对高分辨率图像处理进行了深度优化。 点评:苹果发布的FastVLM凭借其高效的视觉编码器和卓越的性能,为移动设备上的实时多模态AI应用 开辟了新天地,展现了苹果在AI技术领域的创新实力。 特斯拉的AI和IT基础设施、网络安全及车辆服务负责人Raj Jegannathan表示,公司正在推出一款专门用 于处理客户沟通服务的人工智能代理。这款新的服务AI代理能够检测公司与客户之间沟通的延迟,监 测对话的情绪,并自动将某些重要诉求直接上报给管理层。特斯拉正在十个试点地点推出这款AI代 理,其首次投入使用的时间为5月8日。客户如果在手机应用的消息 ...
腾讯研究院AI速递 20250513
腾讯研究院· 2025-05-12 14:46
生成式AI 一、 Transformer八子之一 初创 Sakana AI 提出 「连续思维机器」 1. CTM将神经元活动同步作为核心机制,通过时序信息实现更复杂的神经行为,推理过程更 像人类思维; 2. 神经元可访问自身历史并学习利用这些信息计算下一输出,所有行为均为自然涌现,未被 预先设计; 3. CTM在迷宫求解和图像识别等任务中展现出类人思维过程,思考时间越长准确率越高,且 可根据任务难度调整思考时长。 https://mp.weixin.qq.com/s/hxL8ylal_4gY8IUIL7TWWA 二、 苹果发布 FastVLM, iPhone 直接运行的极速视觉语言模型 1.苹果发布移动端视觉语言模型FastVLM,采用双阶段处理(图像转token、token生成语 言),可直接部署在iPhone等设备上运行; 2.FastVLM在效率方面表现突出,0.5B版本较LLaVA首token输出快85倍,体积减少3.4倍; 7B版本配合Qwen2较Cambrian模型快7.9倍; 3.FastVLM具有高效处理高分辨率图像的能力,结合轻量级设计,显示出在智能眼镜等移动 设备上的应用潜力。 https ...