Workflow
多模态大模型
icon
Search documents
大模型技术学习过程梳理:Agent、RAG、通用大模型等......
自动驾驶之心· 2025-11-23 02:04
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 做大模型社区也有几个月的时间了,柱哥最近也和不少同学交流了心得。 很多刚研一或者直博的同学非常焦虑,本科学的内容完全用不上。 上来就被transformer、Lora、多模态大模 型、Agent唬的一愣一愣的,接触的深度学习框架也往往不知从何入手。 这时候是最容易迷茫和焦虑的,实验室如果没人交流更是雪上加霜。近期我也和社区内部的同学开了一个小范 围的交流会,一些同学能从我们分享中抓到关键的部分,跟着社区里面的路线进步较快。有前沿的文章速递, 一些工具使用的配套介绍,也有行业的新闻动态等等。基础不错的同学已经可以顺利微调自己的大模型。 但还有相当多的同学卡住了,比如算力的问题,自建数据集的问题,还有模型优化、项目实战的问题等。关于 算力,前面分享过很多轻量化的方法,也能做出不错的性能,甚至SOTA,这能够适配一些算力不足的同学。 以上为我们的大模型社区:大模型之心tech知识星球的分享,也欢迎更多需要入门进阶的同学加入我们的社 区。近一年的搭建,社区内已经完成了技术路线分享、直播、问答、求职、赛事等多个版块的分享。实现了产 业 ...
基于Qwen3-VL的自动驾驶场景实测
自动驾驶之心· 2025-11-22 02:01
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 近年来,多模态大模型在自动驾驶领域的潜力逐渐显现。它们能否真正"看懂"路况、理解交通行为、甚至预测 风险,成为行业内外关注的焦点。 笔者对近期阿里通义最新的 Qwen3-VL 模型进行了一系列自动驾驶场景的实测,涵盖 场景理解、空间推理、 行为判断、风险预测 等多个维度。 个人认为, Qwen3-VL不仅在基础感知任务上表现稳健,更在开放式推理与动态场景理解中展现出令人惊喜 的"老司机"潜质 。 更重要的是, 它并未经过专门的自动驾驶指令微调(SFT) ,却能对复杂交通场景做出合理、连贯、甚至带 有"安全意识"的判断——这让我们看到了通用视觉语言模型在垂直领域中落地的更多可能。 本次测试选取了 CoVLA 基准中的部分图像,以及基准中的一些中翻后的问题。此外笔者也自拟了一些开放式 问题。 一起来看看吧!更多关于自动驾驶的技术解析、行业动态和业内交流, 欢迎加入自动驾驶之心知识星球,超过4000的人自驾社区...... 场景理解和空间推理 示例1 :简单描述一下这张图片。 :图片中的天气如何? :车辆正行驶在哪 ...
中信证券:看好MRO头部企业利润迎来进一步释放
Xin Lang Cai Jing· 2025-11-21 00:21
中信证券研报指出,在中国MRO工业品采购数字化率持续提升的大背景下,行业规模仍有大幅提升空 间,海外成熟市场代表性厂商在度过成长期后,年营收增速亦能多年维持10%-20%区间;同时行业竞争 格局相对分散,中国MRO行业有望长期共存至少两家百亿级别年营收公司。在全球多模态大模型持续 进化背景下,我们认为中国市场的数字化和智能化进程将同步进行,驱动代表性公司进一步降本增效, 实现长足利润释放。 ...
从投稿来看,具身方向的论文已经出现了堆积.......
具身智能之心· 2025-11-18 10:00
最近陆续有几个会议结束了投稿,虽然还没开奖,但投稿数量着实很大。也有很多同学着急忙慌地选择转 投其它会议,什么会议更适合自己?什么方向审稿人更青睐?这是很多同学非常关注的点。其中不乏大模 型、传统机器人、机械方向的同学,还有很多新手。 先看看具身的一些方向,vln、vla、强化、还有一些real2sim2real。很多小白不知道如何下手,选择强化学 习还是vla?传统slam还是vln?哪些方向需要较大算力,哪些不需要?除此之外,什么样的本体适合自己研 究,预算不够怎么办?仿真可以吗? 人形机器人在强化与sim2real/real2sim2real研究上较为活跃,如果实验室有相关本体,可以从这几个方向入 手。 为什么选择我们? 剩下就是一些方法论的问题了,有好的idea至关重要。对很多新人研究者,一个好的idea需要踩很多次坑。 如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了 【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 CCF-A到 ...
AI+消费机器人「灵宇宙」顾嘉唯:两波红利造就新机会,好的AI产品一定要「主动」
IPO早知道· 2025-11-18 03:22
以下文章来源于明亮公司 ,作者主编24小时在线 明亮公司 . 追踪新商业、好公司,提供一手情报与领先认知。 作者: 苏打 出品:明亮公司 (图片来源:灵宇宙) "我相信大家都看到了 '做真正的家庭机器人和随身AI终端'的机会, 这也是灵宇宙选定的一条路径。 这个过程中,我们会享受到两波红利, 一是多模态大模型的能力溢出,一波具身智能的技术红利溢 出。 「明亮公司」获悉,11月17日,AI+消费机器人公司灵宇宙宣布,已于近期完成2亿元PreA轮系列融 资,由上海国际集团旗下国方创新、国泰海通、广发信德、滴滴出行、拉卡拉旗下考拉基金、润建股 份等一众头部金融机构和上市公司参投,老股东超额追投。 作为一家专注于人工智能与人机交互的创新科技公司, 灵宇宙致力于为全球家庭及个人用户打造"伙 伴型"AI机器人产品,重塑人机交互方式。 本轮融资将主要用于产品技术研发以及海内外市场拓展, 通过对LingOS操作系统与多模态AI交互技术的投入,持续优化产品体验,拓展产品矩阵;同时,进 一步完善开发者平台与内容生态,构建"硬件+软件+服务"一体化商业模型。 灵宇宙创始人顾嘉唯曾任微软研究院人机交互科学家、百度深度学习研究院人机交 ...
从“技术力”到“增长力” 海康威视推进AI规模化落地
Zheng Quan Shi Bao· 2025-11-17 16:58
Core Viewpoint - The rise of AI technology presents a significant opportunity for the smart IoT sector, comparable to previous technological shifts such as the transition from analog to digital and from standard definition to high definition [5] Group 1: Company Growth and Development - Hikvision has grown from a small team to nearly 60,000 employees, becoming a global leader in security and smart IoT by seizing multiple technological paradigm shifts [1] - Since its IPO in 2010, the company has accumulated a net profit of approximately 138 billion yuan and distributed cash dividends totaling around 68.5 billion yuan [6] - The company has invested over 477 billion yuan in R&D over the past five years, maintaining a research expense ratio exceeding 10% [6] Group 2: AI Integration and Product Development - The majority of Hikvision's product lines now incorporate AI technology, enhancing their ability to meet diverse industry needs [3][4] - The company has developed a rapid coal quality analysis instrument in collaboration with the National Energy Group, significantly reducing the detection time from 8 hours to real-time [3] - Hikvision's product offerings include over 30,000 hardware models, with AI integrated to improve problem-solving capabilities [4] Group 3: Focus on Multi-Modal Large Models - Hikvision is prioritizing the development of multi-modal large models, leveraging its advantages in various sensing technologies to enhance perception capabilities [7] - The application of these models has led to significant improvements in detection rates, such as an 86% reduction in missed detections for prohibited items using millimeter-wave technology [7] - The "WenSou" series products enable cross-modal information retrieval, improving efficiency in security video searches [7] Group 4: Future Outlook and Strategic Direction - The company aims to continue innovating and launching more advanced large model products to accelerate the large-scale implementation of AI [8] - Hikvision is committed to providing AI-enabled intelligent applications across various industries, positioning itself to capture new growth opportunities [11] - The integration of AI with industry experience is seen as essential for effective implementation, with ongoing efforts to apply AI in both internal operations and external market strategies [10]
宇树科技王兴兴:AI技术将赋予机器人真正“理解世界”的能力
Zheng Quan Ri Bao Wang· 2025-11-16 12:49
本报讯 (记者吴文婧)11月16日,2025人工智能+大会上在北京举行,宇树科技股份有限公司(以下简称"宇树科技")创 始人兼首席执行官王兴兴在演讲中重点展望了机器人发展的"下一个十年"。王兴兴表示,下一个十年注定是"生长与绽放",是 机器人从"能运动"走向"能做事",从"行业工具"迈向"生活伙伴"。 随着应用边界不断拓展,机器人要在更复杂、更开放的环境中可靠运行,对整个产业链的协同能力提出了更高要求。 王兴兴表示:"下一个十年,更需要我们携手共建生态的'朋友圈'。机器人产业从来不是一家企业的单打独斗,我们需要与 开源社区紧密合作,加速技术成果的共享,降低全行业的创新成本。我们更需要与全球伙伴一起,建立健全机器人伦理与安全 标准,确保技术朝着'向善'的方向发展。我始终相信,唯有全球拧成一股绳,机器人技术才能更快突破临界点,推动人类文明 迈上新台阶。" (编辑 张昕) 王兴兴提出,下一个十年,AI技术将赋予机器人真正"理解世界"的能力。伴随多模态大模型与机器人的深度融合,机器人 将更加敏锐、更加能干。 在他看来,场景将推动机器人真正"融入生活",其举例称,在工厂的生产线上,未来的工业机器人将与工人并肩协作,工 ...
王兴兴:下一个十年,是机器人迈向“生活伙伴”的十年
Xin Lang Ke Ji· 2025-11-16 02:01
Core Viewpoint - The next decade is expected to be a period of "growth and blossoming" for AI and robotics, transitioning from basic movement capabilities to performing tasks and becoming life partners for humans [1] Group 1: AI and Robotics Development - The past decade has been characterized by "germination and exploration," while the upcoming decade will focus on the integration of AI technology into robotics [1] - AI technology will enable robots to truly "understand the world," enhancing their functionality and adaptability [1] Group 2: Company Insights - Yushu Technology has developed humanoid robots capable of performing the majority of work actions, utilizing both offline pre-learning and real-time imitation [1] - The future will see a deeper integration of multimodal large models with robotics, leading to more sensitive and capable robots [1]
京东与港科大成立联合实验室,将聚焦智能供应链与具身智能技术
Xin Lang Cai Jing· 2025-11-14 04:59
Core Insights - JD Group and Hong Kong University of Science and Technology (HKUST) have officially established a joint laboratory focused on intelligent supply chain and embodied intelligence technology [1] Group 1: Joint Laboratory Overview - The "HKUST-JD Group Joint Laboratory" will be jointly managed by HKUST's Zheng Jiachun Robotics Research Institute, JD Exploration Research Institute, and JD Logistics [1] - The laboratory aims to conduct research in various sectors including logistics, healthcare, retail, and industry [1] Group 2: Research Focus Areas - Key research areas include tumor prediction and assisted diagnosis in the healthcare sector, and the construction of intelligent e-commerce scenarios in the retail sector [1] - The laboratory will leverage technologies such as multimodal large models and edge computing optimization algorithms to develop replicable industry-specific intelligent solutions [1]
京东与港科大成立联合实验室
Xin Lang Cai Jing· 2025-11-14 04:48
Core Insights - JD Group and Hong Kong University of Science and Technology (HKUST) have officially established a joint laboratory focused on intelligent supply chain and embodied intelligence technology [1] Group 1: Joint Laboratory Overview - The "HKUST-JD Group Joint Laboratory" is co-managed by HKUST's Zheng Jiachun Robotics Research Institute, JD Exploration Research Institute, and JD Logistics [1] - The laboratory will focus on research in logistics, healthcare, retail, and industrial sectors [1] Group 2: Research Focus Areas - Key research areas include tumor prediction and assisted diagnosis in the healthcare sector, and the construction of intelligent e-commerce scenarios in the retail sector [1] - The laboratory aims to integrate technologies such as multimodal large models and edge computing optimization algorithms to create replicable industry intelligence solutions [1]