AI科技大本营

Search documents
图文跨模态“近视”问题破局:360开源新模型 FG-CLIP,实现细粒度图文对齐突破|ICML2025
AI科技大本营· 2025-05-19 08:05
CLIP 看不清的细节,FG-CLIP 看懂了 作者 | 谢春宇,王斌,360人工智能研究院 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 还在为搜图不够精准、推荐不够懂你而烦恼? 360 人工智能研究院发布的全新 FG-CLIP(Fine Grained CLIP) 模型,让 AI 也能像"老司机"一样,练就"眼观六路"的本领。 有了 FG-CLIP,它能瞬间辨别 "穿着浅蓝色夹克的男人" vs "穿着草绿色夹克男人"、" 陶瓷茶杯"与"玻璃茶杯" 的细微差别,图片被裁切也不怕,照样 精准识别目标,甚至连那张藏在小狗身后、位于画面角落的 浅棕色木凳子 ,它也不会放过。 大家平时刷到的那些"神操作" 其实都离不开它:比如用手机输入文字就能生成动漫插画、风景海报的绘图软件(Stable Diffusion、可图),还有能 把 "小猫追蝴蝶" 的文字描述变成动态视频的工具(Sora、即梦),背后都需要这位 "翻译官" 先把文字和图片的信息 "翻译" 成机器能懂的语言,让两 者 "对上频道"。 不只是这些有趣的应用,咱们日常生活里处处都有它的影子: 图文跨模态模型 显式双塔结构解耦: 突破传 ...
“图片秒生”,腾讯混元图像2.0模型正式发布,主打速度和真实感
AI科技大本营· 2025-05-16 08:16
Core Viewpoint - Tencent has launched the Hunyuan Image 2.0 model, which features real-time image generation and significantly improved image quality and interaction experience compared to its predecessor [1][3]. Group 1: Model Performance - The Hunyuan Image 2.0 model has increased its parameter count by an order of magnitude, utilizing a high-compression image codec and a new diffusion architecture, achieving millisecond-level response times for image generation [3]. - The model's image generation quality has improved, effectively avoiding the "AI flavor" commonly found in AIGC images, resulting in high realism and rich details [3][4]. - In the GenEval benchmark for complex text instruction understanding and generation, the model achieved an accuracy rate exceeding 95%, outperforming other similar models [4]. Group 2: User Experience - The model allows users to generate images while typing or speaking, transforming the traditional "draw-wait-draw" process into a more interactive experience [3][6]. - A real-time drawing board feature has been introduced, enabling users to see coloring effects as they sketch or adjust parameters, enhancing the creative process for professional designers [13]. Group 3: Future Developments - Tencent hinted at the upcoming release of a native multimodal image generation model, which will excel in multi-round image generation and real-time interaction [15].
“烧掉94亿个OpenAI Token后,这些经验帮我们省了43%的成本!”
AI科技大本营· 2025-05-16 01:33
【CSDN 编者按】 在 AI 技术飞速发展的今天,OpenAI API 已成为众多 SaaS 开发者手中的得力工 具。但高额的 Token 消耗,也让成本控制成为开发者不得不面对的难题。本文作者以一个月消耗 94 亿 Token 的实战经历,毫无保留地分享了优化成本的关键经验。 原文链接 : https://www.reddit.com/r/LLMDevs/comments/1kigp51/spent_9400000000_openai_tokens_in_april_ here_is/ 作者 | tiln7 翻译 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 大家好!刚刚 结束了 一个 对 我们 SaaS 产品 来说 强度 非常 大的 OpenAI API 调用 月, 我 想 顺 便 分享一些踩坑总结。 通过下面这几条优化策略, 我们成功将 成本 降低了 43%! 希望这能帮到 同样也在用 OpenAI API 的开发者朋友们。 选对模型是关键中的关键 用好提示词缓存(Prompt Caching) 这点完全是意外收获。OpenAI 平台会自动缓存完全一致的提示词(prompt),在重复调用相 ...
干货超标!腾讯混元3D负责人郭春超:真正的3D AIGC革命,还没开始!
AI科技大本营· 2025-05-16 01:33
分享嘉宾 | 郭春超 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 现在这个时代,我们玩的游戏、看的电影、甚至未来的虚拟世界,都离不开精细逼真的三维(3D)模型。然而,制作这些 3D 内容,过去常常意味着 耗时数周甚至数月的人工建模,成本高昂且效率低下。就像平面设计曾被 Photoshop 改变一样,人工智能正在瞄准 3D 领域,试图彻底革新数字内容 的生产方式。 在这场由 AI 驱动的 3D 生成浪潮中,腾讯混元团队推出的开源项目 Hunyuan 3D 成为了全球开发者社区的焦点。它不仅在 GitHub 上迅速积累了超过 9.6k 的 Star,跻身 3D 生成开源项目的第一梯队,更凭借其出色的模型生成效果,赢得了"几乎没有变形的 Image to 3D,恐怖如斯"这样的用户评 价。 AI 生成 3D 的能力发展到什么阶段了?它离真正改变游戏、影视、数字人等行业还有多远? 在 4 月 18-19 日举行的 2025 全球机器学习技术大会 (ML-Summit)上,腾讯混元 3D 负责人 郭春超 对此进行了详尽解读,并在会后接受了 CSDN 专访。 令人意外的是,尽管当前 3D AIG ...
Visual Studio 重磅更新!擅长处理复杂任务的 GitHub Copilot “智能体模式”预览版上线
AI科技大本营· 2025-05-15 06:14
【编者按】GitHub Copilot 智能体模式 (agent mode) 正式登录 Visual Studio! 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 微软 Visual Studio 官方 X 上正式宣布,备受期待的 GitHub Copilot 智能体模式 (agent mode) 正 式登陆 Visual Studio 17.14 预览版! 开发者通过一个提示即可让 Copilot 自主处理从计划、构 建、测试到修复的整个开发流程。 自主确定上下文与编辑文件: 无需你手动指定,Copilot 能智能判断并找到需要编辑的相 关上下文和文件; 建议终端命令供你审批执行: 它会为你生成必要的终端命令,并在你确认后执行; 持续迭代直至任务完成: 它会不断检查错误,运行构建/测试来验证结果,直到任务最终搞 定; 通过 MCP 服务器调用可信工具: 它能够调用你开发环境中的 linter(代码风格检查工 具)、test runner(测试运行器)和 static analyzer(静态分析器)等受信任的工具。 在 Copilot Chat 窗口中,切换到"Agent (智能体)" ...
破解百年数学难题,刷新算法认知!DeepMind 发布超级编码智能体 AlphaEvolve
AI科技大本营· 2025-05-15 06:14
【编者按】继 AlphaGo、AlphaFold 之后,谷歌 DeepMind 带来的全新 AI 编程智能体 AlphaEvolve 横空出世,它巧妙地结合了大型语言模型(LLM)的创 造力与自动化评估机制,不仅在矩阵乘法等经典数学问题上取得新突破,更在谷歌数据中心优化、芯片设计乃至 AI 自身训练等实际应用中展现出惊人实 力,为我们揭示了 AI 驱动算法发现的广阔前景。 整理| 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 不仅是直接写代码,而是进化出的「解决方案」 与传统的代码生成工具不同,AlphaEvolve 并不追求"直接产出答案",而是像演化生物一样迭代出越来越优秀的解决策略。它的背后是 Google DeepMind 最新的大语言模型家族 Gemini——其中 Gemini 2.0 Flash 负责高效率生成大量思路,Gemini 2.0 Pro 则在关键节点提供更深层的方案优 化。 其核心能力有: 5 月 14 日,Google DeepMind 正式官宣推出 AlphaEvolve——一款由 Gemini 强力驱动、专注于算法发现的编码智能体。 这款全新的 AI 智能体, 堪称 ...
完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!
AI科技大本营· 2025-05-14 09:31
责编 |梦依丹 出品丨AI 科技大本营(ID:rgznai100) 自从 GPT-3 横空出世,生成式 AI 彻底点燃了全球科技圈: 尽管 LLMs 如 GPT-4、Claude 等展现了惊人的能力,但闭源模型的闭源特性让研究者难以深入理解其运作机制,同时开源模型的开放程度有限: Moxin-7B:从预训练到强化学习,全面透明的 AI 革新 Moxin-7B 的诞生,正是为了解决这一问题! 它由来自东北大学、哈佛、康奈尔等机构的研究团队联合开发,完全遵循"开源科学"原则,公开了从数据 清洗到强化学习的全流程细节,从预训练到 DeepSeek 同款强化学习,成为目前透明度最高的开源 LLM 之一。 2. 高性能低成本:小模型的大能量 零样本任务:在 ARC-C(AI2推理挑战)上达到 58.64%,超越 LLaMA 3.1-8B(53.67%)和 Qwen2-7B(50.09%)。 数学推理:经过 RL 微调后,在 MATH-500 上准确率 68%,超越 70B 参数的Llama-3-Instruct 模型(64.6%)。 长上下文支持:通过滑动窗口注意力(SWA)和分组查询注意力(GQA),高效处理 32K ...
Ruby on Rails 之父 DHH 预言:未来“写代码”会变成不合时宜的念头!
AI科技大本营· 2025-05-14 09:31
整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 和 AI 聊聊天,程序就写好了。这就是 2025 年爆火的 "Vibe Coding"(氛围编程),这一概念是由前 OpenAI 研究员 Andrej Karpathy 提出,他直 接在社交平台 X 上展示了自己即使完全不会 Swift,也能靠 AI 在一小时内搓出个 iOS 应用的例子。 「氛围编程」从概念到「印钞机」 在 AIGC 大行其道的当下,AI 辅助编程已蔚然成风。其中,备受开发者青睐的 AI 编码神器 Cursor 正迅速成为 VS Code 的有力竞争者。就在昨天,腾 讯也强势入局,推出了其 AI 编程助手 CodeBuddy——不仅搭载全新 Agent 智能体,更是中国首个支持 MCP (Model Context Protocol) 的代码助 手,并全面增强了产品能力。 与此同时,也有不少开发者晒出自己利用 Vide Coding 的变现路径。 X 用户 @mikestrives 就在平台上分享了自己的惊喜收获: "我做到了! 用氛围编程在 30 天内打造一个 AI 产品,实现了 $7,000 月收入(MRR)!全程只用 ...
那位曾高喊「AI能接管一切」的CEO后悔了:宣布重启人工招聘!
AI科技大本营· 2025-05-13 12:03
整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 你还记得那个用"AI 克隆体"代替自己发布财报的 CEO 吗?对,就是那个说"AI 能取代所有人类工作,甚至我自己"的 Klarna CEO,Sebastian Siemiatkowski。 就在今年 1 月,这位 AI 信徒在社交媒体上认真地告诉大家:理论上来说,AI 已经具备取代所有工作的能力,最终人类工作者将"难逃下岗",包括他自 己也不例外。 可就在大家纷纷感叹人类"职业危机"到来之时,现在 Klarna 却悄悄"打脸"了自己 : 据多家外媒报道, 最近 Klarna 重新开启了人工招聘,结束了为期 一年多的"招聘冻结令"——这不禁让人好奇:不是说好了 AI 会接管一切,为什么又重新开始招人了? AI 真的能做所有工作? 先把时间线拉回 到 2024 年 9 月。 Klarna,这家以"先买后付"(Buy Now, Pay Later)模式闻名的金融科技公司, 当时被曝正 准备实施大规模裁 员:计划削减近 2000 个工作岗位。 对此 Klarna 表示,公司早在一年前就已全面冻结招聘,以"自然减员"的方式减少组织规模。据悉一年时间内, ...
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 10:25
【编者按】如今生成式 AI 逐渐融入软件开发流程,越来越多 AI 生成的代码出现在实际工程中——但你有没有想过,这些由 AI 写出来的代码,从一开始 就可能被视为"遗留代码"?本文作者从工程经验出发,结合 AI 的生成机制,提出一个颇具启发性的观点: AI 生成的代码缺乏上下文记忆和维护连续性, 因此一 诞生就处于"他人旧作"的状态 。 这 不仅是对当前 AI 编码能力的冷静观察,也为我们理解未来软件开发形态提供了一种新视角。 原文链接: https://text-incubation.com/AI+code+is+legacy+code+from+day+one 翻译 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在软件开发中,代码的"可改进性"往往取 决于其所处的生命周期阶段。通常可以分为以下几类情况: 总的来看, 代码的演进速度,通常取决于离它的编写时间有多近、维护者是不是原作者。 其实 , 这种状态是合理的:对于一个运行稳定、经过验证的软件系统而言,贸然进行"改进"往往带来额外风险,尤其是当你对系统的整体脉络不甚了 解时,原作者通常才最清楚其潜在逻辑和 开发 背景。 AI 生成的代码 , ...