Workflow
模型评估
icon
Search documents
一文读懂深度表格数据表示学习 | 南京大学
量子位· 2025-06-25 00:33
南京大学博士生蒋俊鹏 投稿 量子位 | 公众号 QbitAI 在AI应用中,表格数据的重要性愈发凸显,广泛应用于金融、医疗健康、教育、推荐系统及科学研究领域。 深度神经网络(DNN)凭借其强大的表示学习能力,在表格数据建模上展现出令人瞩目的潜力。 南京大学团队系统介绍了表格表示学习这一研究领域,他们将现有方法按泛化能力划分为三大类: 专用模型 (Specialized)、可迁移模型(Transferable)和通用模型(General) 。 除此之外,他们还比较了DNN与传统方法——树模型的优劣,并剖析表格数据学习中的核心挑战,讨论了集 成学习方法以及开放环境下的表格学习和多模态表格任务等扩展方向。同时,考虑到不同数据集之间方法表现 差异显著,研究团队还探讨了数据集收集、评估与分析的系统策略,旨在建立跨数据集的稳健评估体系。 背景 表格数据本质上是一种 结构化的信息表示方式 ,在组织与表达复杂数据关系方面具有天然优势。 此研究聚焦于 有监督的表格机器学习任务 ,主要包括分类与回归两类常见问题。 除了结构化的组织形式外,表格数据通常还具有 属性类型异质性 ,即包含数值型、类别型或混合型等多种数 据类型,且这些数 ...
大模型进入 RL 下半场,模型评估为什么重要?
Founder Park· 2025-05-13 03:42
Core Insights - The article discusses the transition of large models into the second half of their development, emphasizing the importance of redefining problems and designing real-use case evaluations [1] - It highlights the need for effective measurement of ROI for Agent products, particularly for startups and companies looking to leverage AI [1] - SuperCLUE has launched a new evaluation benchmark, AgentCLUE-General, which deeply analyzes the capabilities of mainstream Agent products [1] Group 1 - The blog post by OpenAI's Agent Researcher, Yao Shunyu, has sparked discussions on the shift from "model algorithms" to "practical utility" [1] - There is a focus on how existing evaluation systems can effectively measure the ROI of Agent products [1] - SuperCLUE maintains close connections with various model and Agent teams, showcasing its expertise in model evaluation [1] Group 2 - An invitation is extended to join an online sharing session featuring SuperCLUE's co-founder, Zhu Lei, discussing core challenges in evaluating large models and Agents [2] - The session is scheduled for May 15, from 20:00 to 22:00, with limited spots available for registration [3] - Additional reading materials are suggested, covering topics such as pricing AI products, insights from the Sequoia AI Summit, and the importance of product design in AI applications [4]
万字解读OpenAI产品哲学:先发布再迭代、不要低估模型微调和评估
Founder Park· 2025-04-15 11:56
今天凌晨, OpenAI 发布了新模型 GPT-4.1 ,相对比 4o,GPT-4.1 在编程和指令遵循方面的能力显 著提升,同时还宣布 GPT-4.5 将会在几个月后下线。 不少人吐槽 OpenAI 让人迷惑的产品发布逻辑——GPT-4.1 晚于 4.5 发布,以及混乱的模型命名,这 些问题,都能在 OpenAI CPO Kevin Weil 最近的一期播客访谈中得到解答。 在访谈中,Kevin Weil 分享了 OpenAI 在产品方面的路线规划,以及所拥护的产品发布哲学「迭代 部署」,对于近期火热的 4o 图片生成功能,也做了内部的复盘。 Kevin Weil 表示,「我们尽量保持轻量级,因为它不可能完全正确。我们会在半路放弃一些不正确 的做法或研究计划,因为我们会不断学习新的东西。 我们有一个哲学叫做迭代部署,与其等你完全 了解模型的所有能力后再发布,不如先发布,即使不完美,然后公开迭代。 」 背景:Kevin Weil 是 OpenAI 的首席产品官,负责管理 ChatGPT、企业产品和 OpenAI API 的开发。在加入 OpenAI 之前,Kevin 曾担任 Twitter、Instagram ...