Workflow
特征工程
icon
Search documents
一文读懂深度表格数据表示学习 | 南京大学
量子位· 2025-06-25 00:33
南京大学博士生蒋俊鹏 投稿 量子位 | 公众号 QbitAI 在AI应用中,表格数据的重要性愈发凸显,广泛应用于金融、医疗健康、教育、推荐系统及科学研究领域。 深度神经网络(DNN)凭借其强大的表示学习能力,在表格数据建模上展现出令人瞩目的潜力。 南京大学团队系统介绍了表格表示学习这一研究领域,他们将现有方法按泛化能力划分为三大类: 专用模型 (Specialized)、可迁移模型(Transferable)和通用模型(General) 。 除此之外,他们还比较了DNN与传统方法——树模型的优劣,并剖析表格数据学习中的核心挑战,讨论了集 成学习方法以及开放环境下的表格学习和多模态表格任务等扩展方向。同时,考虑到不同数据集之间方法表现 差异显著,研究团队还探讨了数据集收集、评估与分析的系统策略,旨在建立跨数据集的稳健评估体系。 背景 表格数据本质上是一种 结构化的信息表示方式 ,在组织与表达复杂数据关系方面具有天然优势。 此研究聚焦于 有监督的表格机器学习任务 ,主要包括分类与回归两类常见问题。 除了结构化的组织形式外,表格数据通常还具有 属性类型异质性 ,即包含数值型、类别型或混合型等多种数 据类型,且这些数 ...
整合多源植物转录组数据,山东理工大学等构建PlantLncBoost模型,跨物种lncRNA预测准确率最高达96%
3 6 Ke· 2025-06-18 07:44
山东理工大学联合北京林业大学、广东省农业科学院、巴西圣保罗大学、英国罗莎琳德富兰克林医科大学、瑞典于默奥大学的研究团队等科研机构,共同 构建了 PlantLncBoost 模型,为解决植物 lncRNA 鉴定的泛化性难题提供了系统性解决方案。 在植物科学领域,长非编码 RNA(lncRNA)的研究正逐渐成为焦点。2020 年发表的一篇关于植物 lncRNA 研究的论文指出,lncRNA 在植物的生长发育 和环境适应过程中发挥着关键作用。例如,有研究发现,某些 lncRNA 能够通过与蛋白质相互作用来调控植物的开花时间,从而影响植物的繁殖策略。这 种精细的调控机制对于理解植物如何应对气候变化等环境压力具有重要意义。 随着技术的进步,越来越多的植物 lncRNA 被鉴定并表征。然而,由于 lncRNA 在不同物种之间的序列保守性较差,为机器学习模型的泛化能力带来了重 大挑战。以早期广泛应用的 CPC 和 CPAT 工具为例,其在禾本科与豆科植物间的交叉验证准确率较同源物种下降 35%-40%,暴露出序列特征泛化能力不 足的核心问题。尽管提升模型(如 XGBoost、LightGBM)在处理高维数据时表现出更好的抗 ...