Workflow
LLMSynthor
icon
Search documents
统计可控数据合成!新框架突破大模型数据生成局限,麦吉尔大学团队推出LLMSynthor
量子位· 2025-05-25 03:40
大语言模型受限于采样效率和上下文窗口大小,难以直接合成大规模数据集。 在人口、电商、出行等场景,数据敏感难共享,不同数据格式还需单独设计模型,成本高、迁移差。 传统方法如贝叶斯网络、GAN等,要么 难以建模高维依赖 ,要么 泛化差且不稳定 ,还常生成"9岁博士"这类统计合理但 语义荒谬 的样本。 同样,近期大模型也被用于数据生成,但存在 采样慢 、 分布不可控 、 上下文受限 等问题,难以高效生成结构完整的大规模数据集。 而LLMSynthor的解法是: 让LLM不直接生成数据,而是变成"结构感知的生成器" ,通过统计对齐反馈不断迭代优化。 整体框架如下: 现有的数据合成方法在合理性和分布一致性方面存在不足,且缺乏自动适配不同数据的能力,扩展性较差。 如何用大模型生成 结构对齐、统计可信、语义合理 的数据,成为了亟待解决的问题。 为此,麦吉尔大学团队提出了新方法 LLMSynthor —— 通过这个方法,可以让大模型变成 结构感知的数据模拟器 ,为隐私敏感、数据稀缺场景生成不泄密的高质量替代数据。 麦吉尔大学团队 投稿 量子位 | 公众号 QbitAI LLMSynthor:让LLM变成"结构感知的生成器" ...