人工智能模型训练

Search documents
速递|O'Reilly指控OpenAI"窃书" 训练 GPT-4o,AI数据黑箱再陷版权风暴
Z Potentials· 2025-04-02 03:17
图片来源: Unsplash 多家机构指控 OpenAI 可能利用付费墙后的 O'Reilly 书籍训练 AI 模型, 未经许可使用受版权保护的 内容训练其人工智能。 如今,一家 AI 监督组织发布的新论文提出了严厉指控,称该公司日益依赖未公开且未获授权的书籍 来训练更复杂的 AI 模型。 人工智能模型本质上是复杂的预测引擎。通过大量数据(如书籍、电影、电视剧等)的训练,它们学 习模式及从简单提示中推断的新方法。当模型 "撰写"关于希腊悲剧的论文或"绘制"吉卜力风格图像 时, 它只是在利用其庞大知识库进行近似模拟,并未创造出任何新内容。 在 ChatGPT 中, GPT-4o 是默认模型。论文指出, O'Reilly 与 OpenAI 之间并未签署许可协议。 "OpenAI 最新且能力更强的模型 GPT-4o ,相比早期模型 GPT-3.5 Turbo ,对 O'Reilly 付费书籍内容 展现出更强的识别能力…… " 论文合著者写道, " 相比之下, GPT-3.5 Turbo 对公开可获取的 O'Reilly 书籍样本表现出更高的相对识别率。 " 该论文采用了名为 DE-COP 的方法( 2024 年首次 ...