Workflow
Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集
AI前线·2025-09-17 06:17

作者 | Robert Krzaczyński 译者 | 平川 Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总 计约 3 万亿个 Token。凭借 3.65TB 的规模,FinePDFs 开创了开放训练数据集的新纪元,让人们可以利用长期以来因为过于 复杂和昂贵而无法处理的资源。 尽管大多数大规模语言模型数据集依赖于 HTML 源,如 Common Crawl,但 PDF 有着独特的优势。它们往往记录了更高质量 的、特定领域的内容,特别是在法律、学术和技术写作领域。然而,从 PDF 中提取可用文本一直都很困难:有些包含嵌入式 文本,其他的需要 OCR,而格式问题可能会使解析工作变得非常复杂。 为了解决了这些挑战,FinePDFs 混合使用了文本提取(Docling)、 GPU 驱动的 OCR(RolmOCR)以及去重、语言识别和 PII 匿名化等技术。Hugging Face 表示,这种双重策略使他们既能大规模地处理文档,又能在面对各种格式时保证提取质量。 该数据集涵盖了广泛的语言,其中英语占比最高,有超过 ...