Workflow
Data Transparency
icon
Search documents
Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集
AI前线· 2025-09-17 06:17
作者 | Robert Krzaczyński 译者 | 平川 Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总 计约 3 万亿个 Token。凭借 3.65TB 的规模,FinePDFs 开创了开放训练数据集的新纪元,让人们可以利用长期以来因为过于 复杂和昂贵而无法处理的资源。 尽管大多数大规模语言模型数据集依赖于 HTML 源,如 Common Crawl,但 PDF 有着独特的优势。它们往往记录了更高质量 的、特定领域的内容,特别是在法律、学术和技术写作领域。然而,从 PDF 中提取可用文本一直都很困难:有些包含嵌入式 文本,其他的需要 OCR,而格式问题可能会使解析工作变得非常复杂。 为了解决了这些挑战,FinePDFs 混合使用了文本提取(Docling)、 GPU 驱动的 OCR(RolmOCR)以及去重、语言识别和 PII 匿名化等技术。Hugging Face 表示,这种双重策略使他们既能大规模地处理文档,又能在面对各种格式时保证提取质量。 该数据集涵盖了广泛的语言,其中英语占比最高,有超过 ...
X @ZKsync (∎, ∆)
ZKsync (∎, ∆)· 2025-09-05 15:11
The new agenda by @SECGov signals a pivotal policy shift to a stronger focus on financial privacy, data transparency and customer identification.As a pioneer of ZK cryptography, @ZKsync is actively working to modernize these areas through the use of its cutting edge tech.Paul Atkins (@SECPaulSAtkins):Today, we released the Unified Agenda of Regulatory and Deregulatory Actions. This agenda reflects that it is a new day at the SEC.Here's my full statement: https://t.co/ZguBGZ3a2U https://t.co/kdGDolfkU9 ...
X @Token Terminal 📊
Token Terminal 📊· 2025-07-10 18:14
RT Token Terminal 📊 (@tokenterminal)🚨 Exciting news.Token Terminal's fee & revenue data is now live on @coingecko.By combining CoinGecko’s comprehensive market data with Token Terminal’s fundamental onchain metrics, we’re setting a new standard for data transparency in crypto.Learn more 👇 https://t.co/kfKdgVOsne ...
X @Token Terminal 📊
Token Terminal 📊· 2025-07-10 12:28
🚨 Exciting news.Token Terminal's fee & revenue data is now live on @coingecko.By combining CoinGecko’s comprehensive market data with Token Terminal’s fundamental onchain metrics, we’re setting a new standard for data transparency in crypto.Learn more 👇 https://t.co/kfKdgVOsne ...