多语言大模型

Search documents
小语种恐被AI时代边缘化?多国专家呼吁:语言模型不能只服务大语种!
Di Yi Cai Jing· 2025-07-29 02:35
"巴别鱼"是英国作家道格拉斯·亚当斯在1979年出版的科幻小说《银河系漫游指南》中创造的虚构生物——这种外形呈黄色水蛭状、寄生在宿主耳道内的神 奇生物能够突破语言障碍,实现跨物种的语言交流。 进入AI时代,由于大部分的通用大模型对低资源语言的支持严重不足,使得小语种国家面临被时代边缘化的风险。 匈牙利语具有极度复杂的词缀组合及自由语序,这为大语言模型token的划分等带来独特挑战。对此,匈牙利语言学研究中心总干事Gábor Prószéky教授强 调,数据质量优于数据体量,是构建可信大语言模型的关键。他希望能与中国AI同行合作,构建语言模型的评估框架,实现从训练、语料建设到实际应用 的完整闭环。 以色列人类语言技术协会(IAHLT)创始人兼董事Avner Algom以希伯来语为例称,希伯来语虽是世界上唯一被成功复兴为现代口语的古老语言,但在自然 语言处理领域仍属低资源语言。 Algom强调:"语言服务不能只为大语种设计,小语种也应拥有技术平权。"IAHLT基于开源模型,已训练出双语大模型(希伯来语+英语),并部署于教 育、客服、医疗等场景。通过政府财政激励机制,联合产业界解决数据获取合法性、训练成本和落地门槛 ...