AI翻译的“最后一公里”
在巴布亚新几内亚的一个原始部落,情感的中心是肝脏而非心脏;在纳米比亚,有一个专门的词形容「光脚踩 在热沙上」。这些人类经验的细微差别,正成为AI翻译难以逾越的「最后且最远的一英里」。 在巴布亚新几内亚的丛林深处,阿瓦人(Awa)并不相信心脏是情感的中心。 如果你想对他们表达真诚,你不能说「敞开心扉」,而应该说「敞开你的肝脏」。 而在同一个岛屿的另一端,拉瓦人(Rawa)则坚信,人类的灵魂与情感栖息在胃里。 这些细微且致命的文化差异,曾是翻译者数百年来无法逾越的天堑。 但现在,硅谷最前沿的AI正在试图填平这个天堑。 被遗忘的语料荒漠 对于ChatGPT或Gemini这样的通用大模型来说,英语是「富人区」,中文和法语是「中产阶级」,而像阿瓦语 这样的语言,则是彻底的「贫民窟」。 在AI的训练集中,英语占据了90%以上的份额。 这种数据的极度不平衡创造了一种「算法霸权」:模型倾向于用英语的逻辑去理解世界。 当你输入一个复杂的中文成语,AI往往会先将其「脑补」成英文语境下的对应概念,再翻译回来,导致原意的 流失。 而在那些仅有数千人使用的「低资源语言」中,情况更为糟糕。 互联网上几乎不存在这些语言的文本数据,AI无书 ...