学术 > 加州大学伯克利分校研发出灭绝语言的重建模型

加州大学伯克利分校研发出
灭绝语言的重建模型

在史前时代, 东南亚和大洋洲的居民说的是南岛语(现已灭绝)。七千年后,时至今天,加州大学伯克利分校的研究人员发明了一个高级计算机系统来自动重建这门语言.

之前都是语言学家通过分析语言间的关系和音变模式来手动地重建语言,但有了这个有点像语言学时间机器的系统,我们可以省掉不少繁重的学术活。

输入各个子语种的现代词汇清单及其发音信息,随之这个系统就会输出重建的共同母语。比如，输入法语或意大利语等罗曼语言，该系统会输出类似拉丁语的重建语言。

“当罗马帝国崩溃时，说着不同版本拉丁语的人群被隔离开来，各地区的拉丁语独立演化，发生不同的音变”, Dan Klein（加州大学伯克利分校计算机科学副教授、该模型的联合创始人)如是说, “每个语种都是拼图的一部分。”

Klein解释说，例如，西班牙语表示“火”的单词是"fuego"，而对应的意大利语单词是"fuoco"，由此我们可以推导出拉丁语表示“火”的词的首字母是F。

这个计算机系统将诸如此类的联接编织在一起，从而精确确定一个词汇的初始形式。2013年2月11日，该项目的研究结论发表在《美国国家科学院学报》。其结论显示: 该系统85%的重建结果与专业语言学家手动重建的结果吻合。

除了通过子语种来推断原始词根，该计算机模型还可以专门分析单一子语种,找出语种内部的规律。

Klein说，“每一个子语种都保留着母语的一些特性，意大利语保留了拉丁语词中的辅音，葡萄牙语保留了较多的元音，通过考察它们的共性和典型变化，我们可以重演那个变化的过程。”

Klein接着说，“通过研究诸如上述这些‘语音名片’，研究者可以评估某些变化复现的概率，并且基本上可以预测现有语种将来在不同地区如何演化。”

另外，该模型亦旨在回答一些文化和人类学问题。通过研究词汇的历史，历史学家可以推知文化如何融合和分化，并更好地理解人类文明的演变。

Tom Griffiths（伯克利分校心理学教授、该研究的联合发起人）认为，历史语言学与关于"文化演变――人类如何相互学习"的研究紧密关联。他补充说，这个模型有潜力回答关于人类语言与认知的历程的重大问题。

Griffiths，曾和伯克利分校研究生 David Hall、英属哥伦比亚大学统计学助理教授Alexandre Bouchard-Cote一起开展该研究.他表示,“人类何以能解决像语言学习之类的难题，又怎样使电脑更好地解决这些难题，我对探究这类问题感到很兴奋。”

2006年,当Bouchard作为伯克利分校的研究生跟着Klein研究时, 他看中了这个项目, 加入团队一起合作研究。

这个模型基于马尔可夫链蒙特卡洛算法,该算法通过固定结果并在其他模型的基础上不断改进结果来填补未知变量。

团队的研究成果给语言学界中饱受争议的功能负载假说（functional load theory）画上了句号，该假说认为，某些语音相对而言更可能消失。

Klein说，“如果两个语音很少用于区分词汇，那它俩合并的话也没什么不妥，比如'the'和'thin'中的'th'就是如此。功能负载假说认为，区分性不显著的语音更容易消失。”

Klein称，该模型可以分析语音变化的趋势，由此研究团队可以确定语音合并的频率，并最终证明了语音的功能负载假说。

据历史语言学教授Andrew Garrett所说，很多语言学家起初对语音的功能负载假说持怀疑态度，但Klein的研究团队提供了精确的论证，极大影响了他和一些语言学家。

Garrett 表示，“这是很有意思的研究――他们当然会称自己的成果只是万里长征第一步，但他们的研究会得到很多语言学家的特别关注。如果谁能借助计算机运算获得一点额外的学术优势，那真是太好了。”

在Klein看来，虽然该计算机系统在语言学领域是一个重大跨越，但并不会取代语言学家。某些文献要求解读者具备更广博的洞察力和语言学家的专门技艺。比如，在诗歌领域，研究者可以判断缺失的语音因为押韵的音节数是限定的――这可不是现在计算机能做到的。

取代手动重建语言的语言学家并不是这个计算机系统的目标，它的效用在于快速处理一大堆数据。它可以辅助我们解决新问题。