?
 
作者:田小雨 来源: 中国科学报 发布时间:2019/7/18 9:40:57
选择字号:
机器学习已能翻译失传已久的语言

 

对失传已久的语言进行破译,一直是考古学家和语言学家关注的焦点和难点。随着大型注释库的应用以及机器学习技术的发展,人们开始思考,机器能否帮助破译失传已久的语言。近日,美国麻省理工学院的罗家明和雷吉娜·巴兹雷以及加州山景城谷歌人工智能实验室的曹元团队发明了能够破译失传语言的机器学习系统,并用它破译了线形文字B。

1886年,英国考古学家阿瑟·埃文斯在地中海的克里特岛发现了刻着奇特未知语言铭文的古老石头。而石头上所刻的正是线形文字A和线形文字B。

线形文字A可追溯到公元前1800年至1400年间,当时该岛被青铜时代的米诺斯文明统治。线形文字B在公元前1400年后出现,当时该岛被来自希腊大陆的迈锡尼人征服。多年来,考古学家一直试图破译这些古老的文字,但都失败了。直到1953年,业余语言学家迈克尔·文特里斯破译了线形文字B。

但破译更古老的线形文字A至今仍是语言学中令人瞩目的难题。

罗家明等人发明的破译失传语言的机器学习系统,通过破译线形文字B证实了这一系统的有效性——这是首次机器完成自动破译,其实现方式与机器翻译技术不同。

机器在不知其意的情况下,是如何实现翻译的呢?

无论机器翻译哪种语言,原理都是从目的语中寻找与源语词汇相对应的单词,因而首先要将特定语言的对应关系映射出来。这一过程需要庞大的文本数据库。机器通过搜索该文本库,得出每个单词和每个与它相邻单词出现的频率。每个单词可以看做多维参数空间中的一个向量,该向量作为约束条件,限制了对应单词出现在机器翻译中的形式,并且这些向量会遵循一些简单的数学法则。

机器翻译的关键是,不同语言中的单词在各自参数空间内占据着相同的“点”。这使得从一种语言一对一映射到另一种语言成为可能。因此,翻译句子的过程变成了在这些空间中寻找相似轨迹的过程。机器甚至无需“知道”这些句子的含义。

罗家明等人研发的机器学习系统,其约束条件与语言发展方式息息相关。该原理是任何语言只能以特定的方式改变——比如,对应语言中的符号以相似的分布出现,对应单词以相同的字符顺序排列,以此类推。有了这些规则约束机器,只要知道源语言,就可以轻松破译。

为了更好地测试该技术,罗家明等人使用了两种消失的语言——线形文字B和乌加里特语。线形文字B记录了古希腊的早期形式,而发现于1929年的乌加里特语则是希伯来语的早期形式。

试验证明,罗家明等人研究的机器学习系统能非常准确地翻译这两种语言。“在破译过程中,我们能准确地将67.3%的线形文字B的同源词翻译成对应的希腊语。”他们说,“我们的实验是机器自动破译线形文字B的首次尝试。”

然而他们却没有提到线形文字A的破译,众多语言学家都认为线形文字A的研究意义重大。所以,在机器能够破译线形文字A之前,仍需取得重大的研究突破。

虽然没有源语,新技术也行不通,但机器翻译的最大优点是,它可以不知疲倦地快速检测一种又一种语言。因此,罗家明和他的团队很可能会使用粗略近似法破译线形文字A,试图把它破译成机器翻译已在使用的每种语言。

田小雨

《中国科学报》 (2019-07-18 第7版 信息技术)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文
?
图片新闻
万能生物催化剂全长晶体结构获破解 深海热液区首次发现超高温气态水
中科院定点帮扶广西环江毛南族自治县26年 用3D技术绘制大鼠心脏神经元
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文
 
网站地图 千亿客户端下载登入 乐虎国际网址登入 188金宝博现金网登入
太阳城集团网上娱乐 太阳城集团官方 申搏官网亚洲 申博娱乐真钱金花
bbin视讯娱乐场代理登入 棋牌游戏赚钱换人民币 博彩赌博新闻989 大发彩票时时彩
188金宝博会员登入 云顶网上娱乐登入 韦德国际开户登入 太阳城集团网址
韦德网址登入 捕鱼达人游戏平台登入 韦德亚洲游戏界面登入 云顶集团娱乐登入
8HBS.COM 1112125.COM 8LSS.COM 2222XSB.COM 8888XSB.COM
988cw.com 136PT.COM 818XTD.COM 718jbs.com 133DC.COM
165sun.com 3466111.COM S6187.COM 278sunbet.com 131sj.com
151ib.com 398PT.COM 7TGP.COM 178sunbet.com 1777DZ.COM