同GAT一样,SYSTRAN的主要部分仍然是一个庞大的双语词典库,里面不仅收进了源语言和目标语言的等值词语,而且包含着原文分析与译文合成过程中需要用到的语法和语义信息。词典库里首先是两部分别容纳单字条目和多字条目的双语词典,从这两部词典里又派生出以下几部词典:
(1)由介词、连词、不规则动词词形、习语中的头两个词等成分组成的高频词典;
(2)把习语和复合名词作为词汇单位处理的”有限语义词典”(Limited Semantics Dictionary)
(3)处理语义相容性与配价的”条件有限语义词典”(Conditional Limited Semantics Dictionary);
(4)分成词根和词尾(英语例外)两部分的主词典。
SYSTRAN的翻译过程可分为5个阶段,即原文输入、主词典查阅、句法分析、转换(Transfer)和译文合成。
输入程序负责装入原文,并在高频词典中查找其中的每一个词。在第二个阶段 —— 主词典查阅阶段,机器对高频词典中未查到的词按字母顺序排序,在主词典的词根部分继续进行查找,查到的词回过头来再按原文的词序排列好。如果原文是用俄语或法语等形态变化丰富的语言写成的,那么在进入正式的句法分析阶段以前还要进行形态分析。
原文的句法分析由7个“工作循环”组成:
(1)通过检查相邻词的语法范畴区分同形异义词(homograph)(SYSTRAN为英语确定了83种不同的同形异义词);
(2)通过查找有限语义词典,找出复合词(如blast furnace“高炉”);
(3)通过查找段落标记、连词、关系代词等(亦即基本的短语结构分析),找出词组和短语;
(4)以自右向左扫描的方式,粗线条地分辨句法关系,如形容词与动词的一致、名词对动词的支配、名词与名词的同位排列等;
(5)找出由相连的形容词或名词构成的短语中的并列结构,利用语义标记确定可以接受的连接关系,例如在英语短语smog pollution control中,可以接受的连接关系是smog与pollution,而不是smog与control;
(6)通过首先搜寻限定动词、再搜寻限定动词前尚未被标记为“宾语”或“修饰成分”的名词的方式,找出主语和谓语;
(7)通过首先自右向左搜寻介词、再自左向右搜寻与其相关的名词短语的方式,分辨介词结构。
转换程序包括3个部分:
(1)参考有限语义词典,搜寻在某些情况下有习语译法的词语,例如英语的agree在用被动语态时译成法语的convenir,而在其他情况下则被译成 être d’accord;
(2)根据支配介词以及受介词支配的词所带的语义信息翻译介词;
(3)解决余下的歧义问题。一般来说,这要通过特殊词语词典中所载明的测验来进行。
在翻译的最后一个阶段,SYSTRAN的译文合成程序查出原文词语的目标语等值成分,对动词词形和形容词词尾做必要的修正,并重新按排词序(如把英语中形容词在前、名词在后的词序变换成法语的名词在前、形容词在后的词序),从而产生译文。
今天的文章 SYSTRAN翻译系统的工作原理分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/86005.html