トップページ

LogoVista電子図書館

翻訳ソフトの要とも言える「翻訳エンジン」はどのような仕組みで動いているのでしょうか。

 

お客さま方からのご要望にお応えして、翻訳エンジンの内部をご紹介いたします。

2000年に弊社創設10周年を記念して作成いたしました「コリャ英和!解体新書」より、ロコヴィスタ翻訳ソフト「翻訳エンジン」開発の技術顧問、ハーバード大学言語学科 久野教授(当時)に解説していただきました。

翻訳エンジンの仕組みが分かれば、翻訳された文章をわかりやすく自分なりに解釈する方法が見えてきます。

より翻訳ソフトを有効に活用いただく手がかりとしていただければ幸いです。

※最新版公開いたしました(20110907)

 

 

翻訳エンジンの諸段階機械翻訳プロセスの追跡追加された諸機能解説者について&プレゼント

 

 

ネットワークで共有できる電子辞典

 

ロゴヴィスタの翻訳ソフトの英日翻訳エンジンは、入力された文章を次の6つのプロセスを経てターゲツト言語の文章に翻訳します。

 

1.辞書引き 2.構文解析 3.基本文型化
辞書に登録された単語から、一致するものを抽出し、単語の品詞、その細分化指定を得る。 品詞の系列を文法法則と照らし合わせ、文の構文的構造を分析する。一つの文に対して、複数個の構文木が得られるのが常であるが、分析に用いられた文法規則の蓋然性、各単語に選ばれた品詞の蓋然性、その他の評価基準を用いて構文木のランク付けを行う。 構文木のうち、ランク付けの高いものを選んで、その一つ一つに対して、もしそれが転置文構造であれば、基本文型化を行う。たとえば、"What languages can you speak?"の構文木が、"You can speak what languages?"の構文木に変換される。
4.意味解析 5.構文変換 6.形態素生成
基本文型化された構文木の一つ一つについて、選ばれた単語の品詞の意味付けを行う。たとえば名詞"flies"に対して、その意味を「ハエ」か、「蚊ばかり」か、「ズボンの前ボタン」のいずれかに固定した構文木(意味木)を作る。そのようにしてできたそれぞれの意味木に、意味的な適合性があるかどうかをチェックし、意味木のランク付けを行う。 意味木のうち、ランク付けの高いものを選んで語順変換、助詞附加、などの変換を行う。 意味木の中の動詞や形容詞を指定されている変化情報(たとえば、否定・過去)に従って活用させる。

 

1.辞書引き

第1の辞書引きプロセスは、ロゴヴィスタ翻訳エンジンでは、極めて単純化されています。というのは、ロゴヴィスタの翻訳エンジンが使う辞書には、名詞の複数形、動詞の変化形、形容詞の比較級、最上級形がすべて前もって登録されているからです。これは、機械翻訳で一般に用いられている形態素解析方式とは、異なったアプローチです。形態素解析方式とは、簡単に言えば、たとえば名詞“horse”と“horses”の両方を登録しないで、“horse”だけを登録しておき、入力文に“horses”が出てくれば、語尾-s を取り除いて辞書引きし、“horse”の複数形と判定す ることができる、という方式です。ロゴヴィスタ翻訳エンジンで、この方式を使わず、変化形をすべて原形のエントリーに付随するエントリーとして登録しているのには二つの理由があります。第1は、変化形の構文的特徴が原形の構文的特徴から予測できないことが多いこと、第2は、変化形の頻度数的特徴が、原形の頻度数的特徴から予測できないことが多いことです。

たとえば、単純他動詞の過去分詞形が受身文に現われ得るかどうか、もし受身文に現われ得るとすれば、形容詞的用法で名詞の前に現れ得るかどうかという構文的情報が必要です。たとえば、“eaten”は“eat”の過去分詞形ですが、“everything has been eaten”とも言えるし、“half eaten apples”とも言えますから、受身文にも現れ得るし形容詞的用法で名詞の前に現れることもできます。“had”は“I've been had”「私はだまされた」とは言えますが、“a had person”「だまされた人」とは言えませんから、受身文には現れ得ても、形容詞的用法で、名詞の前に現れることはできません。他方、過去分詞“cost”は、“this has cost $100”とは言えても、“$100 has been cost”とは言えませんから、受身文に現れ得ません。このような過去分詞形の構文的特徴は、動詞の原形からは予測できない特徴で、過去分詞形に附加されるべき情報です。

頻度数の問題の例としては、“smell”と“smells”があります。名詞単数の“smell”は、動詞原形の、“smell”より高い頻度数で現れますが、名詞複数の“smells”は、動詞三人称単数現在の“smells”よりもはるかに低い頻度数です。

ロゴヴィスタ翻訳エンジンは、上記のような詳細な構文法的特徴や、頻度数的情報も解析に用いるので、変化形も付随的辞書エントリーとして、その構文的特徴、頻度数的特徴と共に辞書登録してあるわけです。

 

2.構文解析

第2の「構文解析」は、品詞の情報を元にして、品詞のつながりの規則性に添って文の構造を解析します。この部分がまさに翻訳ソフトの要で、正確な翻訳のための大きな鍵を握っています。一つの入力文に対して、文法上は正しい(しかし意味的には間違っているかもしれない)構文木が数多く出力されます。このような複数個の構文木は、分析に使われた文法規則の蓋然性、それぞれの単語に選ばれた品詞の蓋然性、その他の評価基準に従ってランク付けされます。

 

3.基本文型化

第3の「基本文型化」は、入力文の転置されている構造を、基本文型の構造に変換するプロセスです。たとえばこのプロセスで、“What languages can you speak?”「あなたは何の言語を話すことができるか? 」の構文木は、“You can speak what languages?”の構文木に変換されます。同様、 “It is clear that the earth is round.”「地球が丸いことは明確である。」の構文木は、“That the earth is round is clear.”の構文木に変換されます。

 

4.意味解析

第4の「意味解析」は、まず、ランク付けの高い構文木一つ一つについて、それぞれの単語の意味付け (たとえば、名詞と判定された“flies”は「ハエ」か「蚊ばり」か「ズボンの前ボタン」か)を行います。従って、一つの構文木から、複数個の意味木(実際には、構文木に意味情報が附加された木)ができます。この一つ一つの意味木について、単語の意味の聞に、どの程度の適合性があるかが評価されます。

たとえば、“Bright”には「頭が良い」という意味と、「明るい」という意味がありますが、この単語が“a bright smile”に現れている場合には、「明るい微笑」のほうが「頭が良い微笑」よりもはるかに適合性があります。他方、同じ単語が“a bright student”に現れている場合には、「頭が良い学生」のほうが「明るい (光り輝く)学生」よりもはるかに適合性があります。

「意味解析」プロセスはこのような意味適格性判断を規則的に行うプロセスです。「意味解析」プロセスのアウトプットは、ランク付けされた意味木の集合です。

 

5.構文変換

第5の「構文変換」はランク付けの高い意味木の一つ一つに徐々に種々の変換を加え、出力文の構造に変換するプロセスです。このプロセスによって、主語に「が」あるいは「は」、目的語に「を」が附加されたり、「2つの鉛筆」が「2本の鉛筆」に変換されたりします。また、“John returned home to find his house burglarized.”の意味木が、「ジョンは彼の家が盗みに入られているのを見いだすために家に帰った。」という目的を表わす副詞的不定動詞構文を含んだものから、“ John, returning home, found his house burglarized.” 「ジョンは家に帰って、彼の家が盗みに入られているのを見いだした。」という結果節構造をふくんだ意味木に変換されます。

 

6.形態素生成

第6の形態素生成は、意味木の末端に現れている動詞や形容詞に、指定された語形変換を加えるプロセスです。このようにしてできた意味構造木の末端のノードだけを取り出して翻訳文を出力します。

 

 

Page Top