トップページ

LogoVista電子図書館

翻訳ソフトの要とも言える「翻訳エンジン」はどのような仕組みで動いているのでしょうか。

 

お客さま方からのご要望にお応えして、翻訳エンジンの内部をご紹介いたします。

2000年に弊社創設10周年を記念して作成いたしました「コリャ英和!解体新書」より、ロコヴィスタ翻訳ソフト「翻訳エンジン」開発の技術顧問、ハーバード大学言語学科 久野教授(当時)に解説していただきました。

翻訳エンジンの仕組みが分かれば、翻訳された文章をわかりやすく自分なりに解釈する方法が見えてきます。

より翻訳ソフトを有効に活用いただく手がかりとしていただければ幸いです。

※最新版公開いたしました(20110907)

 

 

翻訳エンジンの諸段階機械翻訳プロセスの追跡追加された諸機能解説者について&プレゼント

 

 

最新の翻訳エンジン

 

「こりゃ英和! 翻訳エンジンのメカニズム」 (『コリャ英和!翻訳エンジンのメカニズム』2000年)以後に追加した諸機能をご紹介いたします。

 

1. 不適格熟語

常識的には、ある言語の辞書というのは、その言語で許されている単語、熟語を収容して、その意味、用法を記述するものですが、LVEJの辞書には、「不適格熟語」項目が登録されています。たとえば、英語の構文解析の難しい問題の一つに、次のような構文があります。

(1) For old people and people with disabilities, winter is a big problem.
高齢者や障害のある人のために、冬は大きい問題である。

この文の old people and people with disabilities パターンは、一見、何の変哲もないパターンに見えますが、自動翻訳のためには頭痛の種のパターンです。適格訳は [[old people] and [ people with disabilities]] という構造をもった名詞句としての訳ですが、この名詞句には、構造的には、[[old people and people] with disabilities] 「障害のある[高齢者や人]」の解析も可能だからです。LVEJ の辞書には、 ”old people and people 名詞句” が不適格熟語として極めて低い蓋然性指数を付されて登録されています。そのため、文全体で、この不適格熟語を用いた構文解析の蓋然性は非常に低くなり、上位翻訳として出力されないことになります。もちろん、この “old people and people” を辞書の不適格熟語エントリーを用いないで、一語一語のレベルから積み上げていく構文解析も可能で、この解析の過程には、極度に低い蓋然性指数を付された単語、あるいは単語連結は現れませんから、この解析は、「障害のある高齢者と人」という訳語を付されて上位解析に現れる可能性を持っているのですが、不適格熟語 “old people and people” には、この表現が名詞句として解析された場合には、同じ表現の名詞句としての他のすべての解析を無視せよ、という符号がついているので、そのような解析は、無視されて、アウトプットされないことになります。Google で調べると “old people and people” という表現は、何十万という頻度数を持った表現で、この不適格熟語エントリーは “old people and people who have disabilities” 「高齢者と障害を持っている人」(不適格訳:障害を持っている高齢者と人))や “old people and people suffering from dimentia” 「高齢者と認知症で苦しんでいる人々」(不適格訳:認知症を持っている高齢者と人々)など、多様なパターンの誤訳を排除するのに計り知れない威力を発揮するものです。

 

もう一つ、不適格熟語エントリーが威力を発揮する例を挙げておきましょう。

(2) He will come in tomorrow.
彼は明日中に入るであろう。

上の訳は、英文の正しい訳ですが、この訳は “come in” を「中に入る」という熟語と見做し、tomorrow を副詞として解析したものです。この文も一見変哲のない文に見えますが、構造上、この文には、[come [in tomorrow]] (不適格訳「明日の中に来る」)という解析も可能です。この解析では、”in” は前置詞で、名詞としての “tomorrow” がその目的語となっています。このような意味上不適格な構文解析は、不変化詞 in で終わる動詞句のあとで、名詞としても副詞としても解析可能な表現が現れる文に常に可能です。

(3) I took it in yesterday.
私は昨日それを取り入れた。
[不適格訳] 私は昨日の中にそれを取った。

不適格熟語 “in tomorrow,” “in yesterday” などは、このような不適格訳を排除するのに大きい威力を発揮します。ここで注意すべきは、不適格熟語には低い蓋然性指数が付されてはいますが、蓋然性指数ゼロが付されているわけではないことです。なぜなら、”in tomorrow” や “in today” や ”in yesterday””は前置詞句として用いられることができないわけではないからです。例えば、

(4) I am interested in today, not in yesterday.
私は、昨日にではなく、今日に興味を持っている。

では、これらの表現が前置詞句として用いられているからです。LVEJ の不適格熟語登録機能は、これらの表現を (4) では前置詞句として解析し、(2, 3) では前置詞句として解析しないような機能を備えています。

 

2. 事例翻訳機能

LVEJには、次の特性をもった事例翻訳機能が搭載されています。

(5) a. 事例翻訳英語テンプレートの品詞は、構文解析に使われる文法に認められているもの
であれば、いずれの品詞でも使用できます。入力英文中でテンプレートとマッチするサ
ブストリングの長さには制限がありません。
  b.

テンプレートには、最高3つのヴェアリアブルを指定することができます。ヴェアリアブルは <品詞 :意義素> の構造を持ち、文法で認められている品詞、意義素のどれでも使用することができます。入力文中で、サブストリングとマッチするサブストリングの長さにも制限がありません。

 

テンプレート例

テンプレートが適用する英文サブストリングの一例:

Three days into the American war on Saddam Hussein (, the soaring government buildings and opulent places that once stood on the banks of the Tigris River were gone.)
サダム・フセインに対するアメリカの戦争が始まって3日で(、そびえる政府のビルとかつてチグリス川の土手の上に立った富裕な場所はなくなっていた。)

英語テンプレート:

<NUMBER :number> days into <NP :event time> = 副詞句

日本語テンプレート:

<2> が始まって <1> 日で :副詞句

  c.

英日テンプレートに含まれている情報から、このテンプレートに対応する事例翻訳辞書エントリーと、事例翻訳文法規則が作られます。事例翻訳辞書エントリーの作成は完全自動です。事例翻訳文法規則の作成は、現在の段階では、半自動的です。事例翻訳規則は、同じパターンの規則がすでに登録されていれば、当然再登録の必要がありません。たとえば、上記の英日テンプレートを処理する文法規則を登録すれば、その規則が、次のようなテンプレートも処理することができます。

英語サブストリング:

four weeks into the new school year

新学年が始まって4週間で

英語テンプレート:

<NUMBER :number> weeks into <NP :event time> = 副詞句

日本語テンプレート:

<2> が始まって <1> 週間で = 副詞句

英語サブストリング:

only 5 miles away from Cambridge (, Belmont is a small Town with a population of 20,000)
ケンブリッジからたった5マイルの距離で (、ベルモントは20,000の人口のいる小さい町である。)

英語テンプレート:

<NUMBER :number> miles away from <NP :place town> = 副詞句

注: 構文解析で、”only/about/approximately 5” などのサブストリングも NUMBER という品詞を与えられます。

日本語テンプレート:

<2> から <1> の距離で = 副詞句

上の英語テンプレートは、すべて

< NUMBER> 英語サブストリング <NP> = 副詞句

というパターンであり、日本語テンプレートは、すべて

<2> 日本語サブストリング1 <1> 日本語サブストリング2 = 副詞句
というパターンなので、同一の事例翻訳文法規則で処理できるわけです。異なった意
義素指定は、新しい文法規則を必要としません。

  d. 事例翻訳辞書は、LVEJのシステム辞書と全く同じフォーマットであり、事例翻訳文法規則は、LVEJ の一般文法規則と全く同じフォーマットなので、事例翻訳エントリーの辞書引きは普通辞書エントリーと全く同じ取り扱いを受け、事例翻訳文法規則は、一般文法規則と同格の規則として、特別な処理を必要とないように設計されています。そして、構文解析と意味解析のランキングを決めるいろいろなエキスパートが、事例翻訳を用いた訳文と、用いていない訳文に同等に適用され、訳文のランキングが行われる仕組みになっています。すなわち、事例翻訳機能は、従来のLVEJの構文解析、意味解析、エキスパーシステムによる訳文ランキングの諸コンポーネントに何の修正も加えることなく機動しているわけです。

LVEJの事例翻訳システムは現在の段階では、開発者しか使えない機能になっていますが、徐徐に、一般ユーザーも使える機能にしていくように計画しています。