« 自動翻訳は世界平和に貢献するか? | トップページ | ベーシックインカムについて考える(1) »

2008年7月 6日 (日)

「翻訳支援機能付きHTML」という発想

 前回に引き続いてコンピュータによる自動翻訳の話です。グーグルでの翻訳結果があまりにひどいので、一体どんな翻訳ロジックを採用しているのか興味を持ちました。調べてみたらグーグルの「よくある質問」のページにちゃんとカラクリが書いてありました。一読してびっくり。そのまま引用します、「今日市場に出回っている自動翻訳システムのほとんどは、規則ベースで開発されており、語彙や文法の定義など多くの作業を必要とします。Google の翻訳システムの手法は異なり、ターゲットとなる言語で記述された単一言語のテキストと、人間が翻訳した他言語のサンプル翻訳テキストを対にしたものを大量にコンピュータに入れます。そしてこれらのテキストに統計的学習手法を適用して、翻訳モデルを構築しています。Google のリサーチ評価では、この手法が優れた結果をもたらすことが判明しています。」 おおっ、これってひょっとして、「サールの中国語の部屋」そのものじゃないですか! ジョン・サールという哲学者のことをご存知ない方は、インターネットで検索していただくとして、私がこの解説を読んで理解したと思ったのはこういうことです。グーグルの自動翻訳は、24もの言語(中国語の繁体字と簡体字をひとつと見なせば23になります)を相互に翻訳するという画期的なものですが、実はグーグルの翻訳ソフト開発チームには、これらの外国語に精通した人間なんてひとりもいないに違いない。いや、それどころか、この〈統計的翻訳手法〉というものの優秀さをアピールすることで、グーグルの技術者たちは、「俺たちは自分が全く知らない言語についてだって翻訳プログラムを作ることが出来るんだぜ」と豪語しているのです。

 これはいかにもグーグルらしい発想だと感心させられると同時に、私のような文科系バリバリの人間には、まったく自然言語というものを舐めたふざけた発想だとも感じさせられるのです。では、その統計的翻訳とやらの実力のほどを見せてもらおうじゃないか。このブログの先週の記事を試しにグーグルの翻訳ページで英語に訳させてみました。冒頭部分はこんなふうになりました。

 原文 『訪れる人もまれな、ワールドワイドウェブ上の孤島のようなこの私のページに、それでもたまに立ち寄ってくれるお客さまがいるのは、インターネット検索というサービスのおかげです。』

 グーグル英語訳 『Visitors are rare, the World Wide Web on the island I like this page, but occasionally you stop by the customers, the Internet search service, thanks.』

 全然ダメじゃん(笑)。ベータ版だとしても、一般公開するレベルの自動翻訳ではありませんね。これでは中国語を訳させても、意味の通る日本語にならなかったのも肯けます。ほんとうにグーグルの翻訳プログラムは、構文というものをまったく解析しないのね。インターネットで調べてみると、「統計翻訳」というのはグーグルの発明ではなく、他でも研究されているもののようです。しかし、このサンプルを見る限り、この方式をいくら洗練させても限界があるんじゃないかという気がします。いや、今回もう一度自動翻訳の話題を取り上げたのは、グーグル翻訳のレベルの低さをあげつらうことが目的ではありません。おそらく「統計翻訳」などという発想が生まれて来た背景には、自然言語における構文解析や意味解析というものが、コンピュータにとっては本当に苦手なのだという事実があるのだと思います。しかし、この難問を避けては、実用に耐える自動翻訳の実現は難しいのではないか。であるならば、とりあえず人間がコンピュータの翻訳をサポートするという方向も併せて考えた方が現実的であるように思います。日本には古来、漢文をレ点や返り点を付けて読み下すという伝統がありました。それと同じような感覚で、日本語の文章をコンピュータに理解しやすく加工するための記号を考案して、これをテキストの中に埋め込むという発想はどうでしょう。日本語でブログを書いている私たちにしてみても、そのひと手間をかけることで自分の文章が読みやすい外国語に翻訳されるのなら、手間のかけがいもあるというものです。

 私は自動翻訳の専門家ではありませんから、以下のアイデアが実用性のあるものか、あるいは似たような発想がすでにあるものなのか、分かりません。よく考え抜かれたものではないジャストアイデアだということをお断りした上で、今回私が考えた記述法のサンプルを示してみたいと思います。日本語の文章の中に(あるいはどんな言語で書かれた文章でも構いません)、「レ点」や「返り点」のようなものを埋め込む訳ですが、ここでは仮にこの記号を“【】”という括弧でくくって表現するものとしましょう。先の翻訳例を見ても分かるとおり、私たちが翻訳プログラムに教えてあげたいことの主要なポイントは、文章の中の単語や文節の〈係り受け〉と、個々の単語の意味の2点だと思います。場合によっては、もしも英語に訳すなら、ここはこの単語を使って欲しいという筆者からの要望もあるかも知れません。

■翻訳支援用の記号一覧

【/言語略号】 言語の指定(日本語なら【/ja】、英語なら【/en】)
【=.テキスト】 類義語(翻訳時の参考としての)
【+.テキスト】 翻訳時に補完したい単語・文節・文章
【/言語略号.テキスト】 言語指定付きの指定訳語
【】 単語や文節の区切り(任意、間違えやすいところに)
【n(】テキスト【)n】 ひとまとまりの翻訳の単位(数式等で使う括弧と同じ)
テキストA【n>】【>n】テキストB 文章や文節の係り受け関係(テキストA→テキストB)

 いくつか使用例を挙げます。コンピュータの翻訳プログラムの気持ちになって読んでみてください。

■翻訳支援記号の使用例

巷間【=.ちまたの =.市井の】哲学者
2チャンネル【+.(日本最大のインターネット掲示板)】
【+.私はあなたを】愛してるよ
【1(】福澤諭吉【)1】【/en.Yukichi Hukuzawa】
竹島【/ko.独島 /en.Liancourt Rocks】
市議会【】議員
太った【1>】丸い眼鏡の【>1】男
【>1】それなんだ、私が言いたかったのは【1>】。

 先ほどのサンプル文章を加工するとしたら、こんな感じでしょうか。

 【/ja】【1(】【2(】訪れる人もまれな【)2】【3>】、【>3】【4(】ワールドワイドウェブ上の孤島【)4】のような【)1】【5>】【>5】【6(】この私のページ【)6】に、それでも【7(】たまに立ち寄ってくれる【)7】【8>】【>8】お客さま【/en.guests】がいるのは、インターネット検索というサービスのおかげ【=.結果】です。

 まあ、人間が見て分かりやすい表記ではありませんね。〈文章の係り受け〉については、主語と述語、形容詞と名詞、動詞と目的語、等のパターンについて記号を分けた方がいいのかも知れません。あるいはそのへんは翻訳プログラムのインテリジェンスに任せるとして、意味の単位をくくる括弧だけにした方が、記号を書き込む側としては手間がかからないので現実的でしょうか。さて、今回のアイデアにはもうひとつセールスポイントがあって、それはこの翻訳補助記号をインターネットのページ記述言語であるHTMLの書式に合わせてしまうというものです。私はHTMLを書いたことが無いので詳しくは知りませんでしたが、「HTML入門」といったページを見ると、プログラム言語にふつう付きもののコメントの書式があることが分かります。具体的に言うと、“<!--”と“-->”という記号の間に書かれたテキストは、プログラマーのコメントとして扱われるのです。これを拝借します。翻訳補助記号として、“<!--tr”と“-->”という書式を採用することにします(trはtranslateの略です)。これをHTMLのテキストの中に埋め込めば、ブラウザでの表示上は何も影響が出ません。これに対応した翻訳ソフトにとってのみ意味を持つので、現行のHTMLと互換性が保証されているところがミソです。(どういう訳かココログのHTMLエディタでは、コメント書式を書き込んでも保存されないようですが…)

 ですから今回の記事で使った“【”と“】”という記号は、“<!--tr”と“-->”とに置き換えられることになります。いちおう考案者の特権として、これを「trタグ」と名付けましょう。前述の文例を正式なtrタグで書き直すと、以下のようになります。

 <!--tr /ja --><!--tr 1( --><!--tr 2( -->訪れる人もまれな<!--tr )2 --><!--tr 3> -->、<!--tr >3 --><!--tr 4( -->ワールドワイドウェブ上の孤島<!--tr )4 -->のような<!--tr )1 --><!--tr 5> --><!--tr >5 --><!--tr 6( -->この私のページ<!--tr )6 -->に、それでも<!--tr 7( -->たまに立ち寄ってくれる<!--tr )7 --><!--tr 8> --><!--tr >8 -->お客さま<!--tr /en.guests -->がいるのは、インターネット検索というサービスのおかげ<!--tr =.結果 -->です。

 え、面倒くさくてやってられないですって? 確かにこうした記号をいちいちキーボードから入力するなんてやってられませんよね。しかし、この書式が標準になれば、当然これに対応した高機能なHTMLエディタが開発される筈ですから心配は要りません。現在でもHTMLをコードで入力する人なんてほとんどいないでしょう。もちろんこれは日本語だけではなく、どんな言語にだって適用出来ますし、これを利用した翻訳技術が進歩すれば、センスのいいtrタグを書き込める人が、これからの時代では翻訳家と呼ばれることになるかも知れません。翻訳ソフトも進化して、優秀な翻訳家とのコラボレーションによって〈名訳〉というものだって生まれて来るに違いない。<!--tr >1 -->どうでしょう、グーグルに先を越されないうちに、日本のベンチャー精神あふれるソフトウェア会社がこれに取り組んでみては<!--tr 1> -->。

|

« 自動翻訳は世界平和に貢献するか? | トップページ | ベーシックインカムについて考える(1) »

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/138790/41756017

この記事へのトラックバック一覧です: 「翻訳支援機能付きHTML」という発想:

« 自動翻訳は世界平和に貢献するか? | トップページ | ベーシックインカムについて考える(1) »