NTTが、「多言語情報アクセス技術」の実験を、ポータルサイト「goo」で開始 ~ 英語・韓国語・中国語のwebページを、日本語で検索し、日本語で読める技術 ~
平成14年3月4日
(お知らせ)
日本電信電話株式会社
株式会社NTT-X
NTTが、「多言語情報アクセス技術」の実験を、
ポータルサイト「goo」で開始
~英語・韓国語・中国語のwebページを、日本語で検索し、日本語で読める技術~
日本電信電話株式会社(以下NTT、本社:東京都千代田区、代表取締役社長:宮津 純一郎)は、ポータルサイト「goo」(*1) を提供する株式会社NTT-X(*2、本社:東京都千代田区、代表取締役社長:池田 茂)と協力し、本日より平成14年7月31日まで、「多言語情報アクセス技術」に関する実験を行います。
インターネットの利用において、日本人は一般的に「言語の壁」に悩まされますが、「多言語情報アクセス技術」は、”英語・韓国語・中国語のwebページを、日本語で検索し、日本語で読む”ことを可能にします。本実験サービスの利用は無料で、「goo」(http://www.goo.ne.jp)にアクセスすればどなたでもご利用が可能です。
インターネットの利用において、日本人は一般的に「言語の壁」に悩まされますが、「多言語情報アクセス技術」は、”英語・韓国語・中国語のwebページを、日本語で検索し、日本語で読む”ことを可能にします。本実験サービスの利用は無料で、「goo」(http://www.goo.ne.jp)にアクセスすればどなたでもご利用が可能です。
1.実験サービスの概要
今回の実験では、「goo」にアクセスすればどなたでも、以下の実験サービスを無料でご利用いただけます。
(1)翻訳検索 実験サービス
(A)英語で書かれたページを、日本語で検索し、日本語で読む。
(B)日本語で書かれたページを、英語で検索し、英語で読む。
(2)webページ翻訳 実験サービス
閲覧したいwebページのURLを入力し、「英語→日本語」「日本語→英語」「韓国語→日本語」「日本語→韓国語」の翻訳パターンを指定することで、ページ全体を訳す実験サービスです。
(3)テキスト翻訳 実験サービス
入力した文章(500文字以内)を翻訳します。「英語→日本語」「日本語→英語」「韓国語→日本語」「日本語→韓国語」の実験サービスがあります。
(A)英語で書かれたページを、日本語で検索し、日本語で読む。
(B)日本語で書かれたページを、英語で検索し、英語で読む。
(2)webページ翻訳 実験サービス
閲覧したいwebページのURLを入力し、「英語→日本語」「日本語→英語」「韓国語→日本語」「日本語→韓国語」の翻訳パターンを指定することで、ページ全体を訳す実験サービスです。
(3)テキスト翻訳 実験サービス
入力した文章(500文字以内)を翻訳します。「英語→日本語」「日本語→英語」「韓国語→日本語」「日本語→韓国語」の実験サービスがあります。
2.実験の背景と目的
今回の実験主体であるNTTサイバーコミュニケーション総合研究所は、グローバルな情報流通へ向けた研究開発を進めてきています。”「言語の壁」を越えた情報アクセスを支援する技術”の研究もその1つですが、今回の実験は、「goo」のように多くのユーザが利用する実サービス環境における技術検証が目的です。
一方、NTT-Xでは、本年5月31日より開催されるW杯サッカーなどを契機に、「海外の情報にアクセスしたい」というユーザニーズが益々増大するものと予測しており、本実験に協力することで、”アジア語圏まで含めた海外のwebサイトを、日本語で検索して、日本語で読みたい”等のユーザニーズに対する本技術の有効性・有用性を評価し、グローバル時代における「goo」のより一層の充実・強化・成長の方向性を探るためのデータを収集します。
一方、NTT-Xでは、本年5月31日より開催されるW杯サッカーなどを契機に、「海外の情報にアクセスしたい」というユーザニーズが益々増大するものと予測しており、本実験に協力することで、”アジア語圏まで含めた海外のwebサイトを、日本語で検索して、日本語で読みたい”等のユーザニーズに対する本技術の有効性・有用性を評価し、グローバル時代における「goo」のより一層の充実・強化・成長の方向性を探るためのデータを収集します。
3.具体的な実験項目
今回の実験では、超高速インターネット・ロボット検索エンジン/検索語句翻訳エンジン/タイトル翻訳エンジン/Webページ翻訳エンジン/テキスト翻訳機能で構成される「多言語情報アクセス技術」の実環境における有効性・有用性の検証を行います。特に、以下の(1)(2)の翻訳エンジンが、既存の各種翻訳サービスと異なりそれぞれの翻訳対象の特徴にあわせた処理を行うことが大きな特徴です。また、新たに「韓国語で書かれたwebページのデータベース」及び「中国語で書かれたwebページのデータベース」をつくる点も特徴です。
(1)検索語句翻訳エンジン
ユーザの検索語句を適切に翻訳します。これまでの商用翻訳検索サービスでは、1つの訳語で検索がなされていますが、NTTとNTT-Xでは「どの訳語を検索に利用するか」が検索の精度及びユーザの満足度に大きく影響すると考えています。
多くの場合、ユーザが検索時に入力する語句は数個の単語から成っており、然も、その1つ1つの単語にはそれぞれ複数の訳語があります。そこで本エンジンでは、ユーザが入力した検索語句を、まず複数の単語に分解し、それぞれの単語に対して複数の訳語の可能性を許しながら、これらの訳語の組み合わせの中から統計的に適切な組合せを求め、他国語での検索要求式を生成します。例えば「自動車工場」という検索語句で英語ページを検索する場合、まず「自動車工場」を「自動車」と「工場」に分割し、訳語候補として各々「car」「vehicle」及び「factory」「plant」を得た上で、これらの組合せの中から最も適切なものとして、((“car” or “vehicle”) and “factory”) という検索要求式を生成します。これは、日本初の試みです。
ユーザの検索語句を適切に翻訳します。これまでの商用翻訳検索サービスでは、1つの訳語で検索がなされていますが、NTTとNTT-Xでは「どの訳語を検索に利用するか」が検索の精度及びユーザの満足度に大きく影響すると考えています。
多くの場合、ユーザが検索時に入力する語句は数個の単語から成っており、然も、その1つ1つの単語にはそれぞれ複数の訳語があります。そこで本エンジンでは、ユーザが入力した検索語句を、まず複数の単語に分解し、それぞれの単語に対して複数の訳語の可能性を許しながら、これらの訳語の組み合わせの中から統計的に適切な組合せを求め、他国語での検索要求式を生成します。例えば「自動車工場」という検索語句で英語ページを検索する場合、まず「自動車工場」を「自動車」と「工場」に分割し、訳語候補として各々「car」「vehicle」及び「factory」「plant」を得た上で、これらの組合せの中から最も適切なものとして、((“car” or “vehicle”) and “factory”) という検索要求式を生成します。これは、日本初の試みです。
(2)タイトル翻訳エンジン
検索結果において表示される各ページの「タイトル」を翻訳するエンジンです。Webページのタイトルは独特の表現パターンを持っており、体言止のような表現(名詞句)となっていることが多いなど、一般の文章とはスタイルが異なっています。このような言語表現の翻訳を適切に行うために、タイトル原文の部分々々に、タイトルの訳語として適した語句を複数当てはめ、更にこれらの組合せの中から統計的に最も適切なものを選ぶことによりタイトルを生成します。これも日本で初めての試みです。
検索結果において表示される各ページの「タイトル」を翻訳するエンジンです。Webページのタイトルは独特の表現パターンを持っており、体言止のような表現(名詞句)となっていることが多いなど、一般の文章とはスタイルが異なっています。このような言語表現の翻訳を適切に行うために、タイトル原文の部分々々に、タイトルの訳語として適した語句を複数当てはめ、更にこれらの組合せの中から統計的に最も適切なものを選ぶことによりタイトルを生成します。これも日本で初めての試みです。
(3)Webページ翻訳エンジン
Webページの本文を翻訳します。実験開始当初は「英日翻訳」「日英翻訳」「韓日翻訳」「日韓翻訳」の各機能を、また、4月中を目処に「中日翻訳」「日中翻訳」機能の実験も開始し、アンケート調査等により各機能の有効性・有用性を評価します。「日英翻訳」では、NTTが研究を行ってきた「ALT-J/E」(*3)と呼ぶシステムを利用しています。これ以外の言語ペアの翻訳については、Amikai株式会社のASP サービスを利用しています。
Webページの本文を翻訳します。実験開始当初は「英日翻訳」「日英翻訳」「韓日翻訳」「日韓翻訳」の各機能を、また、4月中を目処に「中日翻訳」「日中翻訳」機能の実験も開始し、アンケート調査等により各機能の有効性・有用性を評価します。「日英翻訳」では、NTTが研究を行ってきた「ALT-J/E」(*3)と呼ぶシステムを利用しています。これ以外の言語ペアの翻訳については、Amikai株式会社のASP サービスを利用しています。
(4)テキスト翻訳機能
テキストを翻訳する機能です。実験開始当初は「英日翻訳」「日英翻訳」「韓日翻訳」「日韓翻訳」の各機能を、また、4月中を目処に「中日翻訳」「日中翻訳」機能の実験も開始し、アンケート調査等により各機能の有効性・有用性を評価します。ここでも、「日英翻訳」には、NTT研究所の「ALT-J/E」を利用し、それ以外の言語ペアの翻訳についてはAmikai株式会社のASP サービスを利用します。
テキストを翻訳する機能です。実験開始当初は「英日翻訳」「日英翻訳」「韓日翻訳」「日韓翻訳」の各機能を、また、4月中を目処に「中日翻訳」「日中翻訳」機能の実験も開始し、アンケート調査等により各機能の有効性・有用性を評価します。ここでも、「日英翻訳」には、NTT研究所の「ALT-J/E」を利用し、それ以外の言語ペアの翻訳についてはAmikai株式会社のASP サービスを利用します。
4.実験サービスを利用する方法
(1)goo のトップページ(http://www.goo.ne.jp/)におけるナビゲーション・メニューの1つとして、NTTサイバーコミュニケーション総合研究所が運営する実験サイトへのリンクを導入します(図1)。
(2)gooの検索結果ページにおける「サーチの切り替え」項目として、「実験サイトへの引継ぎボタン」を導入します(図2)。例えば、「自動車工場」という検索語句に対する検索結果が表示されているとき、翻訳検索のリンクをクリックすると、「自動車工場」を他国語へ翻訳してから検索を行います。
(2)gooの検索結果ページにおける「サーチの切り替え」項目として、「実験サイトへの引継ぎボタン」を導入します(図2)。例えば、「自動車工場」という検索語句に対する検索結果が表示されているとき、翻訳検索のリンクをクリックすると、「自動車工場」を他国語へ翻訳してから検索を行います。
5.今後の予定
両社は、本実験サービスについて、1日あたりのべ50万回の利用数を見込んでいます。約5ヶ月間の実験期間終了後は、本実験で得られたデータを基に、すみやかに将来のビジネス化に向けた検討を進めていく予定です。
以上
【本件に関するお問合せ先】
日本電信電話株式会社
サイバーコミュニケーション総合研究所 企画部広報担当 坂本正隆
Tel:0468-59-2032、E-mail:ckoho@tamail.rdc.ntt.co.jp
日本電信電話株式会社
サイバーコミュニケーション総合研究所 企画部広報担当 坂本正隆
Tel:0468-59-2032、E-mail:ckoho@tamail.rdc.ntt.co.jp
NTT-X 広報室
E-mail:info@nttx.co.jp
E-mail:info@nttx.co.jp
《 イメージ図 》
図1:gooのトップページに実験サイトへのリンクを導入
図2:gooの検索結果ページに、「実験サイトへの引継ぎボタン」を導入
図3:翻訳検索 実験サービスの利用イメージ(「オリンピック」で検索した場合の検索結果画面)
《 補足 》
(*1)【 goo 】http://www.goo.ne.jp/
1,500万人を超えるユニークユーザ(注)を有する国産最大のポータルサイト。120万件(国内最多)のWebサイトをナビゲートする世界初の「ハイブリッド型検索エンジン」を核に、辞典や路線検索などの「便利ツール」、豊富な「コンテンツ」、約250万会員を有する「コミュニティ」、「ショッピング」モール、「リサーチ」サービス等をラインナップに揃えています。また、環境専門の「環境goo」、地域情報の「まちgoo」、こども向けの「キッズgoo」、ビジネス情報の「日経goo」等、専門サイトも次々にスタートさせており、平成13年11月20日に「gooブロードバンド」をスタートさせました。
(注)日本リサーチセンターのWWW視聴率調査レポート(JAR 2001Report:調査期間 2001/1/1~2001/12/30)による視聴率52.0%(NAR:4週間に1度以上の訪問者の比率)をもとに、日本のインターネットユーザーを約3,043万人(日本リサーチセンター調べ)として算出
1,500万人を超えるユニークユーザ(注)を有する国産最大のポータルサイト。120万件(国内最多)のWebサイトをナビゲートする世界初の「ハイブリッド型検索エンジン」を核に、辞典や路線検索などの「便利ツール」、豊富な「コンテンツ」、約250万会員を有する「コミュニティ」、「ショッピング」モール、「リサーチ」サービス等をラインナップに揃えています。また、環境専門の「環境goo」、地域情報の「まちgoo」、こども向けの「キッズgoo」、ビジネス情報の「日経goo」等、専門サイトも次々にスタートさせており、平成13年11月20日に「gooブロードバンド」をスタートさせました。
(注)日本リサーチセンターのWWW視聴率調査レポート(JAR 2001Report:調査期間 2001/1/1~2001/12/30)による視聴率52.0%(NAR:4週間に1度以上の訪問者の比率)をもとに、日本のインターネットユーザーを約3,043万人(日本リサーチセンター調べ)として算出
(*2)【 NTT-X 】http://www.nttx.co.jp/
NTT再編に先立つ1999年4月、NTTのマルチメディア推進本部および研究所から201名(平均年齢29.5歳)が集結し、NTTグループにおけるIT戦略会社としてスタート。国内ネット人口の半数以上が利用するポータルサイト「goo」(http://www.goo.ne.jp/)や、国内最大の本格的Eラーニングブランドとして定着しつつある「E-cube」(http://e-cube.ne.jp/)、日本のITカルチャを牽引するWebマガジン「HOTWIRED JAPAN」 (http://www.hotwired.co.jp/) 、国内でベスト10に入る売上高を誇るオンラインPCストア「NTT-X Store」(http://store.nttx.co.jp/)等、数々のネットビジネスをみずから営みつつ、それらで培った技術、ノウハウ、経験をもとに、多くの企業・団体にITコンサルティング、ソリューションを提供しています。
NTT再編に先立つ1999年4月、NTTのマルチメディア推進本部および研究所から201名(平均年齢29.5歳)が集結し、NTTグループにおけるIT戦略会社としてスタート。国内ネット人口の半数以上が利用するポータルサイト「goo」(http://www.goo.ne.jp/)や、国内最大の本格的Eラーニングブランドとして定着しつつある「E-cube」(http://e-cube.ne.jp/)、日本のITカルチャを牽引するWebマガジン「HOTWIRED JAPAN」 (http://www.hotwired.co.jp/) 、国内でベスト10に入る売上高を誇るオンラインPCストア「NTT-X Store」(http://store.nttx.co.jp/)等、数々のネットビジネスをみずから営みつつ、それらで培った技術、ノウハウ、経験をもとに、多くの企業・団体にITコンサルティング、ソリューションを提供しています。
(*3)【日英翻訳システム「ALT-J/E」 】
NTT研究所において研究開発を進めてきた意味解析型の日英機械翻訳システムです。本システムは、日本語の意味を網羅的に体系化した計算機用辞書を備えています。この辞書では「意味属性」によって約40万語の単語を細かく分類しています。また、動詞や形容詞の使われ方を日本語と英語の間で対応付けて約16,000の構文パターンを作成しています。これらの言語知識は、「日本語語彙大系」として出版されています (http://www.ntt.co.jp/news/news99/9909/990924.html)。ALT-J/E の特徴は、このような大規模な意味辞書に基づく翻訳を行うことですが、今回の実験においては、Webページの翻訳に適用するために、Webページの多様な表現スタイルに対応する機能を実現しています。
NTT研究所において研究開発を進めてきた意味解析型の日英機械翻訳システムです。本システムは、日本語の意味を網羅的に体系化した計算機用辞書を備えています。この辞書では「意味属性」によって約40万語の単語を細かく分類しています。また、動詞や形容詞の使われ方を日本語と英語の間で対応付けて約16,000の構文パターンを作成しています。これらの言語知識は、「日本語語彙大系」として出版されています (http://www.ntt.co.jp/news/news99/9909/990924.html)。ALT-J/E の特徴は、このような大規模な意味辞書に基づく翻訳を行うことですが、今回の実験においては、Webページの翻訳に適用するために、Webページの多様な表現スタイルに対応する機能を実現しています。