NTT-X、新しい検索エンジンを開発 ~今夏を目途に「goo」に実装、世界初の「ロボット型ディレクトリ」提供へ ~

平成13年4月2日

お知らせ

株式会社エヌ・ティ・ティ エックス

NTT-X、新しい検索エンジンを開発
~ 今夏を目途に「goo」に実装、世界初の「ロボット型ディレクトリ」提供へ ~

 NTT-X(本社:東京都千代田区、代表取締役社長:池田 茂)は、これまで”ディレクトリ型とロボット型”という区分で語られてきたWWWナビゲーションの常識を打ちやぶる新しい検索エンジンを開発し、実用化のメドをつけました。
 新エンジンは、世界で初めて「ロボット型ディレクトリ」を実現するほか、網羅性・使い勝手・ランキング精度など、あらゆる角度で検索サービスのレベルを向上させることができます。WWWの急膨張、インターネット人口の急拡大(=初心者の急増)、ブロードバンド時代の到来を背景に、今夏を目途に「goo」に実装し、”国内No.1のナビゲーション・サービス”を提供する計画です。
<1. 背景>
 検索サービスは、いわゆる”ポータルサイト”に必須のサービスであり、”ディレクトリ型”と”ロボット型”の2種類に区分されて認識されています。前者は”人手によって収集した「サイト」を、人手によってデータベース化”しており、後者は”ロボットが収集した「ページ」を、機械的にデータベース化”しています。
 地図や台帳のないWWWにおいて、人びとが”欲しい情報にアクセスする”際に不可欠なナビゲーターである両者ですが、現在急増する初心者ユーザーの多くは、”ページ検索(=ロボット型)”は検索ワードによっては検索結果数が膨大になる為かえって探しづらい、という印象をお持ちのようで、”サイト検索(=ディレクトリ型)”を好まれる傾向にあるようです。しかしながら最近では、”ディレクトリ型”の”人手による情報収集~DB化”という仕組みが、新しいwebサイトが登場するペースの急激な増加に対応しきれていないといった問題などが指摘されつつあります。
<2. 新エンジンの概要>
 NTT-Xは、今回の新しい検索エンジンによって、ディレクトリ分野に本格的に進出し、上記の諸問題を解消いたします。具体的には、
 (1) ロボットを使い、大規模にwebページの情報を収集、
 (2) NTT-Xオリジナルの”自動ページ編纂技術”によって、サイトとして括り直した上で、
 (3) 収集した全てのwebページを、NTT-Xオリジナルの”重要キーワード抽出プログラム「indeXer(インデクサ)」”で解析、アンカーテキスト分析(*1)や要旨抽出を行い、
 (4) NTTサイバーソリューション研究所の”自動サイト分類技術”によって、カテゴリに自動分類することで、
網羅性を担保しつつ、初心者ユーザーにもやさしい”サイト検索”を実現します。これは、世界で初めての「ロボット型ディレクトリ」とも呼べるもので、今後のwebサイト数の爆発的な拡大にも確実に対応できるサービスです。
<3.「ロボット型ディレクトリ」の検索精度/使い勝手について>
 webサイトの急増は、現在の”ディレクトリ型”サービスにおける検索結果数をも膨大にしつつあります。すでに初心者ユーザーからは”カテゴリが多くて選択に困る”、または”検索結果も多く、どのサイトを選択すればよいのか分からない”等の声も聞こえるようになってきました。当社は「goo」において、これまでに培ってきた技術を駆使することで、従来のディレクトリ型サービスにはない効率的なナビゲーションを実現することを目指しております。
 ”ページ検索(=ロボット型)”サービスにおいては、検索結果のランキング技術が必須であり、NTT-Xはこれまでも不断の精度向上を図ってきました。現在の「goo」においては、”アンカーテキスト分析”や”リンク解析を用いたランキング方式”(*2) をすでに実装しているため、”国内最大のデータベース”(*3) 及び”定評ある日本語処理技術(*4)の速度・精度向上”と相まって、他の追随を許さない(*5)高精度検索サービスを実現しています。
 新エンジンでは、これまでの技術の応用に加え、ユーザーの皆さまの情報ニーズを分析することにより、ディレクトリ構造自体を動的に生成いたします。具体的には、
 (5) カテゴリ自体を、ユーザーの皆さまの利用動向分析により自動生成し、
 (6) ユーザーニーズ(実績)順にカテゴリ配列し、
 (7) 適合ランキング順に、検索結果(webサイト情報)を表示することで、
ユーザーの皆さまのニーズを反映したディレクトリを実現し、効率的なWWWナビゲーションを実現いたします。世界でも、同様の”ディレクトリ生成の自動化”に成功している例はなく、国産技術で本方式を実現することにより、世界的にも注目を集めるものと考えております。
<4. 今後の予定>
 すでに国内No.1である検索エンジンの精度向上を不断に続けるとともに、夏までに、新エンジンを「goo」に実装し、「ロボット型ディレクトリ」を提供開始する予定です。また、この「ロボット型ディレクトリ」と「高精度ページ検索」を統合した”さらに使いやすいAI的検索テクノロジー/サービス”の検討もすでに開始しております。ご期待ください。
以上
【 NTT-X 】http://www.nttx.co.jp/
 NTT再編に先立つ1999年4月、NTTのマルチメディア推進本部および研究所から、スペシャリスト201名(平均年齢29.5歳)が集結し、NTTグループにおける「ネットビジネスのエキスパートカンパニー」としてスタート。検索サイト「goo」(http://www.goo.ne.jp/ )やWebマガジン「HotWired Japan」 (http://www.hotwired.co.jp/ ) 、国内最大級の本格的フルEラーニング「E3-leaning(イーキューブ・ラーニング)」(http://e-cube.ne.jp/ )、オンラインPCストア「NTT-X Store」(http://store.nttx.co.jp/ )等、数々のネットビジネスをみずから営む一方、それらで培った技術/ノウハウ/経験をもとに、多くの企業・団体にSIPS(Strategic Internet Professional Service)を提供しています。
【 goo 】http://www.goo.ne.jp/
 1ヶ月あたり約1,200万人以上のユニーク・ユーザー数※と、1,500万ページビュー/日という国内有数のアクセス数を誇る検索サイトです。日本語サイト4,200万URL+海外サイト5億URLを対象とする日本最大規模のウェブ検索サービスと、その他の豊富な検索サービス・便利ツールのほか、ニュースからエンターテイメントまでの幅広いジャンルにわたるコンテンツ、会員数約180万を有するフリーメールをはじめとするコミュニティ、ショッピング、日経goo、リサーチなどをサービス・ラインナップに揃えています。
※(株)日本リサーチセンターのインターネット視聴率調査レポート(JAR Report vol. 27:調査期間 2001/1/29~2001/2/25)による視聴率51.0%(NAR:4週間に1度以上の訪問者の比率)をもとに、日本のインターネットユーザーを約2,600万人として算出。
(*1)【 アンカーテキスト分析 】
 ハイパーリンクされている、元のページの情報を、当該ページの情報として扱う技術。
(*2)【 リンク解析を用いたランキング方式 】
 従来は、被リンク数により当該ページの人気度を測ることが一般的であったが、あらたに”多くの価値あるページからリンクされているページは、価値のあるページである”という再帰的定義により、WWWを有向グラフとしてモデル化、ハイバーリンクの参照関係から、多くの人に価値を認められている有用なページを見つけ出し、ランキングに反映する手法。
(*3)【 国内最大のデータベース 】
 gooのデータベースでは、4,200万の日本語ページと5億を超える海外ページの情報を保有しています。
(*4)【 定評ある日本語処理技術 】
 例えば、「東」という言葉で検索した際に「東京」を検索結果に含めることは、不要な検索結果と言え、精度を求める検索サービスでは好ましいことではありません。こういった処理は、英語と異なり、言葉が空白で区切られていない日本語特有の処理であり、形態素分析と呼ばれています。NTT-Xはかねてより、NTT研究所の基礎技術研究成果を具現化し、”日本語ユーザーのための、日本語にもっとも精通した、日本産ロボット型検索エンジン」を開発・練磨し続けています。
(*5)【 他の追随を許さない高精度 】
 検索結果精度についての当社の試験においては、excite、infoseek、lycos、google等の検索エンジンと比較しても、gooは圧倒的に高い精度をもつことを確認しております。
本件に関する報道機関からのお問合せ先
NTTレゾナント株式会社 広報担当:pr@nttr.co.jp