このページの本文へ

NTTとNTT-X、ポータルサイト“goo”上で自然文検索サービス“Web Answers”の共同実験を開始

2004年02月05日 23時18分更新

文● 編集部 佐久間康仁

  • この記事をはてなブックマークに追加
  • 本文印刷
“日本語自然文検索実験 Web Answers(ウェブアンサーズ)”の記者会見

日本電信電話(株)(NTT)と(株)エヌ・ティ・ティ エックス(NTT-X)は5日、都内で記者説明会を開催し、NTT-Xが運営するインターネットポータルサイト“goo”(http://www.goo.ne.jp)上で“日本語自然文検索実験 Web Answers(ウェブアンサーズ)”を本日から3月31日までの予定で行なうと発表した。NTT内のNTTサイバースペース研究所と共同で検索システムの実験・検証を行なっている“gooラボ”での公開実験で、従来のようなキーワードの羅列ではなく平易な文章(自然文)で目的の情報を検索できる。gooから無料で利用可能。gooラボでの実験は、2003年12月に開始され、今年3月末まで行なわれる“総覧型3Dウェブ検索サービス”に続いて2つめ。



Web Answersの検索語(自然文)入力画面
Web Answersの検索語(自然文)入力画面

Web Answersでは、例えば“鉄腕アトムの誕生日はいつですか?”というような、話し言葉/書き言葉で目的の情報とそれを含むウェブサイト(この場合は鉄腕アトムの誕生日=2003年4月7日やそれに関する情報を含むサイト)を候補として表示できる検索サービス。

NTT-Xのgoo編成本部サービス部サービス推進担当部長の国枝 学氏 NTTサイバースペース研究所のメディア処理プロジェクト主任研究員の小原 永氏
NTT-Xのgoo編成本部サービス部サービス推進担当部長の国枝 学氏NTTサイバースペース研究所のメディア処理プロジェクト主任研究員の小原 永氏

会見には、NTTサイバースペース研究所のメディア処理プロジェクト主任研究員(プロジェクトマネージャー)の小原 永(おはらひさし)氏、NTT-Xのgoo編成本部サービス部サービス推進担当部長の国枝 学(くにえだまなぶ)氏らが出席し、共同実験の背景や目的、Web Answersの基本構造などについて説明した。

検索結果の一覧表示
検索結果として、ふさわしい単語を一覧表示したところ。中央の棒グラフが“自信度”。自信度に応じて「だよね?」「じゃないよね?」などの語尾が付加される

国枝氏は、「ウェブサイト検索サービスで情報を探すユーザー広がりに合わせて、これまでのインターフェース(ユーザーが自分でふさわしいキーワードを考えて、一覧表示されたリンク集の中から目的のサイトを探す)よりも使いやすい方法を模索していた。今回NTTの自然言語処理機能を活用することで、ほしい情報を文章で入力することで目的のページを探すことができるため、この技術には大変注目している。一般ユーザーが参加できる実験スペース“gooラボ”を使うことで、技術検証とビジネス性(実用性)の評価が行なえる」と、Web Answersに多くのgoo来訪者が参加することを期待した。

小原氏はWeb Answersの仕組みについて、以下の3つの基礎技術で構成されると説明した。

  • 質問文のタイプ分類
  • 高速固有表現抽出
  • “Webページ再ランキング”

Web Answersでは、文章の意味解析は行なわず、形態素解析によって単語に切り出し、単語の前後関係を見てふさわしい関連語を語彙データベース“日本語語彙体系”から抽出、ウェブページの検索語として“ユーザーの期待に近いと思われるウェブサイト”をランク付けして一覧表示する。

Web Answerのサービス概要 Web Answerの技術ポイント
Web Answerのサービス概要Web Answerの技術ポイント

その際、前述の例文のように“誕生日”“いつ”という単語が続く文章では、ユーザーの質問タイプ(求める情報)が“日付”であると判断し、日付の情報が含まれるウェブサイトがより上位にランク付けされる。今回の実験段階では、質問のタイプ分類として人名/地名/組織名/固有物名/日付/時間/金額/割合の8種類が用意されている。

ウェブサイトのランク付けは、ページ全体ではなく要約抽出した内容に対して検索を行なっている。今回はgooが提携している米グーグル(Google)社の検索エンジンをそのまま利用しているが、要約を抽出できる検索エンジンであれば、ほかの検索エンジンにも応用できるとのこと。

“Webページ再ランキング”機能は、Googleやgooがキーワード検索によって一覧出力する従来のランキングとは別に、質問文中の表現や質問タイプと比較検証してよりふさわしいページを上位に表示するというもの(例えば“アトム”だけより“アトムの誕生日”という言葉が含まれるページが上位になる)。

検索結果は、質問の答え(例で言えばアトムの誕生日としてふさわしいと思われる日付)と、その根拠となったウェブページへのリンクの一覧が表示され、答えの候補が複数見つかった場合には“自信度”というレーティングで“より確からしい”ものから順に表示する。今回の実験では自信度の数値は固定で、ユーザーの選択(投票)によって数値が増減することはないが、今後はユーザーの意見などを取り入れながら、「より正確な情報が提供できるようにレーティングへの反映も考えたい」(小原氏)としている。


なお、今後のスケジュールは、3月半ばから実験の評価を開始し、それを受けて4月中には実用化(gooへの実装)を予定している。

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン