ASCII24.com

ニュースの読み方 / あなたの知らない検索エンジンの秘密

【あなたの知らない検索エンジンの秘密】Amazonの書籍データが自由に検索できる日がやってくる?


2002年11月6日

どうなる? インクトゥミの将来

筆者のジェフ・ルート
筆者のジェフ・ルート(Jeff Root)。イージャパン(株)(http://www.ejapaninc.com/)でチーフSEOスペシャリストとして働く。日本には出たり入ったりで早や10年。北米と中央アメリカでも、SEOの仕事の経験を積んできた。

米インクトゥミ(Inktomi)社が、第4会計四半期と通年(2001年10月〜2002年9月)の決算結果を発表した。第4四半期の売上高は2040万ドル(約25億円)。同期の損失は1億3160万ドル(約160億円)だった。これは1株あたり0.87ドル(約106円)の損失ということになるね。2002年通年では、1億1270万ドル(約137億円)の売り上げがあり、損失は5億80万ドル(約610億円)、1株あたり3.51ドル(約427円)だった。でも彼らは、まだ銀行には4540万ドル(約55億2000万円)の現金があると言っている。

インクトゥミのデビッド・ピーターシュミット(David Peterschmidt)CEOは、こんな風にコメントしている。「非常に厳しい環境の中で、全体の売り上げ目標を達成した。次の四半期には、検索エンジン業界に集中的に力を注ぎ、財務を慎重に管理し、ねばり強く顧客を獲得し、新しい製品を開発する。そうした努力によって、株主と市場に価値を与える道筋を作りたい」。

ふぅむ、どうなることやら。何でもいいけど、平和裡に話が進んでほしいものだね。

ところで、日本のgooの検索エンジンは、インクトゥミをベースにしているんだった。

Amazonのサイト
膨大な書籍データベースを擁するAmazonのサイト。このデータベースがグーグルなどの検索エンジンから検索できるようになれば、ウェブの世界はまた大きく変わるだろう

データベースを最適化する

検索エンジンの障害物になっているもののひとつに、データベースがある。最近データベースに収容されたウェブがどんどん増えているということは、検索エンジンのプログラマーたちにとっては今や常識になりつつある。たとえば.aspや.phpで構成されたEコマースのサイト。こうしたデータベースはご存じのように、発せられたリクエストに応じて自動的にレスポンスを生成する。たとえばウェブブラウザーのフォームに何かを入力すると、特定のページが返される、といった具合。
しかしロボットはたいていの場合、フォームを埋めたり、ダイアログにキーワードを入力したりといった、人間がデータベースから情報を取り出す際に行なうような手作業はできない。ロボットがデータベースの中身を参照できるようにコーディングされている場合もあるが、たとえばグーグルのロボットである“グーグルボット”(Googlebot)だとそうしたデータベースでもコンテンツの一部しか見に行かない。グーグルはこんなふうに説明している。

「動的に生成されたページをインデックス化することは可能だ。しかしわれわれのグーグルボットは動的なコンテンツをサポートしたサイトを壊してしまうことが多いため、動的ページのインデックス化には制限をかけている」

ではどうすればいいのだろう? ロボットを引きつけるひとつの方法は、動的なコンテンツを静的なHTMLページに自動的に変換して発行してくれるソフトウェアを利用することだ。それはブリッジのようなイメージだ。あなたのデータベースは片側にあり、グーグルからのアクセスは反対側にある。グーグルのロボットがデータベースに入り込んでデータの一部だけを収集していくかわりに、この種のソフトを使ってコンテンツのすべてのデータを引き出し、グーグルボットが好む場所――つまり静的なHTMLページの中に置いておく。この方法は実は僕が働いているイージャパンが採っている手法で、まあだから僕がこの手法に偏ってしまうのも仕方ないよね。でも僕がこの手法をお勧めするのは、いちばんうまく行くからなんだよ。

 巨大なデータベースとグーグルのロボットの間のギャップを埋めるもうひとつの方法――それはネットを駆けめぐっている噂の域を出ないのだけれど――グーグルと交渉することだ。その噂によれば、グーグルはいま、米国内の200以上の企業と交渉し、彼らのデータベースをグーグルボットで扱えるように話を進めているという。たとえばアマゾン・ドット・コム(Amazon.com)CDNOWイーベイ(eBay)といった企業のデータベースは非常に大きく、そして非常に有意義だ。もしグーグルのこの計画が遂行されれば、Eコマースサイトへの影響は非常に大きいし、今後のEコマースサイトのあり方自体を変えていく可能性もある。そうなればSEO(検索エンジン最適化)もHTMLページを最適化するかわりに、RDDLファイルやRDFファイル、XMLコンテンツ、XSLTテンプレートなんかを最適化できるようになる。もっともそうなってもキーフレーズの選び方自体の重要性は変わらないと思うけどね。

この話は来週、もっと詳しくお伝えできそうだ。お楽しみに。
さて今週のSEO講座は、イージャパンのSEOスペシャリストでちょっとシャイな松下智がお届けする。文字コードの指定方法だ。


正しい文字コード指定をしよう

イージャパンの松下智
イージャパンの松下智

時々、日本語が文字化けしたウェブサイトに出会うことはないだろうか? また、検索エンジンの検索結果の表示画面でタイトルやサマリーが文字化けし、何のサイトからわからなかったという経験はないだろうか? それはたいてい、文字コードの設定に問題がある。現在、日本で主に使われている文字コードには、Shift_JIS, ISO-2022-JP(JIS), EUC-JPの3種類があるが、これ以外にも、x-sjis、UTF-8など、いくつかの文字コードが存在している。

文字コードというものは、もともとヨーロッパ圏の言語で開発されたコンピューターが、日本語などの複雑な文字を読むために作り出された対応表のようなものだ。それが1種類なら話はややこしくなかったが、紆余曲折があり、現在のように数種類の文字コードが混在する結果となった。

「じゃあ自分の使っている文字コードは何?」という人もいるかもしれないが、目安としては、MacintoshやWindowsを使っていればShift_JIS、UNIXを使っている人はEUCだろう。ただし、ホームページ作成用ツールを使っている場合、違う文字コードで保存されている可能性もあるので注意しよう。

さて、自分が記述したHTMLをどんな人にもきちんと見てもらうためには、そのHTMLがどの文字コードで書かれているのかをHTML内に正しく明示しておくことが必要だ。明示しておくことによって、ブラウザーはきちんと日本語を解釈し、表示できるようになる。これを文字コードの宣言と呼び、これはメタタグ内で行なう。記述方法は以下の通り。

<META http-equiv="Content-Type" content="text/html; charset=Shift_JIS">

記述に関しては幾つか気をつけなくてはいけない点がある。

  1. Shift-JIS のようなアンダースコア と ハイフンの間違い(正しくはShift_JIS)
  2. スペルミス
  3. CGI利用等による文字コードの混在
  4. x-sjis, x-euc-jp (Netscapeの拡張)の利用(現在はShift_JISを使うべき)

文字コードを正しく宣言していないと、ブラウザー上に正しく表示されないだけではなく、検索エンジンにも文字化けしたままインデックスされてしまい、正しく検索されない場合がある。

この文字コード宣言を<head>要素のできるだけ上の方に正しく指定しておくことで、検索エンジンの文字コード判定で誤認識の確率が低くなり、文字化けの可能性を減らすことができる。具体的には<title>タグの上になる。下はその例だ。

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
<title>文字化けを防ごう</title>
</head>

ただし、検索エンジンによっては、x-sjisやUTF-8に対応していないエンジンもあるので、ホームページを作成する際に安全な文字コードは、今のところ、Shift_JIS, ISO-2022-JP(JIS), EUC-JPの3種類しかない。このうち、使い慣れた文字コードを利用するのがいいだろう。

また、フレームを利用している場合、フレーム定義ファイルには文字コード宣言をしていない場合も多いが、この場合、タイトルの文字化け等を引き起こしやすいのでフレーム定義ファイルにも文字コード宣言はしておくべきだ。

検索結果の表示順位とは直接的には関係がないけれど、表示画面に影響を与える文字コード。いくら上位に表示されてもクリックにつながらなければ完全な効果とはいえない。見落としがちなタグだが、検索エンジンに正しくインデックスされるためには重要なタグだということを理解しておこう。

(ジェフ・ルート 松下智/翻訳・編集部 佐々木俊尚)




[通常ページに戻る]
ASCII24 http://ascii24.com/
Copyright (C)1997-2008 ASCII Corporation. All rights reserved.