実はそんなに秘密ではない Google の「秘密の計算式」について

2010年7月20日火曜日

※ 先日 Google European Public Policy Blog に、私たちが普段どのようにサイト運営者の皆様とコミュニケーションしているかについて、興味深い記事が掲載されましたので抄訳してご紹介します。文中のリンク先コンテンツは一部英語であることをご了承ください。

Google では、サイト運営者の皆様と誠実にコミュニケーションすることを、できる限り心がけています。しかし、残念ながら時折 Google は、その検索結果に表示されるウェブサイトのランク付け方法とその根拠が分かりづらい、という指摘を受けることがあります。

まず、Google のページ評価に関して常に広く議論されてきたことのひとつに、 PageRank があります。この指標の内容は、実際はそれほど秘密と言えるものではありません。PageRank については、 Google の創設者、Lawrence Page と Sergey Brin の論文 に記されています。また、この論文は、PageRank の算出方法のみならず、アンカーテキスト、ドキュメント中の単語の位置、ドキュメント中に出現する検索キーワード同士の相対距離、フォントの種類とサイズ、各ページの HTML データ、および単語中の大文字など、Google のランク付けで利用されるその他のシグナルについても説明しています。この他にも Google はこれまで 何百本もの研究論文 を発表してきました。これらの論文では Google の「秘密の計算式」について多くのことが公開されており、また、Google が必要とするインフラ ( GFS , Bigtable , Protocol Buffers ) についても言及しています。これらの 論文 の中には オープンソース化され 独立した新企業 へと結実したものもあります。

このような学術論文を通じた情報公開の他にも、Google はさまざまな方法でサイト運営者の方々との交流や啓蒙を推進しています。1999 年、Sergey Brin は第 1 回 Search Engine Strategies ウェブマスター会議に参加しましたし、その後、2001 年には、 WebmasterWorld というサイト運営者フォーラムに、Google は、検索エンジンの会社として初めて参加しました。代表で参加した Google の社員 ( GoogleGuy ) は 2800 回以上投稿し、また別の社員 ( AdWordsAdvisor ) は 5000 回近くの投稿を行っています。

オンラインコミュニケーションのスタイルが進化する中で、透明性の高いコミュニケーションを維持するために、Google の取り組みも変化してきました。

Google は 2004 年 5 月にブログを開始しており、 公式ブログ にはこれまでに数千単位の記事が投稿されています。現在 Google には 70 を超える公式ブログがあります。Google は、おそらくどの大企業よりも多くのブログ記事を投稿しています。その中には、サイト運営者の Google に関する理解を深め、サイトが検索結果において適切にランクされるようサポートすることを目的とする、 ウェブマスター向け公式ブログ もあります。ブログの他にも、ウェブマスター向けに 多数のドキュメント ( ヘルプ記事 ) を公開 しています。これらのドキュメントは、英語、日本語のほかにも数 10 種類の言語で提供されています。

Google のウェブスパムチーム ( Google の ウェブマスターガイドライン に対する違反行為の防止を目的としたチーム ) のリーダーとして、私には Google の仕組みについての質問が日々寄せられます。これに対応するために私は 2005 年から 個人ブログ を開始し、Google についての記事を何百件も書いてきました。内容は サイト運営上起こりがちなミス の解説から、 ブロガー初心者へのアドバイス まで、さまざまです。また、これまで 30 を超えるカンファレンスにおいてサイト運営者の方々と直接話したり、サイトクリニック ( 実在のサイトを題材に、サイト所有者と直接質疑応答するイベント ) を行ったりしてきました。最近では 3 月に開催されたカンファレンス に、10 名を超える Google の同僚たちとともに出席し、いろいろな質問に答えました。サイトクリニックはこれまで、 サンフランシスコ インド 、ロシア、 スペイン など各地で開催されています。

この他にも Google では、さまざまなアプローチを通じて Google のランク付けの仕組みに対するサイト運営者の理解を深めようと努力しています。これまで、 リアルタイム ウェブマスター チャット を行ったり、 Twitter ポッドキャスト を利用したり、さまざまなアプローチを行ってきました。中でも、サイト運営者をサポートする手段として、私が特に気に入っている方法は YouTube の ウェブマスターセントラル チャンネル です。この 1 年間で数百本のビデオ投稿を行い、皆様から送られたさまざまな質問を取り上げてきました。これらのビデオの総再生回数は 150 万回にも達しています ( 2010 年 7 月現在主に英語にての提供 )。

さらに、他の検索エンジンとも協力して、サイト運営者の労力を軽減するための努力も行ってきました。この結果生まれた規格として、検索結果に優先的に表示させたい URL を指定する方法 ( Canonical URL ) や、ウェブマスターがサイトの中身を検索エンジンに知らせやすくするための Sitemap プロトコル などがあります。

キーワード メタ タグ など、Google がランク付けアルゴリズムに使用しないシグナルも公式に発表しています。この情報により、サイト運営者は 不要な作業や無益な訴訟 を回避できます。

また、Google は ウェブマスター ヘルプ フォーラム を提供しており、そこには Google の社員と社外のユーザーたちが集まり、個々のサイトに関する質問に答えています。

現在私たちが問題として認識しているのは、たとえ Google の全社員約 20,000 名が、サイト運営者からの質問に答えるためにフルタイムで活動したとしても、すべてのサイト運営者とは直接対話できないであろうということです。なぜかと言うと、それは、ウェブ上にはいまや 1 億 9,200 万を超えるドメイン名が登録 されているためです。この状況に対応するために、私たちは Google ウェブマスター ツール を開発しました。これはサイト運営者の方々向けのセルフサービス式のツールであり、自分のサイトについて調べたり、Google にデータを送信したりすることができます。このツールは無料で提供されています。このツールのすべてを解説するには、別のブログ記事を用意する必要があるほど多数の機能があるのですが、いくつかを挙げると次のようになります。
  • メタ ディスクリプションの重複やタイトル タグの欠落などの問題がチェックできます。
  • Google の ウェブマスター向けガイドライン に対する違反があり、違反サイトに対する処置が Google のインデックスに加えられてしまったと思われる場合、 再審査のリクエストを送信 できます。
  • サイトがハッキング被害にあった場合、その被害について詳細に調べることができます。ハッキングを受けたコンテンツを削除した後、Googlebot と同じ方法でサイトの各ページをチェックして、悪意のあるコンテンツが完全に除去されているかどうかを確認できます。
  • Google がサイトをクロールする際に遭遇したエラーを確認できます。

ある Google 社員が、自分のウェブホストで発生した使用帯域幅についての問題をこの無料公開ツールを使って分析した様子を、 ブログで報告 しています。同様に、多くのウェブマスターが Google ウェブマスターツールを活用して、サイトの分析と情報収集を効果的に行っています。

以上のように、Google ではオープンな姿勢を可能なかぎり推進しており、ユーザーが Google の各種サービスからデータを持ち出す ための支援さえも行っています。しかしその一方で、どのような企業であれ、多少の企業秘密があってもおかしくないと考えています。Google の場合、スパマー ( ウェブスパムを作る人 ) やクラッカー ( 不正にシステムに侵入する人 ) から検索結果を守る必要があります。もし秘密が完全になくなり、ランク付けを意図的に操作しようとする人々が Google のランク付けの仕組みをひとつひとつ事細かに知ったとしたら、関連性の低いスパム ページ ( ポルノサイトやマルウェアサイト含む ) が Google の検索結果に多く掲載されるようになり、ユーザーを困らせてしまうでしょう。

Google は長年にわたってこのオープンな姿勢を維持する努力を続けています。そして、サイト運営者の方々に対して Google のランク付けについての情報を共有し、サイト運営者、ユーザー双方からの質問に答え続けてきました。「秘密の計算式」を理由に Google を批判することは容易なことかもしれませんが、このような我々の活動をもってしても、そこに「秘密」があると言われるのであれば、その「秘密」は検索の世界で最も多くの人に伝えられてしまった秘密と言えるかもしれません。