ANYCULのコンサルティングチームです。

今回Mike King氏により、Googleの内部ドキュメント情報が流出したと言う記事が執筆されました。

様々な情報や推測が飛び交っているため、今回の件について気をつけたいことをまとめました。

情報を読む上で、気をつけたいこと

1.Google検索アルゴリズムの漏洩ではない

「Google検索アルゴリズム」の漏洩だという認識で出回っている今回の情報ですが、そうではありません。

今回の内部情報というのは、「Document AI」というGoogleがGCPで提供するサービスの内部ドキュメントであり、Make King氏がこれを「検索アルゴリズムに関連するものだと推測している」ということです。

Document AIとは、検索機能サービスのようなもので「非構造化データである顧客情報や契約書、請求書などのドキュメントデータを対象に、テキストなどの情報を抽出&構造化し、データを利用できるようにする」ものです。企業が社内システムなどで導入するケースが多いようです。

Mike氏がこれらを関連づけている理由は主に以下のようなものです。

  1. 過去のリーク情報との類似点
    過去のグーグルのリークや司法省の反トラスト法に関する元Google社員の証言に近いものであるため。

  2. Googleシステムの一貫性

    Googleは様々なサービスで一貫したデータ評価基準を採用していて、Document AIで使用されるロジックが検索アルゴリズムにも適用される可能性があるため。

実際にこれが検索アルゴリズムと関連していると証明するには「Google検索でも共通するロジックを採用していて、かつこのドキュメント内のAPIをGoogle検索で使用している(APIで呼んでいる)」ことがわからなければなりませんが、これに関する情報は流出していません。

2.ランキングの重み付けに関する情報はない

このデータが実際にGoogle検索に使用されていると仮定した場合でも、それぞれの要素に関するランキングの重み付けに関しては情報が無いため、既出の情報を見て「これが今重要なランキングシグナルなんだ!」と結論づけるのは少し難しいです。

3.APIの全体像はわからない

今回広まっている情報というのは、あくまでMike氏が検索に関連するであろうAPIのモジュールをピックアップして公開しているものなので、APIの全体像がわからず、そもそもどういった機能を持つAPIなのかも定かではありません。

GCPやGoogle社内で利用される共通のAPIの一部がDocument AIでも利用されているという話なのか、Document AIのみで使用されているAPIなのか、この辺りがわからないためこの情報をどう読み解けばいいのかは明確にはならないということです。

4.事実だとしても応用できることはほぼ無い

今回の情報が事実だとしても、良質なSEO会社や一定期間SEOに取り組んでいる事業会社であれば、様々な検証から既に肌感として持っている内容がほとんどかと思います。

弊社でも過去に以下のような記事を出していますが、ユーザー行動などの話も今となっては特別なものでは無いかと思います。

【検証】ユーザー行動はSEOにどう影響するのか?事例や施策への活かし方も解説。

いつの時代もSEOで重要なのは、「アルゴリズムそのもの」ではなく、

  • 「アルゴリズムをどうSEOに活かすか、どれを重要視しどの順序で進めるのか」

    という部分であり、つまりは

  • 「戦略策定とオペレーション構築」
    だと思っています。

Google検索アルゴリズムと関連する場合の見解(一部)

上記で、漏洩情報の解釈が難しいことは説明しました。

ここでは、今回の情報の真偽は別としてMike氏が主張している項目のいくつかについて、SEO文脈で考えた時にどうなのか?という部分を、SEOコンサルタント目線で少し触れておきたいと思います。

1. サイトオーソリティの存在

siteAuthorityという機能(モジュール)について触れられています。

Google検索でこれがドメイン評価なるものを示すのでは無いかという話です。

siteAuthorityがドメイン評価を示すものかどうかはわかりませんが、PagerankというシステムがGoogleの検索を支えている以上、(それが今どう形を変えているにせよ)、サイト単位の評価に当たるスコアがあるというのは言うまでも無いと考えています。

そもそも一般的に検索エンジンを作るとき、「シードサイトを基に信頼できる情報を持つサイトオーナーを見つけていく」というのは基本的な機能としてあるものなので、これを疑う必要はないかもしれません。

2. chromeデータの利用

流出データには、「Site-level Chrome views」と言う記載があり、Chromeでカウントできるページビュー数なるものがランキングに関連しているのではないかと推測されています。

自身の経験上、ブラウザ上の動きというのはもう少し複雑に計測されているはずなので、サイトレベルのページビューがそのままランキングシグナルにはなっていないと思います。が、使い所はあれど利用している可能性はあると考えています。

「サイトレベル」のビュー数という数値について考えると、これは不確実性もある値であるため、単純にランキングシグナルではなく何らかの機械学習における事前学習のための教師データとして利用されている可能性もあると考えています。

ただGoogle検索からの流入も1ビューとして評価に使ってしまうと、「上位サイトの評価が不可逆的に高まる」という非合理な仕様になってしまうため、使っているとしたらGoogle検索からの流入を除いた数値なのだろうと推察はしています。

また、人々がソーシャルシグナルと言っているものの正体がこれかもしれません。いわゆるソーシャルシグナルというものは特定のSNSサービスに依存してしまうことから積極的に採用できないと思いますが、流入元は関係なくビュー数を計測すれば、サイトの人気度を測ることは可能なためです。(SNSといえば、SERPsの旧Twitterスニペットですが、これはSERPs表示用途に使われているものであって、通常のランキングシステムとは別軸でGoogle検索チーム内の担当チームも恐らく異なると思われます)

SNSで非常に多くのフォロワーがいたり、Youtubeで再生数の多い動画を持つブランドがSEOで強くなるのも、相関を超えて因果である可能性は否定できません。

3.著者情報の利用

著者情報については、Googleも過去に特許を取っているため、APIが用意されていても何ら不思議ではありませんし、データとして利用しているかもしれません。

ただ、これをランキングに積極的に使用しているかというとそうではないと考えられます。

弊社のコンサルタントも、一度に大量の著者情報を追加したケースや逆に著者情報を削除したケースに何度も立ち会っていますが、特に順位影響はありません。

4. ドキュメントの切り捨て

ドキュメント(ページのコンテンツ)を一部切り捨てる、というのはあり得る話だと思います。

例えばデータベースサイトにおいて、一覧ページの下部が全く違うが、上部にリスティングされたカセット内コンテンツが重複している場合に、重複判定でインデックスされないことがあります。

ページ内テキストを検索にかけてみても、上部テキストと下部テキストでは表出精度が大きく異なります。

実際に切り捨てを行っているかは別として、ページの上部(最上部ではない)にくるコンテンツの重要度が高まるというのは、自然だと考えています。

5. 短いコンテンツはオリジナリティで採点される

これに関しては、検証環境が無いため、不明です。

ただ、日本でも質問回答系のCGM型サイトが昨年から伸びているのは、この独自性評価とドメイン評価の掛け合わせで評価すれば可能だと思うので、存在するかもしれません。

6. ページタイトルはまだクエリに対して測定されている

当然、そうだと思います。

7. 日付は非常に重要

非常に、という表現が正しいかは別として、日付を正しく認識させ、Googleのキャッシュを修正することで、順位が上がったり戻ったりすることはあるため、重要な場面はあるかと思います。

8. グーグルが小規模サイトを意図的に破壊している可能性

同じような特徴を持っていてもサイトの規模や流入規模によって、異なる動きをするケースはあります。

弊社代表の過去ポスト(X)のように、小規模な専門サイトが生き残るケースもあるため、規模に応じたフラグは存在しているかもしれません。

https://x.com/genki_iii/status/1790325575355445744

ただ、これを意図的にランクを下げるために使っているのかなどの用途は不明です。

やっぱりやることは変わらない

今回の情報がもし真実だと仮定しても、やっぱりSEOでやることは変わらないと思います。

まずランキングの重み付けの情報が出ていない時点で、我々は実際の検証を基にGoogleの挙動を知っていく以外に方法はないというのが実際のところで、この情報だけでできるハックもありません(重みづけがわかっても多分ハックはできません)。

もう少し本質的なところでいうと、

外部評価のシグナルがある、chromeデータの利用がある、が本当だとしても、信頼性の高いサイトにするには事業または企業自体のブランディングが必要という部分は今までと同じですし、これはSEOでどうかという話と別軸で取り組むべきです。

内部でクリックデータを使っている、タイトルが重要、が本当だとしても、もちろんユーザーに選ばれ、満足してもらうコンテンツを作るのがWebサイトの使命であることは今も昔も変わらないと思います。

「ちゃんとユーザーに向き合ってサイト作りをしていく」

SEOはもうこれに尽きるのかなと思っています。