趣味を楽しむDIYな暮らし

手作りのくふうを活かした日常生活ブログ

サイトマップ送信からインデックス登録までを時系列でみる

こんにちは

 

この記事では、サイトマップ送信からどの様な処理後にインデックス 登録されていくのかを時系列で見て行く内容です。

 

もくじ

スポンサーリンク

 

 

 

 選定理由

 

GoogleサーチコンソールにサイトURLの登録はしてあるが、個別に作成した記事のURLがインデックス登録されるまでの過程で、どの様な処理がされているのか?途中経過の状況把握など、事実をしっかり確認したうえで、解決策を見つけるためにこのテーマを取り上げました。

 

現状の把握

 

昨日4月30日に最新情報としてGoogleサーチコンソールにサイトマップを送信したところ、『サイトマップインデックスは正常に処理されました』と表示されているので、送信したサイトマップのURLは全てGoogleに登録されたと思っていました。

 

ところが、インデックスカバレッジ表示内容を見てみると有効が2でその他49が除外になっていました。

 

除外の内訳

 

検出インデックス未登録が47

クロール済・インデックス未登録が2

 

検出インデックス未登録とは?

 

詳細を確認してみると、ページはGoogleにより検出されましたが、まだクロールされていません。

 

これは通常、GoogleがURLをクロールしようとして、サイトが過負荷だったためにクロールの再スケジュールが必要となった場合です。

 

そのため、レポート上で最終クロール日が空欄になっています。

 

送信したURLは検出しているがまだクロールされていない状況である可能性が高いことが解りました。

 

この詳細説明をみる限り、クロールされるのを待てばいいのか?と安易に思ってしまいます。

 

問題点の調査

 

検出インデックス未登録になっている47件のURL検査実施

 

サイト表示するものが22件

 

サイト表示しないもの25件

 

22件がGoogleにURLが登録されています。

 

22件中インデックス登録をリクエスト6件

 

この時点で、サイトマップは古いものがそのまま読み込まれいる事が判明

 

一旦サイトマップを削除しても新しいサイトマップを送信した段階でまた古いサイトマップを読み込んで来る。

 

これは、どんな条件で読み込まれているのかが不明?

 

記事の動作確認

 

5月1日現在登録してある記事のURLが全て表示出来るかを確認

 

51件の記事全て問題無く表示出来た。

 

調査結果の整理 

 

これまでの調査で、5月1日現在の状況を整理

 

➀公開登録してあるページのURLで検索すれば全てのページは正常に開く

 

➁サイトマップは4月30日に送信したものだが、実際にサイトマップで認識しているのは3月26日の古いマップで更新や削除したURLが半数以上含まれていた。

 

➂サイトマップの再登録後にも検出インデックス未登録の数に変化なし

 

➃クロール統計情報によれば、1日当たりにクロールされたページ数は平均で26ページ。

 

クロールが毎日されているなら直ぐにサイトマップが更新されそうに思うのですが?多分そんなに簡単なものではないのかも知れません。

 

※クロール統計情報のグラフが昨日から少し変化してきているので、このまま暫く様子をみることにします。

 

今後確認すべきこと

 

クロール巡回待ちのために、検出インデックス未登録(ステータス除外)になっていたのか?

 

何が原因で検出インデックス未登録になっているたのかを突き止める。

 

状況が変われば更新したいと思います。

 

 

昨日から約24時間が経過

 

 

Googleサーチコンソールのカバレッジ記載内容を確認しました。

 

有効3・除外2となっていました。

 

有効内容3の内訳

 

➀サイトのホーム画面が表示されるURLです。

 

➁・③の記事はホーム画面の中で確認出来る記事のURLです。

 

※ホーム画面には、サイト内の全記事が表示出来るようにリンクが貼ってあるために、このホーム画面のURLが有効になっているという事は、サイト内の全記事が有効であると勝手に判断しています。(違うかも知れません?)

 

➁除外2

 

クロール済インデックス未登録

 

・1件はURL登録はされていたので、インデックスのリクエスト後、インデックス完了

・もう1件はプロフィールのURLなので、文字数が少なくて除外でしょう?

 

残りの46件は?と思いましたが、サイトマップ内容を確認してみると51件登録されています。

 

カバレッジの部分をクリックしても表示されないので46件の内訳は今後表示されるのかも知れません。

 

尚、サイトマップのデーターを確認してみると、今朝送信したサイトマップ5/2からの新しい内容に切り替わっていました。

 

サイトマップ送信→検出インデックス未登録から→クロール済インデックス未登録へは時系列で変化していくようです。

 

以上、報告書のような結果になりましたが、事実を元にしたサイトマップからインデックスまでの状況を記録してみました。

 

もうひとつの疑問について

 

 昨日書いた記事にもありましたが

 

サイトマップインデックス は正常に処理されました』についてもう少し調べてみました。

 

ここで書かれている正常に処理とは?

 

どんな処理状況を示しているのか?

 

よくよく調べてみると……こうゆうことみたいです。 

 

サイトマップが読み込まれ、エラーなしで正常に処理されました。

 

すべてのURLがクロールのキュー(データーの先入れ先出し)に追加されます。

 

早く仕入れた商品の順に処理(販売)するような仕組み

 

つまり、これにより古いデーターが押し出され新データーに切り替わるということでしょうか?

 

Webの世界でも『先入れ先出し』という生産現場用語が出て来ることを始めて知りました。

 

ここから先は、初心者が自分用にメモしたものなので、見解の違い等がありましたらお許し下さい。

 

Google検索の基本

 

クローリング

 

➀ウエブにどの様な記事が存在するかを把握する。

 

・新しいページを絶えず検出し、既知のページのリストに加える必要がある。

 

このプロセスをクローリングと呼びます。

 

・Googleが既にクロールしているページは既知のページ

 

➁既知のページから新しいページのリンクをたどり他のページが検出

 

・Googleによるクロールを希望するページのリスト(サイトマップ)を提出することで検出されることもあります。

 

クローラビリティの改善

 

・既に検出している別のページに新しいページをリンクさせます。

記事内のリンクでもいいとおもいます。

 

インデックス登録について

 

・Googleがコンテンツをインデックス登録するかどうかは、システムのアルゴリズムによって決定される。(問題を解くための手段・計算方法 )

 

・ページのURLを利用してコンテンツを検出するためURLが無いとシステムはクロールもインデックスも出来ません。検索結果にも表示されません。

 

コンテンツを早く見つけてもらうために

 

 ・URLを管理する

 

サイトマップと呼ばれるURLリストを作成してGoogleのシステムに提供

 

新しいURLや、既存のURLのコンテンツを更新したことをGoogleに伝えることで発見が早くなります。

 

 まだまだ勉強途中ではありますが、備忘禄として残しておこうと思います。