例えば、ECサイトの場合「商品ページ」と「一覧ページ」という具合にジョブを分けて作成します。大規模なサイトであれば更に「商品カテゴリー」のジョブを作成します。
新規記事の多いメディアサイトであれば、RSSフィードを使って新規記事がいつインデックスされたかを追うのがおすすめです。
Webサイトや商材、URL設計によってどのようにジョブを設計すべきかは変わります。
このようなジョブ設計の際は、ページの更新頻度やどこがインデックスさせたい重要なページかを考えることが大切です。また、ジョブごとにクロール頻度を調整することで、効率的なインデックス管理が可能です。
URLのフィルターを利用することで様々な状態に絞り込みをかけられます。ステータスの行をクリックすることでもフィルターがかかります。 これによって、「URLは検出されたがクロールされていないURL群」や「クロールされたが、インデックスされなかったURL群」を見ることができます。
重要なページがクロールされていない/インデックスされていない場合はその要因調査をします。
上記のように分析や比較をして、クロール/インデックスされなかった要因を探っていきます。
<aside> 🖌️ 例: インデックスされていないページだけを抽出して目視確認したところ、コンテンツのボリュームが少ないページ群だった
</aside>
<aside> <img src="/icons/save_red.svg" alt="/icons/save_red.svg" width="40px" /> 詳細をCSVやExcelでエクスポートすることもできます。
</aside>
クロールされたが、インデックスされていない場合、コンテンツの質が低い、類似のコンテンツがある、タグの問題などが考えられます。
大規模サイトで、クロールされていないまたはクロール頻度が低い場合、重要でないページでクロールバジェットが浪費されている可能性もあります。不要なパラメーターをrobots.txtで制御する、サイトマップの最適化による重要ページの優先クロールすることなどが有効です。
URLテーブルの右側にある「URLの履歴」から、URLのステータス履歴を確認できます。