Sitemap XML パーサーおよびURL抽出ツール
ガイド
Sitemap XML パーサーおよびURL抽出ツール
ペーストする任意の sitemap.xml またはサイトマップインデックスファイルを貼り付けて、すべてのURLとその lastmod, changefreqと、 priority。パーサーはブラウザのネイティブDOMParserを使用して、ページに完全に留まっています。最近の更新をフィルタリングし、任意の列で並び替え、Markdown、CSV、JSON、またはシンプルなURLリストにエクスポートし、検索エンジンに送る前に無効な優先度や不正な日付を検出します。
使用方法
- サイトマップのコンテンツを入力ボックスに貼り付け、またはアップロードしてください。
.xmlファイル。 - ツールはルート要素が
<urlset>または<sitemapindex>であるかどうかを検出します。 - 出力フォーマットを選択してください — SEOドキュメント用のMarkdownテーブル、スプレッドシート用のCSV、スクリプト用のJSON、または簡単なURLリスト。
- lastmodフィルタを使用して、7日/30日/90日/365日前に更新されたページを見つけるか、lastmodが欠落している項目を表面化できます。
lastmod完全に。 - URL、lastmod、優先度、またはchangefreqで並び替え、パターンや異常値を特定できます。
- バリデーションサマリーを確認し、次をクリックしてください。 コピー または ダウンロード 結果を保存する
機能
- サイトマップタイプを自動検出 — どちらのサイトマップも処理します
<urlset>サイトマップ<sitemapindex>ネストされたインデックス - 完全なメタデータ抽出 — すべての項目に対して
loc,lastmod,changefreqと、priorityを取得します。 - 複数の出力形式 — Markdownテーブル、CSV、JSON、またはシンプルなURLリストが即座に生成されます。
- 日付フィルタリング — 結果を7日、30日、90日、または365日前に更新された項目に制限、またはlastmodが欠落している項目を分離します。
lastmod. - スマート並び替え — URL、lastmod(新しい順または古い順)、優先度、またはchangefreqで並び替えます。
- 組み込みバリデーション — 不正なURL、W3C Datetime形式の不正、不明な
changefreq値、範囲外の優先度、およびsitemaps.org規格で50,000件を超える項目を警告します。 - クライアントサイドのみ — ブラウザのネイティブDOMParserを使用しており、あなたのサイトマップはページに完全に留まっています。
- ワンクリックで例を表示 — サンプルを読み込んで、ツールの動作を確認してください。
urlsetまたはsitemapindexツールの動作を確認してください。
よくある質問
-
サイトマップとサイトマップインデックスの違いは?
通常のサイトマップ(ルート要素
<urlset>)は、検索エンジンがスクレイピングするべき個々のページURLをリストアップします。サイトマップインデックス(ルート要素<sitemapindex>)はページを直接リストアップしません — 他のサイトマップファイルへのポインタをリストアップします。サイトが50,000個以上のURLをもつ場合、またはサイトマップがセクション(投稿、ページ、商品など)に分割されている場合、サイトマップ.org規格が1つのサイトマップに50,000個のURLと50MBの圧縮サイズを制限しているため、インデックスが使用されます。 -
lastmodフィールドはどのようなフォーマットを必要としますか?
サイトマップ.orgプロトコルは
lastmodをW3C Datetime形式(ISO 8601のプロファイル)として使用する必要があります。最も短い有効な形式は、例えば2025-11-04のような日付です。時間とタイムゾーンオフセットを含めることもできます、例えば2025-11-04T15:30:00+00:00または2025-11-04T15:30:00Z。その他のフォーマット、例えば11/04/2025またはNov 4, 2025は適合せず、スクレイパーによって無視される可能性があります。 -
changefreqとpriorityの有効な値は?
の
changefreq要素は次の文字列のいずれかを受け入れます:always,hourly,daily,weekly,monthly,yearly、 またはnever。のpriority要素は0.0から1.0までの小数で、あなたのサイト内の相対的な重要性を示します。省略された場合のデフォルト値は0.5です。Googleは公開している通り、この2つのフィールドはランキングやスクレイピングスケジュールにほとんど無視していますが、それらは規格に含まれており、他のスクレイパーや内部SEOアудィットに有用なシグナルとして残っています。 -
検索エンジンはpriorityとchangefreqの値を使用しますか?
Googleは、ランキングおよびスクレイピングスケジュールにおいて
priorityとchangefreqを無視しています。Bingおよび他の検索エンジンはそれらをヒントとして扱うにとどまります。しかし、lastmod要素はコンテンツの新鮮さを示すシグナルとして広く使用されており、正確に設定されており、すべてのURLに対して今日の日付を設定していないことが重要です。多くのSEOアудィットプロセスは、これらの値が検索行動に直接影響しない場合でも、サイトのサイトマップ生成ロジックを内部で確認するためにpriorityとchangefreqをチェックしています。 -
なぜ私のXMLがパースされないのですか?
ほとんどのパースエラーは以下の原因から来ます:URL内の未エスケープされたアンド(&)、UTF-8のバイト順マークまたは
&宣言の前、タグの不一致または閉じられていないタグ、またはエンコーディング宣言が実際のファイルエンコーディングと一致していない場合です。このツールが使用するDOMParserはブラウザと同じルールを遵守しており、ここでのパース失敗は厳密なスクレイパーでも同じように失敗します。問題のあるブロックをXMLバリデーターに貼り付け、ファイルを半分ずつトリムすることで、エラーを迅速に特定できます。<?xml ?>宣言、タグの不一致または閉じタグの欠如、またはエンコーディング宣言が実際のファイルエンコーディングと一致しない場合があります。このツールが使用するDOMParserはブラウザと同じルールを従いますので、ここでのXMLのバリデーションに失敗する場合、厳密なキャッチャーでも同じように失敗します。問題のあるブロックをXMLバリデーターに貼り付け、ファイルを半分ずつ切り取りることで、エラーを特定できます。
恵 スコアボードが到着しました!
スコアボード ゲームを追跡する楽しい方法です。すべてのデータはブラウザに保存されます。さらに多くの機能がまもなく登場します!
