站点地图 XML 解析器及 URL 提取器
指导
站点地图 XML 解析器及 URL 提取器
粘贴任何 sitemap.xml 或站点地图索引文件,并立即提取每个 URL 及其 lastmod, changefreq,并且 priority。解析器完全在您的浏览器中运行,使用原生 DOMParser,因此没有任何内容离开页面。按最近更新时间过滤,按任意列排序,导出为 Markdown、CSV、JSON 或纯 URL 列表,并在提交给搜索引擎前发现无效优先级或格式错误的日期。
如何使用
- 将站点地图的内容粘贴到输入框中,或上传一个
.xml文件。 - 工具检测根元素是否为
<urlset>或<sitemapindex>并解析每个条目。 - 选择输出格式——SEO 文档使用 Markdown 表格,电子表格使用 CSV,脚本使用 JSON,快速爬取使用纯 URL 列表。
- 使用 lastmod 过滤器查找在最近 7/30/90/365 天内更新的页面,或发现缺少
lastmod的条目。 - 按 URL、lastmod、优先级或 changefreq 排序,以发现模式或异常值。
- 查看验证摘要,然后点击 复制 或 下载 保存结果。
特征
- 自动检测站点地图类型 – 支持
<urlset>站点地图和<sitemapindex>嵌套索引。 - 完整元数据提取 – 提取每个条目的
loc,lastmod,changefreq,并且priority。 - 多种输出格式 – 生成 Markdown 表格、CSV、JSON 或纯 URL 列表,全部在浏览器中实时生成。
- 日期过滤 – 限制结果为在最近 7、30、90 或 365 天内更新的条目,或隔离缺少
lastmod. - 的条目。 智能排序
- – 按 URL、lastmod(最新或最旧优先)、优先级或 changefreq 排序。 内置验证
changefreq– 标记格式错误的 URL、不符合 W3C 日期格式的日期、未知 - 仅客户端 值、超出范围的优先级,以及超出 sitemaps.org 规范 50,000 条限制的条目。
- 一键示例 – 使用浏览器原生 DOMParser;您的站点地图永远不会离开页面。
urlset或sitemapindex– 加载一个示例
常问问题
-
站点地图和站点地图索引有什么区别?
一个常规站点地图(根元素
<urlset>)列出您希望搜索引擎爬取的各个页面 URL。一个站点地图索引(根元素<sitemapindex>)不会直接列出页面,而是列出指向其他站点地图文件的指针。当站点拥有超过 50,000 个 URL 或站点地图按部分(如文章、页面、产品等)划分时,会使用索引,因为 sitemaps.org 规范限制单个站点地图最多 50,000 个 URL 和 50 MB 未压缩大小。 -
lastmod 字段需要什么格式?
sitemaps.org 协议要求使用 W3C 日期格式,这是 ISO 8601 的一个子集。最短的有效形式是像
lastmod这样的日期;您也可以包含时间和时区偏移,例如2025-11-04。其他格式如2025-11-04T15:30:00+00:00或2025-11-04T15:30:00Z不符合规范,可能会被爬虫忽略。11/04/2025或Nov 4, 2025changefreq 和 priority 的有效值是什么? -
元素接受以下字面值之一:
这
changefreq元素是介于 0.0 到 1.0 之间的十进制数,表示在您网站内的相对重要性;如果省略,默认值为 0.5。请注意,谷歌已公开表示它在排名和爬取调度中基本忽略这两个字段,但它们仍属于规范,对其他爬虫和内部 SEO 审计可能具有信号作用。always,hourly,daily,weekly,monthly,yearly, 或者never。的priority搜索引擎是否实际使用优先级和 changefreq 值? -
谷歌已确认它在排名和爬取调度中忽略
。Bing 和其他搜索引擎仅将其作为提示。然而,
priority且changefreq元素被广泛用作内容新鲜度的信号,前提是其准确且未为每个 URL 设置今天的日期。许多 SEO 审计流程仍会检查lastmod以验证站点自身的站点地图生成逻辑,即使这些值不会直接影响搜索行为。priority且changefreq为什么我的 XML 无法解析,尽管它看起来是正确的? -
大多数解析错误来自几个原因:URL 中未转义的“&”(必须为
)、UTF-8 字节顺序标记或
&声明前的空白字符、不匹配或未关闭的标签,或编码声明与实际文件编码不匹配。此工具使用的 DOMParser 遵循浏览器的相同规则,因此在此工具中无法验证的 XML 也将在严格爬虫中失败。将有问题的块粘贴到 XML 验证器中并分段修剪文件是最快定位错误的方法。<?xml ?>声明、标签不匹配或未闭合、或编码声明与实际文件编码不一致。本工具使用的DOMParser遵循浏览器的相同规则,因此在此处验证失败的任何XML,在严格的爬虫中也会失败。将有问题的部分粘贴到XML验证器中,并将文件逐半裁剪,是最快定位错误的方法。
