不喜欢广告? 无广告 今天

站点地图 XML 解析器及 URL 提取器

数据开发人员
广告 移除?

选项

将站点地图粘贴到上方以提取 URL 和元数据。

广告 移除?

指导

站点地图 XML 解析器 & URL 提取器

站点地图 XML 解析器及 URL 提取器

粘贴任何 sitemap.xml 或站点地图索引文件,并立即提取每个 URL 及其 lastmod, changefreq,并且 priority。解析器完全在您的浏览器中运行,使用原生 DOMParser,因此没有任何内容离开页面。按最近更新时间过滤,按任意列排序,导出为 Markdown、CSV、JSON 或纯 URL 列表,并在提交给搜索引擎前发现无效优先级或格式错误的日期。

如何使用

  1. 将站点地图的内容粘贴到输入框中,或上传一个 .xml 文件。
  2. 工具检测根元素是否为 <urlset><sitemapindex> 并解析每个条目。
  3. 选择输出格式——SEO 文档使用 Markdown 表格,电子表格使用 CSV,脚本使用 JSON,快速爬取使用纯 URL 列表。
  4. 使用 lastmod 过滤器查找在最近 7/30/90/365 天内更新的页面,或发现缺少 lastmod 的条目。
  5. 按 URL、lastmod、优先级或 changefreq 排序,以发现模式或异常值。
  6. 查看验证摘要,然后点击 复制下载 保存结果。

特征

  • 自动检测站点地图类型 – 支持 <urlset> 站点地图和 <sitemapindex> 嵌套索引。
  • 完整元数据提取 – 提取每个条目的 loc, lastmod, changefreq,并且 priority
  • 多种输出格式 – 生成 Markdown 表格、CSV、JSON 或纯 URL 列表,全部在浏览器中实时生成。
  • 日期过滤 – 限制结果为在最近 7、30、90 或 365 天内更新的条目,或隔离缺少 lastmod.
  • 的条目。 智能排序
  • – 按 URL、lastmod(最新或最旧优先)、优先级或 changefreq 排序。 内置验证 changefreq – 标记格式错误的 URL、不符合 W3C 日期格式的日期、未知
  • 仅客户端 值、超出范围的优先级,以及超出 sitemaps.org 规范 50,000 条限制的条目。
  • 一键示例 – 使用浏览器原生 DOMParser;您的站点地图永远不会离开页面。 urlsetsitemapindex – 加载一个示例

常问问题

  1. 站点地图和站点地图索引有什么区别?

    一个常规站点地图(根元素 <urlset>)列出您希望搜索引擎爬取的各个页面 URL。一个站点地图索引(根元素 <sitemapindex>)不会直接列出页面,而是列出指向其他站点地图文件的指针。当站点拥有超过 50,000 个 URL 或站点地图按部分(如文章、页面、产品等)划分时,会使用索引,因为 sitemaps.org 规范限制单个站点地图最多 50,000 个 URL 和 50 MB 未压缩大小。

  2. lastmod 字段需要什么格式?

    sitemaps.org 协议要求使用 W3C 日期格式,这是 ISO 8601 的一个子集。最短的有效形式是像 lastmod 这样的日期;您也可以包含时间和时区偏移,例如 2025-11-04。其他格式如 2025-11-04T15:30:00+00:002025-11-04T15:30:00Z不符合规范,可能会被爬虫忽略。 11/04/2025Nov 4, 2025 changefreq 和 priority 的有效值是什么?

  3. 元素接受以下字面值之一:

    changefreq 元素是介于 0.0 到 1.0 之间的十进制数,表示在您网站内的相对重要性;如果省略,默认值为 0.5。请注意,谷歌已公开表示它在排名和爬取调度中基本忽略这两个字段,但它们仍属于规范,对其他爬虫和内部 SEO 审计可能具有信号作用。 always, hourly, daily, weekly, monthly, yearly, 或者 never。的 priority 搜索引擎是否实际使用优先级和 changefreq 值?

  4. 谷歌已确认它在排名和爬取调度中忽略

    。Bing 和其他搜索引擎仅将其作为提示。然而, prioritychangefreq 元素被广泛用作内容新鲜度的信号,前提是其准确且未为每个 URL 设置今天的日期。许多 SEO 审计流程仍会检查 lastmod 以验证站点自身的站点地图生成逻辑,即使这些值不会直接影响搜索行为。 prioritychangefreq 为什么我的 XML 无法解析,尽管它看起来是正确的?

  5. 大多数解析错误来自几个原因:URL 中未转义的“&”(必须为

    )、UTF-8 字节顺序标记或 &amp;声明前的空白字符、不匹配或未关闭的标签,或编码声明与实际文件编码不匹配。此工具使用的 DOMParser 遵循浏览器的相同规则,因此在此工具中无法验证的 XML 也将在严格爬虫中失败。将有问题的块粘贴到 XML 验证器中并分段修剪文件是最快定位错误的方法。 <?xml ?> 声明、标签不匹配或未闭合、或编码声明与实际文件编码不一致。本工具使用的DOMParser遵循浏览器的相同规则,因此在此处验证失败的任何XML,在严格的爬虫中也会失败。将有问题的部分粘贴到XML验证器中,并将文件逐半裁剪,是最快定位错误的方法。

想要享受无广告的体验吗? 立即无广告

安装我们的扩展

将 IO 工具添加到您最喜欢的浏览器,以便即时访问和更快地搜索

添加 Chrome 扩展程序 添加 边缘延伸 添加 Firefox 扩展 添加 Opera 扩展

记分板已到达!

记分板 是一种有趣的跟踪您游戏的方式,所有数据都存储在您的浏览器中。更多功能即将推出!

广告 移除?
广告 移除?
广告 移除?

新闻角 包含技术亮点

参与其中

帮助我们继续提供有价值的免费工具

给我买杯咖啡
广告 移除?