XML网站地图:SEO工具箱中最容易被误解的工具

时间:2019-10-10 17:01 作者:寒江SEO博客 热度:
在我多年的SEO咨询工作中,我看到许多客户对XML网站地图抱有误解。XML站点地图是SEO的强大工具,寒江SEO博客解释了如何利用XML网站地图来识别和解决索引问题。

索引化

可能最常见的误解是XML网站地图有助于使您的页面编入索引。我们必须弄清的第一件事是:Google 不会仅仅因为您的要求很好就索引了您的页面。Google为网页建立索引是因为(a)他们找到了它们并对其进行了爬网,并且(b)他们认为它们的质量足以值得索引。将Google指向某个页面并要求他们对其进行索引并没有真正考虑到该页面。

话虽如此,这是需要注意的是通过提交一个XML站点地图,以谷歌搜索控制台,你给谷歌,你考虑在XML网站地图的页面是好的,高质量的搜索登陆页面,值得指数的线索非常重要的。但是,这些页面很重要只是个线索……就像从主菜单链接到页面一样。

一致性

我发现客户最常犯的错误之一是在给Google的有关给定页面的消息传递中缺乏一致性。如果您在robots.txt中屏蔽了一个页面,然后将其包含在XML网站地图中,那么您就是在嘲笑。您的站点地图说:“ Google,这是一个不错的,多汁的页面,您真的应该将其编入索引。” 但是随后,您的robots.txt就将其删除。与元机器人相同:不要在XML网站地图中包含页面,然后将元机器人设置为“ noindex,follow”。

在我讨论它时,让我简要介绍一下元机器人:“ noindex”表示不对页面进行索引。“ Nofollow” 与该页面无关。这意味着“不要遵循该页面出站的链接”,即继续将所有链接的汁液冲洗掉。将元机器人设置为“ noindex,nofollow”可能有一些晦涩的原因,但这超出了我的范围。如果您希望Google 不为页面编制索引,请将元漫游器设置为“ noindex,follow”。

好,怒吼…

因此,通常,您希望站点上的每个页面都可以分为两个部分:

  1. 实用程序页面(对用户有用,但对于您希望成为搜索目标页面的任何内容都无效)
  2. 高质量的搜索目标网页

在桶1的一切要么被robots.txt屏蔽或通过meta标签封锁“NOINDEX”,应不是在一个XML站点地图。

桶2一切都应该不会被阻止robots.txt中,应该不会有meta标签“NOINDEX,”大概应该在一个XML站点地图。

网站整体质量

看来Google正在采取某种措施来衡量网站的整体质量,并使用该网站范围的指标来影响排名-在这里我不是在谈论链接。

从Google的角度考虑这一点。假设您有一个很棒的页面,里面充满了精彩的内容,勾勒了所有框框,从相关性到熊猫,再到社交媒体参与度。如果Google将您的网站视为1000页的内容,而其中只有5–6页是这样的一个好页面……那么,如果Google将用户引导到其中一个好页面,那么当他们单击时,用户体验会是什么样子该页面上的链接并访问您网站上的其他内容?很有可能,它们将进入糟糕的页面。这是糟糕的UX。他们为什么要向这样的网站发送用户?

Google工程师肯定知道每个站点都有一定数量的“实用程序”页面,这些页面对用户有用,但不一定是内容类型的页面,它们应该是搜索的登录页面:用于与他人共享内容,回复评论,登录的页面,找回丢失的密码等。

如果您的XML网站地图包含所有这些页面,那么您要与Google交流什么?或多或少,您不知道什么构成网站上的好内容,什么不构成什么。

这是您要为Google绘制的图片。是的,我们这里有一个包含1,000个页面的网站……而这是我们这两个内容丰富的页面中的475个。您可以忽略其他-它们是实用程序页面。

现在,假设Google抓取了这475个页面,并根据其指标确定其中175个页面为“ A”级,200个页面为“ B +”,100个页面为“ B”或“ B-”。这是一个相当不错的总体平均水平,可能表明该网站可以吸引用户。

与此形成对比的是,该站点通过XML站点地图提交了全部1,000页。现在,Google查看了您说的1000篇内容不错的网页,发现超过50%的页面是“ D”或“ F”页面。总体而言,您的网站很脏。Google可能不想将用户引导到这样的网站。

隐藏的页面

记住,Google将使用您在XML网站地图中提交的内容作为您网站上可能重要内容的线索。但是,有些页面不在您的XML网站地图中,并不一定意味着Google会忽略这些页面。您仍然可以拥有成千上万个页面,这些页面的内容和链接公平性不足,无法对其进行索引,但实际上是如此。

建立网站非常重要:搜索以查看Google正在从您的网站建立索引的所有页面,以发现您遗忘的页面,并清除Google将通过设置meta为您的网站提供的“平均等级”的页面“ noindex,follow”(或在robots.txt中阻止)。通常,仍然构成索引的最弱页面将在站点的最后列出。

Noindex与robots.txt

使用元漫游器和使用robots.txt阻止页面建立索引之间有一个重要但微妙的区别。使用元机器人“ noindex,follow”可以使去往该页面的链接资产流出到其链接到的页面。如果使用robots.txt阻止该页面,则只是将其冲洗掉。

在上面的示例中,我阻止了不是真实页面的页面(它们正在跟踪脚本),因此我不会失去链接公平性,因为这些页面没有带有主菜单链接的标题,等等。

可以将页面视为“联系我们”页面或“隐私权政策”页面,这些页面可能通过主菜单或页脚菜单与站点上的每个页面链接。因此,通往这些页面的链接很多。您是否只想丢掉它?还是您宁愿让链接流向主菜单中的所有内容?很容易回答的问题,不是吗?

抓取带宽管理

您实际上何时应该改为使用robots.txt?也许,如果您遇到抓取带宽问题,并且Googlebot花费大量时间来获取实用程序页面,而只是发现其中的元机器人“ noindex,follow”并且不得不采取行动。如果您有太多这样的内容,以至于Googlebot无法访问您的重要页面,那么您可能必须通过robots.txt进行阻止。

我已经看到许多客户通过清理XML网站地图并不索引实用程序页面来全面提高排名:

 

我真的有6,000至20,000页每天需要爬网吗?还是Googlebot追逐评论URL或通过电子邮件共享URL?

仅供参考,如果您有一组核心页面,这些页面的内容会定期更改(例如博客,新产品或产品类别页面),并且您有很多页面(例如单个产品页面)会很不错如果Google为它们建立了索引,但又以不重新爬网和索引核心页面为代价,则可以在XML网站地图中提交核心页面,以向Google提供一个线索,使您认为它们比未阻止的页面更重要,但不在站点地图中。

索引问题调试

这是XML网站地图对SEO真正有用的地方:当您向Google提交一堆页面以进行索引时,实际上只有其中一部分被索引了。Google Search Console不会告诉您正在为哪些页面建立索引,而只会告诉每个XML站点地图中已建立索引的总数。

假设您是一个电子商务网站,并且拥有100,000个产品页面,5,000个类别页面和20,000个子类别页面。您提交了包含125,000个页面的XML站点地图,并发现Google索引了其中的87,000个页面。但是哪个87,000?

首先,您的类别和子类别页面可能是您所有重要的搜索目标。我将创建一个category-sitemap.xml和subcategory-sitemap.xml并分别提交。您期望在那里看到接近100%的索引编制-如果您没有获得索引编制,那么您就知道需要在这些索引上构建更多的内容,增加与它们的链接汁度,或两者兼而有之。您可能会发现诸如产品类别或子类别页面之类的东西未编入索引,因为其中只有1个产品(或根本没有产品)—在这种情况下,您可能希望对这些机器人设置元机器人“ noindex,follow”,并且从XML网站地图中提取它们。

问题可能出在100,000个产品页面中的一些上,但是哪一个呢?

从假设开始,然后将您的产品页面分成不同的XML站点地图以测试那些假设。您可以一次执行多个操作-在多个站点地图中都存在URL没错。

您可能会从3种理论开始:

  1. 没有产品图片的页面不会被索引
  2. 唯一描述少于200个单词的页面不会被索引
  3. 没有评论/评论的页面不会被索引

创建一个XML网站地图,其中包含大量有意义的页面,这些页面属于这些类别。不必是该类别中的所有页面,仅需样本量足以合理地基于索引得出结论即可。例如,您可能每个页面做100页。

您的目标是使用任何给定站点地图的整体索引百分比来识别导致其被索引或未被索引的页面属性。

知道问题所在后,您可以修改页面内容(或指向页面的链接),也可以不对页面进行索引。例如,您可能有100,000个产品页面中的20,000个,其中产品说明少于50个字。如果这些不是大流量的术语,并且您是从制造商的提要中获取描述的,那么尝试为这20,000页中的每页手动编写另外200个描述字可能就不值得了。您最好将产品描述少于50个字的所有页面的元机器人设置为“ noindex,follow”,因为Google不会为它们建立索引,而它们只是降低了您的整体网站质量评级。并且不要忘记从XML网站地图中删除这些内容。

动态XML网站地图

现在您正在思考,“好,迈克尔。但是现在我必须手动将我的XML网站地图与我的100,000个页面上的元机器人保持同步”,这不太可能发生。

但是,无需手动执行此操作。XML站点地图不必是静态文件。实际上,他们甚至不需要扩展名.XML即可在Google Search Console中提交它们。

相反,请为页面是否包含在XML站点地图中设置规则逻辑,并在页面本身中使用相同的逻辑来设置元机械手索引或noindex。这样一来,制造商的供稿中的产品描述由制造商更新并从42个单词更新为215个单词时,您网站上的该页面就会神奇地显示在XML网站地图中,并将其元机器人设置为“索引,跟随”。 ”

在我的旅游网站上,我做了很多不同类型的页面。我在这些页面上使用的是经典ASP,所以我有这样的站点地图:

  • https://www.visualitineraries.com/ItinSiteMap.asp

当获取这些站点地图时,服务器端代码无需呈现HTML页面,而只是返回XML。这将从我的一个数据库表中寻找一组记录,并为每个满足特定条件的记录吐出一条记录。

总结

  1. 保持一致 -如果它被robots.txt或meta标签“ noindex”阻止,则最好不要将其置于XML网站地图中。
  2. 使用您的XML网站地图作为侦查工具来发现和消除索引问题,并且只允许/要求Google为您知道Google将要索引的页面建立索引。
  3. 如果您的网站很大,请使用动态XML网站地图 -不要尝试在robots.txt,元漫游器和XML网站地图之间手动保持所有同步。
版权保护: 本文由寒江SEO博客原创,转载请保留链接: http://www.xjwmw.cn/tool/78.html