Web浏览器中加载的每个页面都有一个包含在HTTP标头中的响应代码,该响应代码可能在Web页面本身上可见,也可能不可见。
服务器提供许多不同的响应代码来传达页面的加载状态。404响应代码是最著名的代码之一。
通常,任何介于400到499之间的代码都表明该页面未加载。404响应代码是唯一具有特定含义的代码-该页面实际上已消失,并且可能很快不会回来。
什么是软404错误?
404错误不是发送到网络浏览器的正式响应代码。这只是Google在其索引内添加到页面的标签。
Google搜寻网页时,会仔细分配资源,以确保不会因搜寻不需要索引的缺失网页而浪费时间。
但是,有些服务器的配置不正确,当它们应显示404响应代码时,缺少的页面会加载200代码。如果即使网页清楚地指出未找到该页面,则不可见的HTTP标头仍显示200代码,则该页面可能已被索引,这对Google来说是浪费资源。
为解决此问题,Google注意到了404页的特征,并尝试辨别404页是否确实是404页。换句话说,谷歌了解到,如果它看起来像404,闻起来像404,并且像404,那么它可能就是一个真正的404页面。
可能被误认为是Soft 404
在某些情况下,该页面实际上并没有丢失,但是某些特征触发了Google将其归类为丢失的页面。
这些特征中的一些特征包括页面上少量或缺乏内容以及站点上具有太多相似页面。
这些特征也类似于熊猫算法要解决的因素。熊猫更新将稀疏和重复的内容视为负面排名因素。
因此,解决这些问题将有助于避免出现软404和熊猫问题。
404错误有两个主要原因:
- 链接中的错误,将用户定向到不存在的页面。
- 链接到曾经存在并突然消失的页面。
链接错误
如果404错误的原因是链接错误,则只需修复链接。
此任务的困难部分是查找站点上所有断开的链接。
对于具有数千或数百万个页面的大型复杂站点而言,这可能更具挑战性。在这种情况下,抓取工具会派上用场。您可以尝试使用Xenu,DeepCrawl,Screaming Frog或Botify之类的软件。
不再存在的页面
当页面不再存在时,您有两个选择:
- 如果页面被意外删除,请还原它。
- 301将其重定向到最接近的相关页面(如果有意将其删除)。
首先,您必须在网站上找到所有链接错误。类似于查找大型网站链接中的所有错误,您可以使用爬网工具。但是,爬网工具可能找不到孤立的页面,孤立的页面是没有从导航链接中的任何位置或任何页面链接的页面。
如果以前孤立的页面曾经是网站的一部分,则它们可能存在,然后在网站重新设计后,指向该旧页面的链接消失了,但是其他网站的外部链接可能仍在链接到它们。要仔细检查您的网站上是否存在此类页面,可以使用多种工具。
Google Search Console
当Google的搜寻器浏览其可以找到的所有页面时,Search Console将报告404页。这可以包括来自其他站点的链接,这些链接将转到您的网站上曾经存在的页面。
谷歌分析
默认情况下,您不会在Google Analytics(分析)中找到缺少的页面报告。但是,您可以通过多种方式跟踪它们。
首先,您可以创建一个自定义报告,然后将页面标题细分为提及错误404 –未找到页面的页面。
在Google Analytics(分析)中查找孤立页面的另一种方法是创建自定义内容分组并将所有404页分配给一个内容组。
站点:操作员搜索命令
在Google中搜索“ site:example.com”,将列出被Google索引的example.com的所有页面。然后,您可以分别检查页面是否正在加载或页面是否提供404。
为了大规模地做到这一点,我喜欢使用WebCEO,它具有运行站点的功能:运营商不仅在Google上,而且在Bing,Yahoo,Yandex,Naver,Baidu和Seznam上。
由于所有搜索引擎只会为您提供一个子集,因此在多个搜索引擎上运行它可以帮助提供更大的网站页面列表。可以导出此列表并在工具上运行以进行批量404检查。我只是通过将所有URL添加为HTML文件中的链接并将其加载到Xenu上以大量检查404错误来做到这一点。
其他反向链接研究工具
诸如Majestic,Ahrefs,Moz Open Site Explorer,Sistrix,LinkResearchTools和CognitiveSEO之类的反向链接研究工具也可以提供帮助。
这些工具中的大多数将导出链接到您的域的反向链接列表。从那里,您可以检查所有链接到的页面,并查找404错误。
如何修复Soft 404错误
检索工具不会检测到软404,因为它实际上并不是404错误。但是您可以使用爬网工具来检测其他内容。以下是一些要查找的内容:
- 内容稀少:某些抓取工具不仅会报告内容 稀少的页面,还会显示总字数。在这里,您可以根据内容的单词数对URL进行排序。首先从单词数量最少的页面开始,然后评估页面内容是否稀少。
- 重复的内容: 某些爬网工具非常复杂,足以识别模板内容占页面的百分比。如果主要内容与许多其他页面几乎相同,则应调查这些页面并确定为什么网站上存在重复内容。
除了抓取工具外,您还可以使用Google Search Console并检查抓取错误下的内容,以找到软404下列出的页面。
搜寻整个网站以查找导致软404的问题,可以让您在Google甚至检测到它们之前就找到并纠正问题。
在检测到这些软404问题之后,您将需要纠正它们。
大多数时候,解决方案似乎是常识。这可能包括简单的事情,例如用稀疏内容扩展页面或用新的和唯一的内容替换重复的内容。
在此过程中,需要考虑以下几点:
- 合并页面: 有时,内容稀少是由于页面主题过于具体所致,这使您无话可说。如果主题相关,则将多个薄页合并为一页可能更合适。这不仅解决了内容稀疏的问题,而且还可以解决重复的内容问题。例如,一个销售颜色和尺寸不同的鞋子的电子商务网站可能为每种尺寸和颜色组合提供不同的URL。这使大量页面的内容稀薄并且相对相同。更有效的方法是将所有内容放到一页上,并列举可用选项。
- 查找导致重复内容的技术问题: 即使使用最简单的Web爬网工具(如Xenu)(它不查找内容,而仅查找URL,响应代码和标题标签),您仍然可以通过查看URL来查找重复的内容问题。其中包括www或非www URL,http和https,带有index.html和不带有,跟踪参数是否不带有等的内容。有关URL模式中常见的重复内容问题的摘要,可以在第6页的幻灯片6中找到。这个介绍。
Google以相同方式处理404错误和软404错误
软404并不是真正的404错误,但是如果无法快速修复这些问题,Google会为这些页面取消索引。最好定期抓取您的站点,以查看是否发生404错误或软404错误。搜寻工具应该是您的SEO工具库的主要组成部分。