谷歌索引膨胀是怎么导致的呢?
什么是索引膨胀(Index Bloat)?
索引膨胀(Index Bloat)是指你的网站上有大量低质量页面,这些页面会占用Google的抓取预算,且对潜在用户来说没有任何价值,也就是说,当Google将你网站上不应该被索引的页面收录时,就会发生索引膨胀。
索引膨胀会产生哪些负面SEO影响?
索引膨胀对SEO及网站用户有很大的负面影响,除了减慢网站速度外,索引膨胀也会产生很多SEO问题。
浪费抓取预算
索引膨胀使得搜索机器人浪费有限的抓取预算,占用你想要排名页面的时间和资源,抓取预算使用效率低。
排名更加困难
搜索机器人需要了解你的网站,将内容和用户搜索意图进行匹配,并进行有效排名,没有明确,合乎逻辑目的的页面会使Google更难理解和检索信息。
排名下降
相似或者重复内容页面存在重叠的关键词定位,导致相互竞争,另外,低质内容无法获得排名,这可能影响你网站的整体权威性。导致排名下降。
如何识别索引膨胀?
识别你的网站是否存在索引膨胀的唯一方法是评估你网站的索引页面总数。
评估网站收录页面数量的方法有很多种,包括:
1.使用谷歌高级搜索命令“site:https://www.c-sz.com/”,查看搜索结果数
2.使用Google Search Console(GSC),查看编制索引>网页数
3.使用例如Screaming Frog这样的爬网工具,这些工具会向搜索引擎一样抓取你的网站,并提供详细的索引报告。
作为SEO或者说网站负责人,你应该知道你的网站收录的大概数量,如果GSC显示的数量比你预估的大很多,那么说明你的网站可能存在索引膨胀的问题。
此时,你需要深入研究网站报告,Screaming Frog这样的爬网工具可以精确的为你提供导致索引膨胀的页面。
常见导致索引膨胀的原因
索引膨胀是一些大型网站,例如电商站,旅游站等比较常见的SEO问题,但并不是说小站不存在这个问题。事实上,有很多导致网站索引膨胀的原因,包括但不限于以下几种:
分面导航和参数:具有分面导航的电商网站或者其他网站通常会根据过滤器、排序等选项生成大量URL变体,从而导致重复页面问题。
存档页面和标签页面:虽然这些页面用于组织目的,但它们可能无法提供独特的价值,如果管理不当,可能会导致索引膨胀。
分页:分页是比较流行的内容显示方式之一,电商站、博客站等都有分页板块。分页好用,但如果管理不当,也会导致索引膨胀。
低质,单薄的内容页面:内容单薄或低质量的页面为用户提供的价值较低,可能会被搜索引擎视为质量差。但是,它们仍然可以被索引,特别是如果它们是自动生成的,或者是网站更新的额外内容。
Robots.txt丢失或者不正确:Robots.txt文件是位于网站域根目录下的文本文件,它告诉网络爬虫哪些页面应该被索引,哪些页面不应该被索引。当它丢失或者错误时,搜索引擎机器人可能会抓取和索引不应包含的网站,从而导致索引膨胀。
媒体页面:过多的元数据较差的图片库和视频集
过期内容页面
未优化的搜索结果页:主要在电商站上
跟踪网址
意外重复内容或者相似内容
感谢页面或者确认页面
测试页面:一些用于测试的页面
整理索引页面列表
通过sitemap、GSC、GA4等工具查找和整理你的所有索引页面,合并,排重以及删除带有参数的网址,整理一个最终网址索引列表。
使用Screaming Frog将其与GA,GSC等可以统计页面效果的工具链接,通过流量、点击、外链等数据来分析你的网站,判断哪些网址效果不好,会导致索引膨胀。
如何修复索引膨胀?
当你一旦确定了导致索引膨胀的原因,并基本确定了相关页面,下一步,我们该考虑如何修复索引问题。
删除内部链接
查看你网站的内部链接结构,确定低质量、冗余或不再需要的页面。删除指向此类页面的内部链接,阻止搜索引擎机器人抓取和索引它们。确保重要页面获得更多的内部链接,以加强索引和排名。在指向你希望命令搜索引擎不要进行索引的页面的链接上使用“nofollow”标签。
更新或者修正robots.txt
检查你网站的robots.txt文件,确保配置正确,排除不相关或重复的页面。更新文件并包含不应编入索引的目录或页面。使用Google Search Console的robots.txt测试器测试robots.txt文件验证有效性。
使用Meta Robots标签和X Robots
利用元机器人标签或X-Robots-Tag HTTP标头来指示搜索引擎不要索引特定页面。在搜索引擎不应索引的特定页面上使用“noindex”标签。使用“noarchive”可防止搜索引擎显示页面的缓存版本。
使用代码指定抓取工具不应为这些网页编制索引,但可以跟踪这些网页上的链接。这样可以确保Google可以通过这些链接将其他网页编入索引,但不能将网页本身编入索引。
301重定向
如果你的网站有多个内容相同或者相似的望着我,可以使用301重定向到该页面的首选规范页面。这样可以保留反向链接价值并最大限度地减少错误。如果不再需要内容或与网站现有页面无关,可以使用HTTP状态代码410。404也可以,但410可以更快地将网站从搜索引擎的索引中剔除。
使用Canonical标签
使用rel=”canonical”告知Google重复页面的首选规范版本。
阅读更多:Technical SEO:如何处理网站上的重复内容?规范化!
使用Noindex标签
在要排除的页面上设置Noindex标签,可以防止搜索引擎索引这些页面,从而减少索引膨胀。
正确设置分页板块
如果你的网站有分页板块,可以使用rel=“next”和rel=“prev”标签向搜索引擎发出正确分页的信号,这样可以防止它们单独索引每个分页页面,从而避免索引膨胀。
删除或者合并页面
进行彻底的内容审查,将低质或者表现不佳的页面整理出来,考虑改进还是完全删除这些页面,也可以减少索引膨胀。或者可以把相似的页面整合成一个综合页面,避免重复。
密码保护
密码保护服务器上的文件会阻止搜索引擎的跟踪。这些网址不能被抓取、索引或传递任何排名信号。但这也阻止了访客。
使用URL删除工具
如果你确信网页被无意编入索引,并且不应出现在搜索结果中,可以使用Google Search Console的网址移除工具(或其他搜索引擎的类似工具)请求将其从索引中移除。
如果你的网站已经存在了一段时间,最好每年进行一次全面的网站审查和维护检查。仔细梳理所有页面,判断它们是否仍然是相关、有用和最新页面,或者是已经过时、单薄或者重复页面。
最后
所有的更改都结束后,我们只需要等待搜索机器人再次来抓取。
提醒:预防大于治疗,如果看到这篇文章的你还在建站初期,请一定要认真考虑如何解决导致索引膨胀的原因。
另外,持续的网站定期审查也是我们需要重视的SEO工作。