持续分享干货,培育用户成长

Google、adwords、SEO、Facebook营销,社交营销等

Google偏好:质量高于数量

浏览数量: 61     作者: 本站编辑     发布时间: 2018-12-28      来源: 本站

人类和AI对重复内容的理解不同,会造成误判的情况。那么怎么了解AI判断重复内容的规律,并加以利用好呢?


Google PageRank是立于大数据的智能算法,它们反而缺少人类自带的:常识。

 

要知道,在多个页面上编辑相同内容就会产生重复内容。但是如果您创建了关于类似产品的页面会有怎样的影响呢?算法会把它们标记成重复,但其实它们并是不一样的两个产品。例如:


· 电商:具有多种型号的或关键差异的相似产品

· 旅游:酒店的分店,目的地的套餐,相似的内容

· 分类:相同的项目详尽列表

· 业务:本地的分支机构页面,在不同的地区提供相同服务



一 重复内容有危险

网站会出现如下情况:

· 失去竞争相同关键词唯一网页的排名

· 无法对集中的网页进行排名,因为Google选择了其中一个网页作为规范

· 大量的精简内容丢失了网站权限



二 机器如何识别重复内容

谷歌使用算法来确认两个页面或多个页面是否为重复内容,而谷歌将其定义成“ 明显相似 ”内容。

谷歌的相似性检测利用他们的专利Simhash算法,这个算法能分析网页上的内容。然后,它为每块内容计算唯一的标识符,并为每个页面组成一个散列或“指纹”。

由于网页的数量巨大,因此可扩展性更加重要。目前,Simhash是大规模搜索重复内容的唯一方法。


Simhash指纹:

· 计算成本低,它们是在页面单个的爬网中建立的。

· 固定长度,容易比较。

· 能够找到重复的内容,与很多算法不同,它将页面上的微小改变等同于散列中的微小改变。


这意味着任意两个指纹之间的差异都可以通过算法测量并显示为数值。为了降低评估每个也面的成本,谷歌采取了以下技术:


· 聚类:通过将多个足够相似的页面分在一组,只需较对聚类中的指纹,因为其他所有指针都已被分类为不相似。

· 估计:对于非常大的聚类,在计算一定数量的指纹对之后应用平均的相似性。

比较页面指纹。


最后,谷歌用加权相似率排除相似的内容的某些部分(如:标题,导航,侧边栏,页脚,免责声明等)。它考虑到了页面的主题,利用n-gram来确认页面上哪些字最常出现,并在网站的上下文中是最重要的。


三 利用Simhash分析相似内容

利用Simhash查看标记为相同内容集群的地图。OnCrawl的图表覆盖了对重复内容群集的相似内容策略分析。

OnCrawl的内容分析还包括相似性比例,内容聚类和n-gram分析。OnCrawl还在开发了实验性热图,表明每块内容的相似性可以覆盖在网页上。

按内容相似性反应网站。每一个块表示拥有类似内容的集群。颜色表示每一个群集的规范化策略的一致性。


四 使用规范验证集群

使用规范的URL来指示一组相似网页中的主页面是一种主动的聚集页面方式。理想状态下,由规范创建的集群和由Simhash建立的集群应该是一样的。

标准的聚类匹配相似性聚类(绿色)。突出显示:6页完全相似。您的规范政策和GoogleSimhash分析以相同的方式对待这些页面。

 

如果不是这种情况,一般是因为网站上没有规范的政策:

没有规范声明:每数百个页的集群,平均相似率为99-100%。谷歌将会施加规范URL。你无法控制哪些页面将被排名,而哪些页面将不排名。

 

或者因为规范策略与谷歌用来对类似内容进行分组的方法之间发生冲突:


规范问题:有超过80%相似性的大型集群或每个集群的多个规范网址谷歌会强制使用自己的规范URL,或把你希望保留的重复页面编入索引。

 

你的网站群集与上面的群集不一样。你已经遵循了相似内容的最佳做法。包含相似内容的URL(例如可打印/移动版本或CMS生成的备用URL)会声明正确的规范URL。

规范化后映射相似性聚类


过滤掉的规范策略正确处理的重复内容,其余非规范化网址是要排名的网页。


删除经验证的(绿色)组和有小于80%相似性的组之后的先前映射。其余46个集群中的大多数只有页。

仍然出现在利用Simhash和语义分析的群集中的网址是您和Google不同意的网址。


五 解决重复内容的问题

没有最好的技巧来纠正机器对表面相似的独立页面的看法:我们没有办法改变G谷歌识别相似内容的方式。但是,依然有一些小技巧能够让你的独特内容和谷歌保持一致的感知......同时依然根据你需要的关键词进行排名。


下面我们举出五种策略:


1、解决边缘情况

首先我们查看边缘的情况:拥有非常低或非常高的相似度的聚类。


· 相似度低于20%:相似,但不太相同。尝试通过链接群集中的网页,使用每个网页的不一样的锚文本,通知谷歌将它们视为不同的网页

· 最大相似度:找到潜在的问题。需要丰富内容以区别网页或将网页合并成一个。


2、减少重复页面的数量


网页不要追求数量,需要追求的是质量。大量重复的网页,将会产生网页里面小块内容相似度过高,容易被搜索引擎认为是重复的页面,将会影响到网站整体的索引。


3、使独特的页面

请记住:内容微小的差异也会体现在Simhash中指纹中。您需要对网页上的内容进行重大的改变,而不是只进行细微的调整。

如何丰富网页的内容:

· 向网页添加新的文本内容

· 添加更多不同的图像描述

· 包括更完整的客户评论

· 添加更多其他信息

· 添加更多相关信息

· 使用不同的图片信息

· 使用非常不同的锚文本测试链接到不同的页面

· 减少相似页面之间共同的源代码数量

· 提高网页语义的密度

· 增加更多与主题相关的词汇量并避免填充


4、创建排名参考页面

若没办法或不适合更改你的网页,可以考虑创建一个代替所有“相似”网页的独立参考页面。这个策略利用与内容中心一样的原理来提升多个关键词的主页面。当你需要把多个版本的产品作为独立的页面进行维护时,它将尤其实用。

这个策略可以用于创建固定需求和季节性机会的网页。它能够通过提供更为强大的语义和排名来改善页面群。

它还能够让分类广告网站,招聘网站或其他拥有许多类似列表的网站受益。参考的页面应按独立特征对列表进行分组。

那该怎么办:

1. 创建一个参考的页面,汇集了所有“重复”产品页面的语义内容。它应该宣传您要使用的所有关键词并链接到所有“重复”URL。

2. 将每个“重复”页面的规范网址设置为参考网页,将参考网页的规范网址设置成自身。

3. “重复”页面之间的链接。

4. 优化网站的导航用以推广参考网页。

 

通过加强“重复”页面,规范声明和组合内容的链接,参考网页很容易排名。


5、合并你的网页

如果你一直在尝试使用相同的内容来丰富网页,你可能无法解释为什么要保留它们,也许是时候将它们整合到一起了。

如果你决定将页面整合成一个:

· 保持表现最佳的URL。

· 将你正在删除的网页重定向(301)到你要保留的网页。

· 将你要删除的网页中的内容添加到你要保留的网页中,并对它们进行优化用以对所有群集的关键词进行排名。