SEO算法问题,如何借助分词符号过滤重复内容机制

阅读  ·  发布日期 2020-04-13 10:23  ·  admin
  这个知识点我SEO优化课程里面讲过分词,但是没有深度讲,因为讲了大多数人也听不懂,毕竟实用性没有做网站布局那么实在。分词技术我们都知道是搜索引擎里面特有的一个算法归类,但是对于百度这种搜索引擎来说,中文分词占据了主要地位。我们继续思维一个SEO逻辑,分词符号在SEO优化当中能够起到什么样的作用,尤其是对于SEO从业人员来说,如果这个问题解决的好,相当于可以直接解决一个知识点就是处理内容重复。我们都知道百度在计算一个网页内容重复度的时候大多数是基于词与词之间的一种关系来进行内容结果排名,但是真正能够满足一个点的不仅仅是词,而是词之间构建的符号。
分词技巧
    一个网页可以分成以上的一个结构板块,从最开始的文章篇到分割,分割的话除了共同部分区域,其他都是正文的一种表现形式出来。那么这里就有一个知识点了,分词符号出现在不同的位置,实际上可以过滤的点就不一样,什么意思的呢,我们如下图所示:
中文分词
    这是腾讯的中文分词工具,大家需要使用的可以去直接了解使用下。从上面这张图可以发现,快排科技(vx:seokuaipai)网站的标题分词以后得到了这样的一种词库组合,但是实际上我目前就用了一个横线。我们在多加几个分词符号,就可以出现完全不一样的效果,如下图所示:
算法汇总
    在来看这个搜索结果,是不是很奇妙,技术培训本身是一个词,现在加了一个分词符号,是不是做到了分词的结果。这里就有人肯定会问了,这个作用是什么,回到我本文标题写的东西,是处理内容重复问题。实际上百度判断一个网页是否原创,就在于内容分词后再次计算重复度,而分词符号可以很好的借助这个特征点来处理一个内容过滤采集问题,重点就是看大伙会不会深度研究和挖掘了。
    提示一个点,上面两个网页截图,加了分词符号和不加分词符号得到的一个词数量和词的内容是完全不一样的,这也是为什么目前一些市面上搞黑帽SEO作弊的人可以把百度玩的团团转的根本原因。