首页
站长论坛BBS
救助
投稿
discuz视频教程
discuz技术支持
版块
登录
快速注册

搜索引擎原创识别算法的技术细则

discuz使用视频教程
31idc

马上注册,一起探讨正确快速的建站方法

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
  前段时间参加武汉的一个seo圈子的小聚会,闲聊嗨皮之余,连同几个百度的工程师一起,具体的分析了下有关百度原创识别算法,在技术方面的一些细节,觉得蛮有意思的,就写出来大家一起沟通下,求拍矮个芝麻砖.

  搜索引擎为什么如此重视原创?

  早期的搜索引擎算法中,其实并没有原创这一项的判断.但是随着后来采集,转载的大规范泛滥,导致了用户很难搜索到自己真正想要的内容.大量的重复内容充斥在搜索结果中,让人眼花缭乱.

  首先,由于后期采集技术的兴起,大量的转载内容充斥网络.转载,必然会对原创产生一定的损伤,比如去掉图片,删掉一些重要的段落,或者充斥大量非原作者的注释信息.不管这么做是为了什么,但是都会降低内容的质量,使得一个关键词搜索到的内容前十几页都是同样的内容,也就使得搜索变的很无用.因此促使了搜索引擎对于原创内容进行分级显示.http://www.nffcyy.com

  由于后期采集技术的逐渐强大,可以自动将一些同义词进行替换和修改,也就造成了转载文章的内容质量进一步下降.网络上充斥着大量的无法阅读的文章.也就更加促使了搜索引擎对于优质原创内容的筛选.

  其实让矮个芝麻最为纠结的一件事情就是,写了一篇,大量的流量被引流到其他的网站,将会直接影响到作者的收益.

  搜索引擎如何判断一篇文章是否为原创?

  1.1转载的良心,转载保留外连,作者名,**转载等

  个人觉得,这是一种纯良心的做法.因为在转载走的时候,删掉你的信息是很轻松的.当然,大量的采集可能不会删掉原作者留下的版权**.这就给了搜索引擎一个很好的识别方式.首先,一般的门户在转载源的链接.

  转载源不一定是原创,但肯定更加有利于搜索引擎寻找到这篇于那个作者或者网站.这是目前最为主流的识别方式.

  1.2技术层面的识别

  当然,这么有礼貌的转载也只是转载采集大军中的一部分.还有相当大的一部分转载,会掐头去尾改标题,外连作者就更不要提了,直接在采集过程中屏蔽替换掉.或许这是国人山寨采集的一种习惯吧,就像QQ的icq,百度的谷歌,支付宝的贝宝...所以说对于这种行为,在这咱也不予评价.

  搜索引擎对于这类一篇5月18号发的帖子,把时间改成5月16号,百度蜘蛛是有一定概率被欺骗的.

  同时,对于改标题这方面,百度有一个很模糊的算法.具体的做法就是对比标题和内容的关联性.具体的判断做法尚不清楚,但根据以往的经验来看,如果标题和内容完全没有关系,这篇文章很容易被百度忽视掉.这就说明搜索引擎对于这方面还是有一定的识别度的.同时,对于略有区别的两篇文章,百度可以根据内容的通顺程度,判断出哪一篇的质量更高.
www.jynfyy
alanni 发表于 2015-6-8 15:29:23 来自PC
我只是路过站帮网打酱油的。
www.glwangku.com桂林,www.dartrun.net柳州网站建设
cmjgj 发表于 2015-6-8 16:11:49 来自PC
个人觉得,这是一种纯良心的做法.因为在转载走的时候,删掉你的信息是很轻松的
乱世繁华 发表于 2015-6-8 16:38:01 来自PC
被别人复制你的文章改为自己的很简单,但是你却无可奈何
光纤收发机http://www.aoshifiber.com
木果果 发表于 2015-6-8 16:43:30 来自PC
早期的搜索引擎算法中,其实并没有原创这一项的判断.但是随着后来采集,转载的大规范泛滥,导致了用户很难搜索到自己真正想要的内容.大量的重复内容充斥在搜索结果中,让人眼花缭乱.
www.syxcyh.com|www.syjdxck.com|www.024xc.cn|www.xiaochuanyiyuan.cn|www.chbbzx.com|www.sxjkj.com|www.
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

快速回复 返回顶部 返回列表