首页
站长论坛BBS
救助
投稿
discuz视频教程
discuz技术支持
版块
登录
快速注册

关于百度对网站内容的识别

read114 2015-4-28 [交流] 来自PC 复制链接
0207
discuz使用视频教程
31idc

马上注册,一起探讨正确快速的建站方法

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
  上个月开始,我制作了两个旅游信息类网站,目前网站收录良好,快照实时更新,但一直尚未有排名。我个人分析了一下,可能在网站的内容上还存在一些问题,那么今天在这里以二一网()为例来跟大家讨论一下关于百度对网站内容的识别这一个问题。
          一、百度对网站内容原创度的识别
          今年5月份开始,百度推出了百度原创火星计划,很明显的一个标志就是在页面的索引前加上了一个时间。百度方面的说明是,在原创内容上面获得优待方式上只要满足了用户需求前提下,给予优先展示,另外,展现上,给原创内容还进行标记。但是,根据我个人实际操作各部分站长的反馈来看,大家都感觉百度的原创识别技术不高,包括笔者在内。http://www.iflowcn.net/
          拿二一网来说,有时候自己写的原创过来,却有原创内容的标记。当然,出现这种情况可能是百度本身在原创内容的识别上数据库不够强大,后台内容比对过渡还不够完善。从专业学术的角度来看,如果一篇文章里有连续的30个字与其他地方的文章相同,同时引文不添加引用标记,则可以认定为抄袭。
          与百度原创火星计划相相似的谷歌原创计划运行这么长时间以来,也一直没有取得较好的效果。个人认为,现在更多的内容识别可能更依赖于百度权重而已,与文章内容并无太大关联。
          二、百度对网站内容排版格式的识别
          不知道大家有没有这样的体会,建好一个网站后,能过网站采集功能,从其他相关网站采集回来,对文章格式进行处理后,再发布到网站上去,百度也能给予原创内容的标记。
          原本以来,百度蜘蛛抓取时,只会抓取文章正文内容,丢弃代码格式。但是,反过来一想,百度需要识别一些使用格式来做heimaoseo的手法,从这一点需要上来说,百度不会丢弃网页代码,在抓取时会将代码与正文一同抓取。
          那么,有了上面的分析,我们通过在现在文章上添加一些新的格式、排版就能实现文章的伪原创了吗?对于这个问题,我现在还不能完全给出结论,但可以肯定的一点的是,文章排版排除用户体验的因素后,对百度的抓取还是有一定影响的。
          三、百度对网站内容页面中时间的识别
          百度快照超前和快照滞后这两种情况不知道大家有没有见过,但是我在实际操作过程发现这种情况依然存在的。先来解释一下这两种现象吧:
          百度快照超前,就是百度快照时间超过了当前时间,举个例子,今天是2013年9月12日,但是你的网站中有一个网页快照是2014年9月12日。百度快照滞后则正好相关,比如你发布了一篇文章,发布时期是2013年9月12日,按百度目前的处理情况来看,百度快照应该是2013年9月12日,但是现在你的快照时间是2012年9月12日,而快照时间点上,你的网站还没有上线呢!这又是一种什么情况呢?
          通过分析整理,发现是百度对网页中时间的抓取处理上存在问题。比如,2013年9月12日发布了一篇文章,但是这篇文章的发布时期上却写的是2012年9月12日,那么就有可能出现快照滞后的现象。快照超前则相反。当然,出现这种情况也都只是可能,并不一定都会这样,这也暴露了百度在索引中存在的一些问题。有兴趣的同学可以去试验一下,在快照时间与关键词排名方面可以研究一下。
www.iflowcn.net
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

快速回复 返回顶部 返回列表