泥胚文章写作网,原创文章写作中心,文章阅读,成就网上文章写作梦想 泥胚文章写作欢迎       设为首页

泥胚文章写作网 | 搜索引擎

搜索引擎对关键字堆砌的识别

三秒钟免费注册

文章作者: 泥人    加为好友   发送站内短信    日期: 2008-02-27 14:24:09    点击: 1835
文章关键字:搜索引擎 关键字 SEO    文章系统标签:搜索引擎 识别 文章 关键字 堆砌 网站 

    搜索引擎和搜索引擎优化(SEO)一直是一对矛盾,合理的优化有助于搜索引擎对网站内容的识别,有助于网站的推广。然而有正面,就有反面,一些SEOers通过各种欺骗手段来欺骗搜苏引擎,以期达到增加页面收录数和页面排名的目的。

    早期的关键字堆砌SPAM作弊方式之一,是将中文词库中的单词直接用软件拼凑成文章,这样的文章没有实际的意义,只能给搜索引擎看。那么对于这样的文章,搜索引擎是通过什么方式来识别的呢?

    我们知道,每个搜索引擎都有网页质量监控部门,对于百度等掺杂人工处理的搜索引擎而言,用户发现这样的网站,投诉到百度,百度直接封了这个网站了事。但对于Google这样的封站也是自动处理的搜索引擎而言,对关键字堆砌作弊的识别就显得更为重要了。

    对于关键字堆砌作弊方式的识别,搜索引擎一般采用统计分析的方法进行。

    搜索引擎首先将网页进行分词,分词完成后可以得到词的数量N和文章长度L,从大量文章的统计中发现文章的长度L和词的数量N两个数字之间存在一定的分布关系,一般而言L/N界于4至8之间,均值大约在5-6之间。也就是说一篇长度为1000字节的文章中,应该有125-250个分词,由于中文和英文的词的组成不一致,因此在英文和中文中这个比值的范围会有所不同。如果搜索引擎发现L/N特别大,那么这篇文章就存在就存在关键字堆砌现象了,如果L/N特别小,则可能是这篇文章是由一些词所组成的没有意义的文章,笔者对泥胚文章(www.nipei.com)中的不同作者发表的文章进行了验证,基本上都服从这个比值范围。

    进一步,通过大量正常文章统计发现,文章中密度最高的几个关键字出现的次数之和与N/L存在一定的分布关系,搜索引擎就可以通过网页中的分布与统计结果的分布图进行比较得出文章是否存在关键字堆砌的现象。

    此外,搜索引擎还将从停止字的比例来判定文章是否为自然文章。停止字就是如“的”“我”“是”等在文章中普遍使用的字或词,如果文章中停止字的比例在正常的比例范围之外,这个网页应提交到网页质量监控部门审核。

    当然,还有更多的算法可以对网页与自然语言的文章进行比较分析,以判别文章是否为自然文章

    所谓魔高一尺、道高一丈,有些作弊者已经放弃了单词的组成文章的作弊方式,而改用句子组成文章的作弊方式,作弊者通过爬虫或其它方式获得网上文章的句子,并用软件将数十篇文章的某几句拼凑成一篇文章。这就需要搜索引擎做语义的分析来判断是否作弊了,然而目前关于语义分析的研究还处于研究阶段,这也是下一代智能搜索引擎的方向。

    然而我们仍然不能将自动文章生成一棍子打死,基于人工智能的文章生成仍然是人类研究自身语言以及自身智能的一个重要方向。作弊与反作弊,将能促使人类对人工智能的研究。

    如果到最后,软件能生成人类能够理解的文章,这是SPAM还是精华?你能肯定地说目前存在的智能化程度还不够高的RSS聚合文章一定是SPAM吗?然而,如果这样的文章海量的出现,我们又该如何去面对这个现象?

    参考文献:《搜索引擎原理、实践和应用》卢亮、张博文,2007


作者:泥人,是泥胚网站长,硕士学历,青年管理学研究者,科技工作者,研究领域:企业管理、项目管理、财经产业等。
文章来源:泥胚文章写作网 http://www.nipei.com   原文地址:http://www.nipei.com/article/1580
转载本文章必须保留作者、出处链接以及本声明。
转载不注明出处、程序采集是侵权行为,我们保留追究其一切责任的权利。

  通过QQ、MSN、Email发送下面的文章地址给朋友,向朋友推荐本文章
  

  • Currently 1.89/10
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  •   网友评分: 1.9/10 (共 38 票),请为本文评分


    文章留言

    [1楼] 评论人: tuodoukuang    评论时间:2008-06-05 05:57:12     
    写出属于自己的文章,那才是真风采!!!!!

    发表留言 雁过留声,人至留言  [自动过滤有外部链接及广告留言,敏感留言审核后显示,禁止发布非法内容]


    请输入校验码,不区分大小写游客需要验证码,注册后无需验证码

    Visual CAPTCHA


    您可能还关注以下文章:

    IIS_rewrite伪静态设置方法     泥人
    文章关键字转化为Tag方法     泥人
    雅虎收录问题的解决     泥人
    adsense要独立域名才能申请了     泥人
    网站推广三十六招(1)     泥人
    网站推广三十六招(2)     泥人
    关键字云雾在SEO中的使用     泥人
    google2007热门关键字分析     泥人
    高质量外链应如何建设?     泥人
    SEO必须远离的手段     泥人
    更多关于搜索引擎的文章
    更多关于关键字的文章
    更多关于SEO的文章
    更多关于搜索引擎的文章
    更多关于识别的文章
    更多关于文章的文章
    更多关于关键字的文章
    更多关于堆砌的文章
    更多关于网站的文章

    点击下面图标可将本文章加入您的网摘或网络收藏夹,方便下次阅读文章,也可与他人共同分享本文章。

    点击下面图标可将本文章推荐到掘客网站,与更多的人一起分享本文章。