浅析搜索引擎对网页文本分词的原理

对于SEOER来说,工作的目的当然是为了搜索引擎,所以我们必要对搜索引擎有一个深入的了解这就相当于两国交兵必须要知道对方的虚实,分析好自己的优势,知已知彼才能战打败对手。而在分析搜索引擎方面,知道其运行机制和分词技术是非常重要的一环!下面深圳网站优化 就把自己的浅见拿出来和广大站长朋友们分享一下!
  搜索引擎工作的第一步:提取页面文字
首先就是抓取页面的文字,一般搜索引擎会把相关的关键词对应的文字提取出来。还有就是关键词的描述以及图片的atl属性等,当然图片里的文字是不能识别的,所以网站内容尽量多些文字而不是图片。
  搜索引擎工作的第二步:中文分词技术
  当搜索引擎把文字抓取之后,接下来的工作就是将这些文字进行分词,讲一句话分解成一个一个的短语,比如齐天大圣孙悟空这个短语,就会被分成齐天大圣和孙悟空两个单词,还比如:杨柳如是冷月这个词,我们可以通过图示一下看看这百度和谷歌的分词区别!
  这两个搜索结果是不同的,谷歌更倾向于将柳如是当成一个名词,所以在柳如是贴吧变成了第一个匹配的!而对于百度来说,就直接把这个杨柳如是冷月这个词分别变成了杨柳,如是和冷月了,所以有关柳如是贴吧却没有出现在首页上,为什么会出现这么明显的区别呢?关键是谷歌没有一个专有的词典,所以匹配方式会有一些区别,我们要针对不同搜索引擎进行关键词优化,在内容上要尽量的靠近关键词,而不能够让关键词和内容割裂开来,这样关键词的排名就很难上去了!
  搜索引擎工作的第二步:匹配技术
  一:正向匹配,上面的杨柳如是冷月就是正向匹配,这种匹配方式有助于消除歧义,让搜索出来的结果更加准确,而不会将杨柳如是,变成柳如是了!
  二:逆向匹配,这是一种从后往前匹配的方法。
  三:最大化匹配,比如把美利坚合众国是自由的,最大匹配就成了美利坚合众国,自由!
  四:最小化匹配,依然拿美利坚合众国是自由的,最小匹配就成了美,利坚,合众,国,自由了,而在搜索引擎实际分词过程中,会将这几种匹配方式进行综合的运用,不会只会使用其中的一种,搜索引擎的分词技术最终的目的就只有两点,我们要奔着这两点来进行搜索引擎优化就能够有助于提升网站的排名!其一是通过各种匹配的技巧来消除文本中的歧义,让搜索的词出来的内容更加的准确和完整!其二就是通过各种匹配方式将一些人名,地名和机构名以及一些从没有登陆的词比如口头禅,流行语等等进行统计,然后将统计的结果和用户的想要了解的内容进行不同方式的匹配,从而让用户获得自己想要的内容!

作者: horacezhou   发布时间: 2011-05-28

楼主说的太好了!!

作者: azmy   发布时间: 2011-06-03