要闻分享| 关注中国| 逆耳忠言| 不平则鸣| 情感天空| 健康生活| 流行时尚| 保险理财| 讽刺幽默| IT与游戏| 信息交流| 华发移民| 华发工作| 摄影美图

社会聚焦| 旅游天地| 娱乐八卦| 音乐视频| 校友互动| 网络社区| 房屋安家| 教育培训| 中医瑰宝| 专栏作者| 科技文化| 华发留学| 华发红娘| 关于本站

华发网China168.info海外中文门户网站

 找回密码
 立即注册

扫一扫,访问微社区

查看: 645|回复: 0

肖玉强:图解搜索引擎工作原理www.buka.cc

[复制链接]
发表于 2012-1-18 03:24:02 | 显示全部楼层 |阅读模式
  第一步:搜索引擎的爬行程序(俗称蜘蛛)发现网站,来到网站上。也就是说网站首先要存在,且能够被蜘蛛发现。比如济南seo肖玉强的博客如果要被搜索引擎收录,首先要存在而且要有内容。


  默认权重分配。搜索引擎将页面被抓取的日期作为一个参考因素,页面在单位时间内获得链接的数量越多,质量越高,则该页面的质量也相对更高。

  二、搜索引擎工作原理——页面分析


  第三步:上一步搜索引擎已经将正文内容切分为了若干关键词,这些关键词出现的位置、频率等是不同的,在第三步,搜索引擎会将关键词逐一记录、归类、建立索引。比如,关键词出现的频率我们建议2%——8%是最为合理的,那么搜索引擎在给关键词归类时,会认为符合2%——8%的关键词是网页的主关键词,从而在接下来的页面排序时给予照顾。
  整个搜索引擎的工作过程,我们可以以做饭举例。比如我们现在要做西红柿炒鸡蛋,接下来开始。

  第二步,有了西红柿、鸡蛋、配料,接下来我们要分析一下做菜的顺序,是先放油呢还是先放鸡蛋再放油呢?还是放了西红柿鸡蛋再放油呢?对这个项目进行分析,即搜索引擎工作的第二步:页面分析;
  我们先来看搜索引擎的主要工作:页面收录、页面分析、页面排序及关键字查询。搜索引擎的工作流程是:页面收录——页面分析——页面排序——关键字查询。
  三、搜索引擎工作原理——页面排序
  内部链接。网站内部页面之间的链接关系,一般首页的权重最高。在同等情况下,如果有两个网站的首页和内页进行比较,一般首页会排在内页前面。


  第一步:提取正文信息。这里所提取的正文信息除了包含页面内容外,也包含页面的头部标签信息(title\keywords\descrption)等。

  外部链接。网站与站外页面之间的链接关系,通俗的说法叫做“外链”。外链的数量、质量、相关性都会影响页面排序。在页面相关性上,google比baidu更为严格,比如,你的网站是做it的,结果你去链接了很多机械化工类的网站,这时候搜索引擎会很不喜欢,甚至会认为你恶意添加外部链接。

  1、先来看关键词。
  

  c、关键词分布。即关键字在页面中出现的位置也会影响页面的排序。一般认为页面权重的递减顺序是左上>右上>左>右>左下>右下。





  四、搜索引擎工作原理——关键词查询

  d、关键词的权重标签。权重,可以理解为重要性。权重标签如< b >、< i >、< em >、< h1 >—< h6 >等等这些标签使得标签内文字不同于其他文字,搜索引擎会给予相应权重提升。
  b、 接下来,搜索引擎会去比对页面中关键词出现的频率,过高或者过低都不好,最恰当的频率一般认为是2%——8%左右。




  

  第二步:蜘蛛开始对入口页面进行抓取,并存储入口的原始页面,包含页面的抓取时间、url、最后修改时间等。存储原始页面的目的是为了下次到来比对页面是否有更新,蜘蛛喜欢经常更新的网站。
  一、搜索引擎工作原理——页面收录


  

  第一步:用户输入关键词进行查询。

  3、用户行为



  至此,搜索引擎对页面的分析完成,在这一环节,搜索引擎完成了对页面正文信息的提取、关键词的切分、关键词的索引、以及搜索引擎角度上的网页重组。
  做seo的,如果不懂搜索引擎的工作原理是很难恰当开展工作的。前几天给学生讲seo课程中的搜索引擎工作原理时,很多同学表示不太懂。后来我画了搜索引擎主要工作流程的示意图给大家,很多同学表示“懂了”。
  在这个过程中,我们看到了两个“网页”。第一个“网页”指的是刚才搜索引擎已经收录的url资源。好,搜索引擎对页面的分析正式开始。



  本文首发:肖玉强的博客 专注济南seo研究。转载请注明出处。

  第四步:搜索引擎为页面关键词建立索引后,再将这些关键词重新组合,以关键词的形式重新组建一个新的网页,这个网页上的关键词是唯一的,全部不重复。比如,我们刚才在第三步时,a关键词出现了三次,在第四步,114电影网,我们只记录a关键词1次,在重组后的网页后,a关键词再无重复。


  


  搜索引擎工作原理——关键词查询

  第三步:提取url,提取url包含两个两个内容:域名url和内部url。域名url即网站首页地址,如www.***.com;内部url即网站内部各页面的地址,如
  我的qq:2284939775,欢迎交流。
  第三步页面排序,分析好了这个菜怎么做,接下来要动手了,先刷锅热锅,再放油,再继续&hellip;&hellip;这是个合理的顺序,先做什么,后做什么。

  第二步:提取完信息后,搜索引擎按照机械分词法和统计分词法,将正文信息切分为若干关键词,这些关键词组成了关键词列表。我们大家在搜索引擎里查找内容时往往会输入关键词查找,这里搜索引擎的工作就是按照一定的规则将内容划分为词,以便以后大家搜索。
  


  搜索引擎工作原理示意图-页面分析流程
  
  
  a、 关键词匹配度。我们注意到在全文搜索引擎中,一般情况下搜索引擎列表中都会包含我们所输入的关键词。当我们输入关键词进行查询时,搜索引擎首先会去检查网页中是否有该关键词,这是基础条件。
  在上面一个环节,搜索引擎完成了对页面的分析,将页面以唯一关键词的形式进行了重新组合。接下来开始进入到页面排序的环节。页面排序的环节,实际上是由用户配合来完成的。当用户在搜索引擎输入关键词进行查询时,搜索引擎便开始了页面排序的的工作。我们知道,任意输入一个关键词就可以在搜索引擎中找到很多网页,这些网页的先后顺序是怎样产生的?影响页面排序的因素有哪些?
  在页面收录中,搜索引擎已经抓取到了网站上的url,接下来,搜索引擎会对所抓取到的页面内容进行分析。

  第二步:搜索引擎接到用户关键词指令,将用户的关键词再次切分。有同学问为什么还要切分呢?这是因为用户所输入的关键词可能会和搜索引擎词典里的关键词不符合,这时候搜索引擎会将用户的词再次切分,尤其是长尾关键词。如用户搜索:肖玉强的博客。这个词搜索引擎词典里是没有的,那么这个词会被切分为“肖玉强”“的”“博客”三个词之后再去网页资源中进行匹配。
  页面收录的最终目的是将网站上的内容加入到url列表,积累url资源。



  第四步:菜做好了,上桌了,你可能会选择先吃鸡蛋,也可能会先吃西红柿,哈哈,这就对应了关键词查询。如果你要在西红柿鸡蛋里找块肉吃,抱歉,没有,这就是关键词的空列表了。
  2、链接权重

  第三步:搜索引擎将关键词切分后,进入网页资源中进行匹配,查询合适内容,即“关键词反向索引表”。如果网页资源中有对应关键词,则进行页面分析,按照页面权重进行网页排序。如果没有对应关键词,则返回给客户一个“空列表”。比如“很抱歉,老白有喜,没有找到你要查询的内容”。
  搜索引擎工作原理示意图——页面收录流程
  第一步,西红柿和鸡蛋,以及配料要有,这里对应页面收录;


  实际上,决定页面排序的因素很多,如关键词、页面相关性、链接权重及用户行为。


  用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序结果、提高排序结果质量的重要补充。
  对于例子,请酌情参考。明白了搜索引擎的工作原理就好了。
相关的主题文章:

  
   http://www.yu-xxw.com/forum.php?mod=viewthread&tid=8561&extra=
  
   http://bbs.shenqiangshou.com/forumdisplay.php?fid=210
  
   http://www.45wl.com/forum.php?mod=viewthread&tid=2203&extra=
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|关于我们|联系我们|用户须知|小黑屋|法律申明|隐私通告|华发网海外版china168.info

GMT-6, 2024-12-24 22:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表