首页 > 其他 > 详细

简单之美——布尔代数和搜索引擎的索引

时间:2017-01-16 15:17:57      阅读:298      评论:0      收藏:0      [点我收藏+]

1.术和道:

     具体做事的方法是术,做事的原理和原则是道;任何术都会由独门绝技,到普及,到落伍,只有掌握了道,做事才能游刃有余
 
2.搜索引擎的原理:
     自动下载网页——建立索引——根据相关性对网页进行公平的排序
     
3.索引
     爬虫自动下载网页,然后给网页进行二进制的编号;
     然后基于关键字做索引,每个关键字跟着一个数字,此数字是网页的二进制标识(最简单的做法是有多少网页就有多少位,如010010001...标识第2、5、9篇文章中有此关键字,大部分是0,只需记录1的位数即可)
     搜索引擎把用户的查询语句转化为布尔运算的算式,然后利用布尔运算(先查找每个关键字的索引值,然后将所有关键字的索引值进行"与"操作得到的索引值即是文章的序号)
 
4.互联网搜索:
     词汇表大约有30万个词,大约有10的10次方个网页,所有总的索引数为3000万亿,大部门的词出现在一篇网页中,压缩比为100:1,还有30万亿的索引,而且索引的值还包含关键之的位置、次数等,需要用分布式的结构来解决:
     将创建好的索引通过分布式的方式存储在不同的服务器上(根据网页的序号将索引分成很多份,存储在不同的服务器中),当接收到一个查询请求时,这个查询就被分发到许许多多服务器中,并行处理查询请求,在主服务器上进行合并,最后返回查询结果
     随着web2.0时代到来,网页信息大大增加,根据网页的重要性、质量和访问频率分为常用和非常用级别的索引
          

简单之美——布尔代数和搜索引擎的索引

原文:http://www.cnblogs.com/uttu/p/6289735.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!