让每一个企业都拥有适合自己的互联网应用方案-合肥巢湖中拓科技   网站首页 > 新闻动态
 
搜索引擎之正向索引与倒排索引
来源:czwzyh.cn 发布时间:2021/7/22
  池州网站优化小编告诉站长们远期指数也可以简单地称为指数。经过文本抽取、分词、消噪、重复等处理后,搜索引擎是独一无二的,能够体现页面的主要内容,以单词为单位的字符串。未来搜索引擎可以提取关键字索引程序,根据分词区分好单词的过程中,页面转换为一组关键字,并记录每一个关键字在页面上出现的频率,出现,格式(如标题标签,大胆,H标记,锚文本,等等),位置和其他信息。这样,每个页面都可以被记录为一组关键词,其中也记录了每个关键词的词频、格式、位置等权重信息。每个文件对应一个文件ID,文件的内容表示为关键字的集合。事实上,在搜索引擎索引库中,关键字也被转换为关键字ID。这样的数据结构称为正向索引。
  正向索引还不能直接用于排名。假设用户搜索关键字2,如果只存在正向索引,则排名程序需要扫描索引库中的所有文件,找到包含关键字2的文件,然后进行相关性计算。这样的计算量无法满足实时收益排名结果的要求。
  因此,搜索引擎将前向索引数据库重构为反向索引,将到关键字的文件映射转换为到文件的关键字映射。
  在反向索引中,池州网站优化小编告诉大家关键字是主键,每个关键字对应于列出该关键字的文件列表。这样,当用户搜索一个关键字时,排序程序将在倒排索引中找到该关键字,并可以立即找到包含该关键字的所有文件。