让每一个企业都拥有适合自己的互联网应用方案-合肥巢湖中拓科技   网站首页 > 新闻动态
 
搜索引擎的预处理和提取文字
来源:czwzyh.cn 发布时间:2021/7/20
  在一些池州网站优化的材料中,“预处理”也被简单地称为“索引”,因为索引是预处理中最重要的部分。
  搜索引擎蜘蛛抓取原始页面,不能直接用于查询排名处理。搜索引擎数据库中的页面数量超过了万亿。用户输入搜索词后,排名程序会实时分析这么多页面的相关性。计算负载过大,不可能在1秒或2秒内返回排名结果。所以爬行到页面必须进行预处理,为最终的查询排名做好准备。
  与爬行一样,预处理是在后台完成的,而用户在搜索时并不知道它。
  目前的搜索引擎仍然基于文本内容。爬行器捕获的页面的HTML代码,除了用户可以在浏览器上看到的可见文本之外,还包含大量HTML格式标记、JavaScript程序和其他不能用于排名的内容。在搜索引擎预处理中要做的第一件事是从HTML文件中删除标记和过程,并提取可用于排序处理的页面文本内容。