在一些
池州网站优化的材料中,“预处理”也被简单地称为“索引”,因为索引是预处理中最重要的部分。
搜索引擎蜘蛛抓取原始页面,不能直接用于查询排名处理。搜索引擎数据库中的页面数量超过了万亿。用户输入搜索词后,排名程序会实时分析这么多页面的相关性。计算负载过大,不可能在1秒或2秒内返回排名结果。所以爬行到页面必须进行预处理,为最终的查询排名做好准备。
与爬行一样,预处理是在后台完成的,而用户在搜索时并不知道它。
目前的搜索引擎仍然基于文本内容。爬行器捕获的页面的HTML代码,除了用户可以在浏览器上看到的可见文本之外,还包含大量HTML格式标记、JavaScript程序和其他不能用于排名的内容。在搜索引擎预处理中要做的第一件事是从HTML文件中删除标记和过程,并提取可用于排序处理的页面文本内容。