页面分析
页面抓取知识搜索引擎工作的一个基础环节,页面抓取回来后并不代表搜索引擎马上就可以先终端用户提供查询服务。因此,搜索引擎还需要对原始页面进行一系列的分析和处理,以迎合用户信息查询的习惯。
搜索引擎首先对存储的原始页面简历索引,在过滤原始页面的标签信息,从中提取出网页中的正文信息;然后,对正文信息进行切词,并建立关键词索引,得到页面与关键字间的对于关系;最后,对所有关键字进行重组,从而简历关键字与页面之间的对应关系。
正文信息提取
网页正文信息的提取实际上就是对网页中非正文信息的过滤。其中,最为重要的就是对网页中的标签信息(例如,HTML标签、JavaScript标签、PHP标签)的过滤。经过标签过滤以后,搜索引擎就可以得到网页的正文信息。
切词/分词
经过对原始页而提取正文信息后,搜索引擎就可以得到页而的实质内容。而为了得到与用户查询相关的数据,搜索引擎还需要对页面中的内容进行切分(也就是我们常说的切词或者分词),从而形成与用户查询条件相匹配的以关键字为单位的信息列表。
每个搜索引擎的切词系统都会存在或多或少的差别,切词系统的优劣主要取决于开发者对语言的理解能力。特别是在中文语言环境里,切词算法直接影响网页内容经过切词处理后会产生什么样的关键字,这些关键字是否与用户的搜索习惯一致。因而,切词的结果直接决定搜索引擎能否提供与用户查询条件相匹配的信息。
在中文环境里.常见的分词方法包括字符串匹配分词及统计分词两种
1)字符串匹配分词是基于一个足够大、足够权威的“词典”上进行的。如果页面上的词与“词典”中的词匹配,则为命中。这样就可以得到一个词或者短语。
2)统计分词是根据相邻的两个(或者多个)字出现的概率判断这两个(或者多个)字组合后是否会形成一个词。统计分词也常常会结合“词典”进行匹配,常用于识别一些新词汇。例如,“迷你倉”等一些在传统中文语言中不存在的词汇。
关键字索引
网页正文信息在经过切词系统处理后,形成了关键字列表。关键字列表中的每条记录都包括了该关键字所在的关键字编号、网页编号、关键字出现次数以及关键字在文档中的位置等信息如图所示
例如,记录1中的关键字K1在页而中出现了3次,对应页面中的A1、A5、A7区域。如下图所示
为了提高对关键字的检索效率,搜索引擎还会为关键字列表建立索引。这样,经过对网页及关键字列表都建立索引后,就可以实现从一个网页快速定位到某一关键字。
例如,网页0经过信息过滤后得到的内容是“中国广东省深圳市”;然后.对内容进行切词后产生关键字“中国”“广东省”“深圳市”,并对关键字建立索引。这样,根据网页0,搜索引擎就可以快速定位到关键字“中国”“广东省”或“深圳市”上。
关键字重组
为了迎合用户寻找信息的习惯,即以关键字为条件寻找与关键字相关的页面。因此,搜索引擎需要建立以关键字为主索引的一个关键字对应多个页面的关系表,即关键字反向索引表。而建立关键字反向索引表最重要的任务及时对所有页面的关键字列表进行重组。
经过对原始页面进行分析、处理后,搜索引擎已经可以根据用户的查询条件返回相应的页面列表。但是,简单的向用户返回这个页面列表,往往不不能满足用户的需要,所以,搜索引擎还会根据页面与用户查询条件相关性的高低在对这个列表进行重新排列,然后把处理后的列表返回给用户。这就是下面将要面向大家介绍的搜索引擎对页面排序的问题。
本文章百度已收录,若发现本站有任何侵犯您利益的内容,请及时邮件或留言联系,我会第一时间删除所有相关内容。