让每一个企业都拥有适合自己的互联网应用方案-合肥巢湖中拓科技   网站首页 > 新闻动态
 
搜索引擎判断中文分词的方法
来源:czwzyh.cn 发布时间:2021/3/18
  池州网站优化告诉大家分词是中文搜索引擎网站独有的方法步骤。搜索引擎网站储存和解决网页页面具体内容及使用者查找全部都是以词为基本的。英文等语言词汇与词汇相互之间有空格符做为自然分割,搜索引擎网站索引系统还可以立即把语句区分为词汇的聚集。而中文词与词相互之间没有其他分隔符,一个语句中的所有字和词全部都是合在一起的。搜索引擎网站必需第一步辨别哪几个字构成一个词,哪几个字实际上就是一个词。例如“瘦身方法”将被分词为“瘦身”和“方式”2个词。
  中文分词方式大部分有两类,一种是依托于字典配对,另一种是依托于统计。
  依托于字典配对的方式就是指,将待剖析的一段汉字与一个事前建成的字典中的词条开展配对,在待剖析汉字串中扫描到字典中现有的词条则配对成功,换句话说切分出一个词汇。
  依照扫描大方向,依托于字典的配对法还可以分为正向配对和逆向配对。依照配对长度优先级的不同,又可以分为最大配对和最小配对。将扫描大方向和长度优先混合,又可以产生正向最大配对、逆向最大配对等不同方式。
  字典配对方式计算简单,其准确度在很大层度上依赖于字典的数据完整性和自动更新状况。
  依托于统计的分词方式指的是剖析大量文本样例,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个词汇。依托于统计的方式的优势是对新出现的词反应更迅速,也有利于消除歧义。
  池州网站优化提示大家依托于字典配对和依托于统计的分词方式各有优劣,实际使用中的分词系统全部都是混合使用两类方式的,迅速高效率,又能识别生词、新词,消除歧义。