中文分词技术算法详解

发布时间:2019-10-28 14:08:35访问人数:作者:推外网络

  所谓的中文分词,指的就是将一个完整的句子划分为一个个词条的过程。这种词条应当满足某种语言规则,以便于为其建立索引。只有通过这样的方式,才能完成对一种语言的分析和检索。

  


  关键词查询的前提是将查询条件分解成若干关键词。对于英文来说,分词是一件很容易的事。因为空格就是它们天然的分隔符。一个软件可以很轻易地根据英文文本中的分隔符为之切分出一个一个的单词来。然而对于中文来说,情况就复杂多了。主要的问题是中文词与词之间没有分界符,需要人为切分。此外汉语中存在大量的歧义现象,对几个字分词可能有好多种结果。

  

  可是如何来判别分词的好坏呢?如果是人,则可以通过大脑进行分词识别,可是如何才能让机器知道对同组、对句子进行词语的切分呢?因此,可以根据语料库进行总结,获得每个词的出现概率以及词与词的关联信息,这样就可能有效地排除各种歧义,大幅度提高分词的准确性,从而准确地表述查询请求和文档信息。

  

  中文分词技术采用了统计方法和基于规则的方法来识别词边界和专有名词。下面就具体讲述中文分词的方法。

  

  想对中文进行分词,通常情况下有几种方式。

  

(1)单字切分

  

  单字切分,顾名思义,就是按照中文一个字一个字地进行分词。以这样方式切分出来的词再进入索引,称为字索引。很显然,这不是一种很好的分词方式,因为随着索引的增大,相应索引条目的内容会不断增大,严重影响效率。另外,当用户对索引进行检索时,如果用户输入5个字,则相当于要对索引进行5次检索,严重的影响效率。

  

(2)二分法

  

  第一种方式就是无论什么词,都使用二分法来进行切分。所谓二分法,就是指每两个字进行一次切分。如对“北京林业大学”这样一个词组进行二分法切分,则结果如下:

  

  北京/京林/林业/业大/大学

  

  这种切分方式完全不考虑词义、语境,机械地对语句进行处理。虽然结果看起来有些可笑,然而,在很长一段时间内,它一直是中文分词的一种很方便的方式。根据这样分词效果建起来的索引会存有大量垃圾词汇,有些可能是用户根本不可能检索的词。因此,它也不是一种最好的方式。

  

(3)词库分词

  

  一直以来,词库分词被认为是最理想的一种中文分词方式。所谓词库分词其实就是用一个已经建立好的词的集合(按某种算法)去匹配目标,当遇上集合中已经存在的词时,就将之切分出来。例如词库中已经存在了“天涯若比邻”这个词时,分词器就会把它当作一个词条加入索引。

  


  很显然,对于这种分词方式,词库的建立便成了关键。通常,词库的建立需要统计大量的内容,然后根据各种词出现的频率、概率再来进行筛选,最终决定什么词应当放人词库。

  

  另外,一些更加高级的词库还加入了语义和词性的标注,甚至还有不同词的权重。使用这样的词库进行分词的效果应该是很理想的。

  

  在中文信息处理中,自动分词是现代汉语进行句法分析的第一步,是后续语法和语义分析的基础。句法研究组词成句的规律,没有词就无所渭组词成句,因而也就无所谓句法。语义是语言中的概念与概念之间的关系,而词是表达概念的,没有词,就无所谓概念,因而也就无所谓语义研究。

  

  词频统计、作家作品风格学研究、自动标引、自动分类、机器翻译、信息检索、信息抽取等方面的研究,也必须首先分词。在这些应用和研究领域,没有准确高效的分词策略,汉语的进一步分析必将受到严重影响。


标签:网页设计网络推广seo教程
9999+
赞+1
分享:

版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

推外网络 Copyright © 2012-2019. 未经许可,不可拷贝或镜像 沪ICP备19024770号

  • 咨询
  • 电话
  • 首页
  • 关于
  • 返回顶部