信息内容安全管理及应用
上QQ阅读APP看书,第一时间看更新

4.2.4 汉语的语义特征抽取

1.汉语分词

汉语是一种孤立语,不同于印欧语系的很多具有曲折变化的语言,汉语的词汇只有一种形式而没有诸如复数等变化。此外,汉语不存在显式(类似空格)的词边界标志,因此需要研究中文(汉语和中文对应的概念不完全一致。在不引起混淆情况下,文本未进行明确区分而依照常用习惯选择使用)文本自动切分为词序列的汉语分词技术。汉语分词方法最早采用了最大匹配法,即与词表中最长的词优先匹配的方法,依据扫描语句的方向,可以分为正向最大匹配(Maximum Match,MM)、反向最大匹配(Reverse Maximum Match,RMM)以及双向最大匹配(Bi-directional Maximum Match,BMM)等多种形式。

梁南元的研究结果表明,在词典完备、不借助其他知识的条件下,最大匹配法的错误切分率为1次/169字~1次/245字。该研究实现于1987年,以现在的条件来看当时的实验规模可能偏小,另外,如何判定分词结果是否正确也有较大的主观性。最大匹配法由于思路直观、实现简单、切分速度快等优点,应用较为广泛。采用最大匹配法进行分词遇到的基本问题是切分歧义的消除问题和未登录词(新词)的识别问题。

为了消除歧义,研究人员尝试了多种人工智能领域的方法,如松弛法、扩充转移网络、短语结构文法、专家系统方法、神经网络方法、有限状态机方法、隐马尔科夫模型、Brill式转换法等。这些分词方法从不同角度总结歧义产生的可能原因,并尝试建立歧义消除模型,达到一定的准确度。然而,由于这些方法未能实现对中文词的真正理解,也没有找到一个可以妥善处理各种分词相关语言现象的机制,因此目前尚没有广泛认可的完善的消除歧义的方法。

未登录词识别是汉语分词时遇到的另一个难题。未登录词也称为新词,是指分词时所用词典中未包含的词,常见的有人名、地名、机构名称等专有名词,以及各专业领域的名词术语。这些词不包含在分词词典中,当其又对分类有贡献时,就需要考虑如何进行有效识别。孙茂松、邹嘉彦的相关研究指出,在通用领域文本中,未登录词对分词精度的影响超过了歧义切分。

未登录词识别可以从统计和专家系统两个角度进行:统计方法从大规模语料中获取高频连续汉字串,作为可能的新词;专家系统方法则是从各类专有名词库中总结相关类别新词的构建特征、上下文特点等规则。当前对于未登录词的识别研究相对于歧义消除更不成熟。

孙茂松、邹嘉彦认为分词问题的解决方向是建设规模大、精度高的中文语料资源,以此作为进一步提高汉语分词技术的研究基础。

对于文本分类应用的分词问题,还需要考虑分词颗粒度问题。该问题考虑存在词汇嵌套情况时的处理策略。例如“文本分类”可以看作是一个单独的词,也可以看作是“文本”和“分类”两个词。应该依据具体的应用来确定分词颗粒度。

2.汉语亚词

在亚词级别,汉语处理也存在一些与英语不同之处。一方面,汉语中比词级别更低的文字其组成部分是字,与英文中单词含有的字母数量相比偏少,词长度以2~4个字为主。对搜狗输入法中34万条词表进行统计,不同长度词所占词表比例分别为两字词35%,三字词34%,四字词27%,其余长度共4%。

另一方面,汉语包含的汉字数量远远多于英文字母数量,(GB 2312-1980)《信息交换用汉字编码字符集》共收录6763个常用汉字(GB 2312-1980)另有682个其他符号,(GB 18030-2005)《信息技术中文编码字符集》收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字),该标准还是属于收录汉字较少的编码标准。在实际计算中,汉语的2元模型已超过了英文中5元模型的组合数量67632(45,738,169)>265(11,881,376)。

因此,汉语采用n元模型就陷入了一个两难境地:n较小时(n=1)缺乏足够的语义表达能力,n较大时(n为2或3)则不仅计算困难,而且n的取值已经使得n元模型的长度达到甚至超过词的长度,又失去了英文中用以弥补错误拼写的功能。因此,汉语的n元模型往往用于其他用途,在中文信息处理中,可以利用二元或三元汉字模型来进行词的统计识别,这种做法基于一个假设,即词内字串高频同现,而并不组成词的字串低频出现。

在网络内容安全中,n元模型也有重要的应用,对于不可信来源的文本可以采用二元分词方法(即二元汉字模型),例如“一二三四”的二元分词结果为“一二”“二三”和“三四”。这种表示方法可以在一定程度上消除信息发布者故意利用常用分词的切分结果来躲避过滤的情况。