基于关键短语的文本分类研究

phantom

浏览: 160002 次

最近访客更多访客>>

namezhou

pistolove

jones868

cxp111

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

算法体育领域模型网页游戏数据结构

基于关键短语的文本分类研究
刘华
(暨南大学华文学院/海外华语研究中心，广州 510610)
摘要: 文本分类的进一步改进不在算法方面，应该立足于影响文本分类最底层、最根本的因素：文本表示中的特征项，提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语，在表示文本时，能将文本的内容特征（如主题类别）鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点，能克服向量空间模型和贝叶斯假设的缺点，更适合作为文本表示的特征，有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据，对关键短语进行了界定，通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上（共15个大类，244个小类），与以词为特征的文本分类相比，以关键短语为特征的文本分类的大类微平均提高了3.1％，小类微平均提高了15％。
关键词: 文本分类;关键短语;文本表示;特征项
Text Categorization Based on Key Phrases
Liuhua
(College of Chinese Language and Culture, Jinan University, Guangzhou, 510610)
Abstract: Improvement in text categorization lies not on algorithm of classing model, but on the fundamental element: integrated and independent feature of text representation. Key Phrases are phrase that have strong text representation function, can characterize text content such as subject and kind. With steady structure, integrated meaning and statistical significance, Key Phrases can overcome the limitation of VSM (Vector Space Model) and NB (Naive-Bayes), are fit for feature of text representation, and are propitious to improving effect of text categorization. From linguistics, cognitive psychology and computational linguistics, we searched the base of theory of Key Phrases' advantage, defined Key Phrases, and acquired them by extracting key words labeled by specialist in web pages. The experiment proved that Key Phrases are fitter for feature of text representation than words: MicroF1 increase of 3.1 percent of parent- category, MicroF1 increase of 15 percent of sub- category.
Key words: text categorization; Key Phrases; text representation; feature
文本分类的理论研究比较成熟，而且也出现了一些初步的应用系统。文本分类的研究主要围绕算法方面进行，如特征提取、权重计算、分类模型的算法的分析与改进。相对来说，文本分类需要的资源方面研究的较少，如文本表示中特征项的粒度选择和获取，特别是概念、短语、词和字究竟哪个更适合作为文本表示的特征项的问题缺乏系统的研究。我们认为文本分类的进一步改进不在算法方面，应该立足于影响文本分类最底层、最根本的因素：文本表示中的特征项，文本分类的改进应该专注于提高特征项的完整独立程度。
相对于字、词和N元组，关键短语（Key Phrases）结构稳定、语义完整、统计意义较强，更有利于表达文本内容特征，提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理据；对关键短语进行了界定；通过抽取网页上专家标引的关键词构建了共32万词条的含关键短语的大词语表；实验证明在约3万篇测试集上（共15个大类，244个小类），与以词为特征的文本分类相比，以关键短语为特征的文本分类的大类微平均提高了3.1％，小类微平均提高了15％。
1 文本分类算法改进的分析
基于统计的分类算法是主流，主要包括以下几种分类模型：相似度模型（Rocchio、K-近邻）、概率模型（贝叶斯）、线性模型（LLSF、SVM）、非线性模型（决策树、神经网络）、组合模型。对于这些分类算法，国内外很多研究者进行了客观评测（Yang，1999；Joachims，1998；He，2000；Tsay，2000；庞剑锋，2001；王灏，2003；李保利，2003；周雪忠，2003）。
很多实验证明无论分类算法如何改进，分类效果总难以提高，而且众多分类算法在训练集充分的情况下，几乎没有什么区别。在周雪忠的实验中，统计数据表明词频特征表示的TFIDF/Rocchio的分类准确率在测试集相对充分时高于SVM，在特征表示和分类器相结合的实验中，TFIDF/Rocchio（W）取得了最好的效果，最后他得出结论，采用相对高维的特征表示（如词）和简单的分类方法（如TFIDF/Rocchio）即可达到理想的分类性能要求。另外，Yiming Yang和Xin Liu（1999）对五种文本分类方法进行了受限的统计显著性测试研究：支持向量机（SVM）、k-近邻（KNN），神经网络（NNet）、线性最小平方拟合（LLSF）映射和朴素贝叶斯（NB）。结果表明当训练集平均，每个类中的正例数目较少时（少于10），SVM、KNN和LLSF比NNet、NB显然要好，而当处理大分类（超过300个正例样本）时所有的分类方法性能相当。这些都证明在算法改进提高分类效果的基础上，文本分类效果的进一步提高已经不能单纯依靠算法了。
在基于统计的文本分类方法中，向量空间模型基于这样一个关键假设：文章中词条出现的顺序是无关紧要的，他们对于文档的类别所起的作用是相互独立的。但实际上，句子中词条之间远不是独立的，同样的词条集合，组合顺序不同，其表达的含义也不同。由此，向量空间模型一个很大的缺陷在于它没有考虑文本上下文间的语义关系和潜在的概念结构（如词汇间的共现关系、同义关系等），特征项之间独立性不够，不能充分反映出文本总体面貌。在概率模型中，也存在类似的贝叶斯假设，即特征之间被假定为是相互条件独立的。
正是因为从根本上难以克服贝叶斯假设和向量空间模型的先天缺陷，因此，基于其之上的很多算法准确率都不高。最基本最有效的改进应该是从向量空间模型和概率模型的文本表示入手，提高特征项之间的独立性，比如用语义概念、词汇之间的互信息或搭配来满足特征项的独立性假设。例如，"医药"词语只会归类到"医药" 类，"板块" 词语则倾向于归入到"地理"类，"医药板块"短语语义更独立完整，更适合表示文本内容，可准确分到"经济_股市基金"类。
这在汉语中体现得尤为明显。由于汉语是语义型语言，和英语相比，更加讲究意合，形式化程度较低，符号之间的搭配受规则限制较少，位置灵活自由，受潜在语义的制约。因此，向量空间模型和贝叶斯假设的先天缺陷可能还要放大些，在英语中表现较好的统计方法在汉语可能还要打些折扣。
既然众多实验证明了文本分类改进的方向不在算法上，统计算法难以从根本上克服贝叶斯假设和向量空间模型的先天缺陷。因此，我们认为文本分类的改进应该立足于影响文本分类最底层、最根本的因素：文本表示中的特征项。文本分类的改进应该专注于提高特征项的完整独立程度。
目前，文本分类中表示文本特征的特征项包括字、词、N元串、短语和语义概念。从理论上来说，应该是长的短语（句法级）优于词（词语级），语义概念（语义级）优于短语。但由于目前自然语言处理水平的限制，多数信息处理的应用系统，如文本分类和信息检索系统，采用词作为特征，少见的系统采用N元组（n-gram）（戴保存，2000；宋枫溪，2004；周新栋，2005，王映，2005），目前的结论倾向于认为以N元组为特征项比以词为特征项的分类效果基本相近或有所下降。O.Zamir也通过实验说明了在英语中短语由于其"固定性"和"有序性"而优于固定长度的低价N元字符串；也有一些系统采用字作为特征（曹素丽，1999；王梦云，2004），但这只会提高速度，不会提高准确度；还有一些则利用语义词典（Hownet、Wordnet或同义词词林）进行特征的语义概念表示（战学刚等，2000；李莼，2003；党齐民，2004；徐建斌，2005）或进行潜在语义索引（林鸿飞，2000；曾雪强，2004）和语义SVM表示来改善分类效果（代六玲，2004），但语义资源获得较难，覆盖度不够，而且算法复杂度较高。
总的说来，相对于字、词和N元组，短语结构稳定，具有一定的凝固性；在大规模真实文本中具有一定的流通度，并非临时性的组合，可重用性强，具有统计上的意义；表意完整单一、所指明确，在意义上有一定的完整性和专指性。和语义概念相比，短语获得比较容易。因此，短语更适合作为文本分类的特征项，有利于表达文本内容特征。
2 短语优势的理据
在语言学、认知心理学和言语习得、计算语言学等方面，我们可以找到短语优势理论上的依据。
2.1 语言学上关于"词组本位"的论述
朱德熙先生明确提出了"词组本位"的思想，认为语素和词、短语、句子这三级语法单位中，语素、词、短语都是组成关系，即语素组成词，词组成短语，而短语和句子则是实现关系。汉语三级语法单位形式上存在连续性，没有天然分隔界限，在构造上基本采用相同模式。短语处于静态单位（语素、词）和动态单位（词和短语结合形成的小句和句子）的交接处（吕叔湘），在内部结构上，短语和词发生关系，在外部功能上则和句子关系密切。短语兼具结构单位和功能单位双重角色。选择短语作为语法描述系统的切入点，对词的属性判断可以直接在构成短语时得到检验，对句子的分析理解也可转化为对短语的层层剖析。短语本位语法体系以短语构造规律的研究辐射对词和句子性质的探求，理顺了三级语法单位间的关系。
2.2 计算语言学上的"短语方法"
乔姆斯基认为人的语言知识的基础部分包括语法规则和词典两个部分（Chomsky，1965）。近年来，计算语言学家认识到不能把语言知识严格地分为词典和语法规则两部分。（Wilensky，1984）提出了"短语方法"，提出把短语和词一样放到词典中，Zernick和Dyer（1987）则主张把能产的和非能产的短语都放到词库中，甚至主张不要语法规则，用短语库代替语法规则。机器词典中除了收入普通的词之外，还需要收入一些较凝固的短语，如世界著名的机器翻译公司SYSTRAN的汉英机器翻译系统的词典规模达到60万，其中就收入了大量的短语（Yang，J. & Gerber，L.，1996）。
短语的"内部结构比较稳定，往往作为一个整体和句子中的其它成分发生作用，并且它的构造原则和句子的构造原则也基本一致"（周强，1997）。在计算语言学界，目前的一个主要领域是对短语的研究，比如短语的自动划分和标注或者组块分析。
2.3 认知心理学上的"语块"与"长串切分"
1956年Miller指出短时记忆的容量是7±2个单位，这就是记忆广度（ chunk）。语块被看作是记忆的单位，它因人们认知结构和以往经验的不同而有大有小。虽然短时记忆容量很小，但人们可以借助自己的已有知识和经历对信息进行组块，大脑采取最大限度扩大存储单位的方法，即采用长串切分的方法，使得信息迅速、高效地编码，以语块形式储存的信息也便于日后检索和提取，这便是记忆的组块效应。
认知心理学家也从传统的语义学所定义的"词位"角度进行研究，认为语言中词和短语的整体性识别容易形成反应模式。Freeddle（1979）的研究证明，在模式反应中语言反应时间并不随单位的长度增加而增加。Osgood和Hoosain（1974）的研究也说明，熟悉的复合名词的识别速度与同样长度和频率的单词识别速度相同。因此，在相同反应时间控制下，加大识别单位的长度，更有利于语言理解过程的进行。
在言语习得中，"词汇短语" 是"一串作为整体储存在脑中的词，可以以预制板块的形式被提取和使用，其形式可以原封不动，或是稍作改变" （Willis，2000）。研究发现，在母语学习者的言语表述中很大一部分是词汇短语，词汇短语对语言学习者语言的流利度和地道性起着重要作用（Skehan，1999；Pawley、Syder，1983；Widdowson，1989；Wong Fillmore，1976）。
3 关键短语的界定和获取
3.1 关键短语的界定
简单地说，关键短语是具有强文本表示功能的特征短语。所谓强文本表示功能，是指在文本表示时，能将文本的内容特征（例如领域类别、主题思想、中心意义等）鲜明地表示出来。例如，常见的虚词性成分（如"总而言之"）的文本表示功能较弱，而一些领域性强的体词性成分（如"封闭式基金"）则文本表示功能较强。具体地说，可以从三个角度来界定关键短语：
[1] 结构上：
结构较稳定，具有一定的凝固性。
[2] 语义上：
    表意完整单一、所指明确，在意义上有一定的完整性和专指性。
[3] 统计上：
在大规模真实文本中具有一定的流通度，并非临时性的组合，可重用性强，具有统计上的意义。
从关键短语的定义及其三个界定以及词与短语的界限模糊性来考虑，我们定义的关键短语是包括短语和词的，只不过由于"强文本表示功能"和"语义的完整性和专指性"的限定，词占的比例较小。
当然，上面三个界定还需具有可操作性，我们下文将会利用文本分类的特征提取方法提取和聚类关键短语，进一步对关键短语作出形式化与定量化的界定。
3.2 关键短语与短语
关键短语当然是短语。但通常所说的短语范围很广，包括三类：自由短语、固定短语和类固定短语（或半固定短语）。自由短语多是一些临时性的组合，如"群众的智慧、听不明白、讨论问题、所提的意见、开会前、这几个"等，通常也叫非固定短语。这些短语中的成分只要符合语义和句法上选择性的要求，即可自由替换，但在真实文本中的统计意义不强，用它们来表示文本特征显然并不适合，因此，自由短语首先被排除在关键短语之外。
固定短语的内部构成成分相对稳定而不能随意替换，也可看作是短语化了的词，主要是成语，还包括口语色彩较浓的惯用语，如"闭门羹、露马脚"。它们一般都收入进了词表。固定短语，如成语和惯用语，大多古已有之，多出自古代的作品、故事传说（走马观花、刻舟求剑）或现当代的固定搭配（百花齐放、力争上游、露马脚）。它们一般具有表意的双层性特点，其整体意义和字面意义不一致，使人产生联想，运用起来能收到生动、形象、言简意赅、耐人寻味的修辞效果。这显然也不符合关键短语的表意完整单一、所指明确的特点，基本上也被排除在外。
还有一些介于二者之间的，这些处于模糊地带的半固定短语，或者称之为词语搭配（collocation）或词汇化短语（lexical phrase），如"可视电话、社会效益、规章制度、浮动利率"等，这些组合有自己的语法结构，也可以用规则加以描述。它们在被翻译成另一种语言时，经常不能用词对词翻译的方式，说明这些短语在结构上具有一定的凝固性，在意义上有一定的完整性和专指性。
半固定短语正是我们需要重点关注的对象。和词、固定短语相比，半固定短语具有更强的语义单一性，往往语义结构稳定，没有歧义，能够更好地表达或指向语义概念。相反，词则灵活性更大，语义结构不够稳定，往往含有歧义。和自由短语、分句或句子相比，半固定短语又具有结构稳定的优势，而且具有统计学上的意义。半固定短语不仅具备自由短语、分句或句子所不具有的稳定性，而且具备词、固定短语所没有的语义单一性，很适合表达文本内容特征。
命名实体、本体、术语的基本特征都是领域相关性，语义专一完整、结构固定，它们都是关键短语的一部分。
在情报学上，主题词又称叙词（即正式主题词），是在标引与检索档案时，主题词表中规定用于表达档案主题概念的词语。文献标引中关键词是指出现于论文标题，摘要或正文中，对表征论文主题内容具有实际意义的词语。关键词是一种非标准化的自然语言，是非正式主题词。从二者定义来看，它们的主要特征也是领域（主题）相关性。根据我们对关键短语的界定，也应该是关键短语的一部分。而且，文献标引中的关键词正因为其是一种非标准化的自然语言，与命名实体、本体、术语和主题词的严格科学性和固定来源不同，它来源很广，数量很多，将会是关键短语主要的构成来源。
3.3 关键短语的获取
目前国内外有许多基于规则、统计或规则统计结合的短语发现方法，如CHURCH、赵军、周强、孙宏林、孙茂松、黄昌宁、李素健等。主要用到的方法包括：类词语切分边界确定的，基于HOWNET、知识图、最大熵、SVM、决策树、神经元网络或隐马尔科夫模型的，统计与错误驱动相结合的，等等。在词语的关键程度计算（文本分类中的权重计算）方面也提出了一些算法，如Bootstrapping、互信息、TFIDF、最大熵，等等。
目前，我们主要通过大规模地抽取门户网站网页上专家标引的"关键词"来获得原始的关键短语。"关键词"是对一个网页主题的描述词语，是文本主题表示功能强的词语，多为短语，基本符合我们对关键短语的定义。一般一个网页约三个关键词，例如一篇题为《安然高官仍受调查前主席秘书承认犯内部交易罪》网页的关键词为"安然内部交易罪"。这些词语往往结构固定、语义完整，是领域中的关键短语，如"保修证明书、手机操作系统、精确轰炸"。
抽取时只针对网页中主题性的"关键词"链接，如"<meta name="keywords" content="安然内部交易罪">"，并非标题性的链接，如"<meta name=keywords content="萨达姆辩护律师借口伊拉克骚乱要求推迟复审">"（主题性和标题性的链接在网页中很容易区分，在网页的不同位置）。而且，抽取后还需利用"长度+频次"的方法进行排错处理，方法如下（以经济类抽取的关键词为例）：在17058个词语中，词次大于或等于4的词语，由于是多次出现，避免了笔误、超常词语或标题性句子（如"虐人"、"萨达姆辩护律师借口伊拉克骚乱要求推迟复审"）等偶尔出现的出错情况，百分之百正确。词次小于4特别是词次为1的词语，有一些是上面提到的笔误、超常词语或标题性句子，但比例很小，在4079个词语中总共发现了11个，大多是形如"萨达姆辩护律师借口伊拉克骚乱要求推迟复审"这样标题性的小句，词次都小于等于2（基本上为1）。因此，对从关键词中抽取的所有类的词语，我们只对词次小于等于2的词语进行了排错，结果表明错误率等于0.25%。
超大规模层级分类语料库时间跨度为4年（2002－2005），约60万个网页，6亿字， 15个大类，层级类别体系最深为四级，如"科技_数码_视频_数字电视"，类目总共244个。从60万个的57万个网页中（3万为部分测试集）抽取出其中已标注的关键词，总共229237个词条，按原来网页的主题属性存储进词表，形成15个大类的领域词表（按层级小类形成244个领域词表）。
虽然这些"关键词"文本表示功能较强，但由于网站标引的非严格性，仍然需要结合关键短语的定义，利用文本分类中的特征选择方法进行进一步的筛选。
公式一：训练时，关键词在类中的权重计算公式（陈克利，2003）

其中，，是类含有的所有词的次数之和，是词i在类出现的次数；，其中m为类别数；表示训练语料中出现词的次数，N是训练语料中所有词出现次数之和；n >= 1。
由于无法进行召回率的计算，只计算了准确率。以经济领域为例，分别取聚类后（32万底表，n=3）的前1000、2000、3000、4000、5000个词语，人工进行评测，但这种人工评价方法主观性较强。评价结果如下表：
表1 准确率
领域正确词数抽取到的总词数准确率
经济 962 1000 96.2%
1916 2000 95.8%
2870 3000 95.6%
3814 4000 95.3%
4737 5000 94.7%
4 基于关键短语的文本分类实现
4.1 分类算法选择
面对众多的分类算法，选择一个适合自己的算法是个必须考虑的问题。考虑到我们面对的是大规模实时更新的网页语料，分类算法的速度至关重要，简便快捷是其首要条件。
从上面第一节的分析可以看到，训练集充分和高维特征表示是分类高性能的关键（周雪忠，Yiming Yang、Xin Liu），文本分类的关键在于如何满足向量空间模型和概率模型的独立性假设。实际上，这都是文本表示的问题。相对于词，关键短语是复杂特征项，包含更丰富的语言学信息，如句法搭配、语义制约，自足性、独立性更强；充分的6亿字语料集（训练集5.7亿），则更能保证关键短语的出现及其出现语境，部分解决数据稀疏问题。二者都有助于文本表示的合理有效。
考虑到上面的因素，本文采用高维的关键短语特征项结合简单的VSM相似度计算的分类方法进行文本分类。VSM相似度判定采用夹角余弦法。
4.2 训练集、测试集和测试方法
语料来自上文提到的超大规模层级分类语料库，共6亿字，分为15个大类，244个层级小类，约60万篇XML文档。
表2 15类语料
类别文件数类别文件数类别文件数类别文件数
游戏 22843 旅游 18471 汽车 21745 教育 24405
经济 40115 文艺 14248 体育 96120 生活男女 19382
科技 53126 时政_国际 59130 娱乐 23905 时政_社会 42559
房产 19573 时政_国内 119695 时政_军事 21743 总计 597060
训练集类别构成基本上同比例等于总语料类别，共约57万篇XML文档。
测试集源于同样的语料库，由于训练集太大，层级小类和兼类需要人工校对，工作量很大，也难以保证校对的客观性和一致性。因此，测试只采用了约3万篇，和训练集的比例约20：1。测试语料有部分已经人工校对，2862篇文档已标记兼类，约占总测试集的十分之一。分类产生兼类时，这二类往往都可以作为文档的类目，较少存在主次之分。
测试时采用如下方法打分：
表3 测试打分方法
专家分类系统分类得分专家分类系统分类得分
K1 K1 1 K1，K2 K2 0.7
K1 K1，Kx 0.85 K1，K2 K1，Kx 0.7
K1 Kx，K1 0.7 K1，K2 Kx，K2 0.55
K1，K2 K1，K2 1 K1，K2 Kx，K1 0.4
K1，K2 K2，K1 0.85 K1，K2 K2，Kx 0.4
K1，K2 K1 0.85
其中，K1代表专家分类的第一个大类，K2代表专家分类的第二个大类，Kx代表分类系统产生的其它分类结果。
测试量化指标采用准确率（P）、召回率（R）、综合分类率（F1）及其微平均和宏平均的测试参数（限于篇幅，测试参数的详细解释及计算公式请参考SEWM2005公布的中文网页分类评测指南，网址："http://www.cwirf.org/Evaluation/CCT.html"）。
4.3 分类算法实现
本文采用高维特征项结合简单的VSM相似度计算的分类方法（下称为SIM）进行文本分类。分类时采用左向最大匹配法切分，未进行未登录词识别和消岐处理。词频统计时并未利用HTML位置标记进行加权，只对标题词语计数乘以3。
训练时，关键词在类中的权重计算公式采用公式一。
公式二：测试时，关键词在文档中的权重计算公式（陈克利，2003）

其中，，是类含有的所有词的次数之和，是词i在类出现的次数；，表示文本d含有的所有词的次数之和，是词i在文本d中出现的次数；，其中m为类别数；表示训练语料中出现词的次数，N是训练语料中所有词出现次数之和；n >= 1。
公式三：相似度计算，采用夹角余弦法

5 基于关键短语的分类结果分析
如上文所述，本分类系统的主要特点是从向量空间模型和概率模型的文本表示入手，试图提高特征项之间的独立性，使用关键短语来满足特征项的独立性假设。
一般分词采用的底表是通用分词系统的底表（下称8万常用词语表），较少关键短语，或者没有专指性强区别度高的关键短语。我们构建的大词语表包含大量关键短语（下称32万词语表）。
我们分别采用8万常用词表和32万词语表对语料切分，根据第四节的方法训练得到各自的类特征向量。基于8万常用词表而构建的类特征向量的特征项主要是词，以词作为文本表示的特征；基于32万词语表而构建的类特征向量的特征项则主要是关键短语，以关键短语作为文本表示的特征。最后采用第四节的方法进行文本分类。
在该对比实验中，训练集和测试集、训练方法和测试方法、测试平台都一样，只有作为文本表示的特征项（词和关键短语）是变量，我们对比实验的目的也就是力图通过文本分类来证明关键短语比词更适合作为文本表示的特征。
下表是对比测试的结果。"大类"表示自动分类时只分到大类，"层级分类"表示自动分类时分到详细的小类，如"经济_证券资讯_外汇市场"。
表4 特征项（词、关键短语）对分类影响的总体比较
大类层级分类
微平均宏平均微平均宏平均
P=R=F P R F1 P=R=F P R F1
词（8万） 89.7 81.9 85.3 82.6 77.8 84.1 70.7 73.4
关键短语（32万） 92.8 88.6 88.7 88.1 92.8 89.6 78.1 81
差 3.1 6.7 3.4 5.5 15 5.5 7.4 7.6
    从表中可以发现，大类分类效果微平均只提高了3.1%，宏平均F1值则提高了5.5%。但特征本身（词语表）对于层级小类的影响较大，其中宏平均F1值提高了7.6%，微平均则提高了15%。
    对于大类和层级小类的提高幅度的差异，原因分析如下：
在进行大类训练时，训练集很大，而进行层级小类训练时，训练集则显著下降，类别之间也不均匀，有的类别训练文本数只有几十个。因此，大类训练时即使只是基于8万词语表切分结果，训练效果也影响不大；而层级小类训练时，由于受训练量和特征粒度的双重影响，因此差别较大。
当进行大类分类时，由于各大类之间的相似度较小，8万通用词表中的特征项（词）已经足以区别开大类了。例如，体育类特征项"球队、比赛、冠军……"和经济类的特征项"公司、市场、利润……"都是8万通用词表中的词，是领域通用词，多是词，已经足以区分开体育类和经济类。因此采用短语作为特征的分类结果提高幅度并不很大。
但在进行层级分类时，由于同一大类的层级小类之间相似度极大，例如："体育_武术类_跆拳道"、"体育_武术类_拳击"、"体育_武术类_摔跤"和"体育_武术类_柔道"，层级小类之间共享的特征词非常多，这些特征词往往只是8万词语表中的词，当进行大类分类时，由于大类之间的相似度较小，这些8万词语表中共享的特征词已经足以区别开大类了。但在进行层级小类分类时，真正能区分开这些层级小类的特征词往往是频率较低的专业领域词，即领域专类词，大多是关键短语，8万词语表中基本上没有。
参考文献：
1 LewisDD, RinguetteM. A comparison of two learning algorithms for text categorization. Proceedings of SIAIR94, 3rd annual symposium on document analysis and information retrieval. LasVegas, NV, 1994.81-93.
2 Y. Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, 1999,1(1/2): 67-88.
3 Yiming Yang, Jan O. Pederson. A comparative study on feature selection in text categorization. Proceedings of ICML-97, 14th international conference on machine learning. Nashville, TN, 1997, 412-420.
4 Yiming Yang, Jan O. Pederson. A re-examination of text categorization methods. Proceedings on the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval: 42-49.
5 MIYAKE A. Working memory: The past, the present, and the future. In: Osaka N. The brain and working memory. Kyoto: Kyoto University Press, 2000: 311-329.
6 ENGLE R W. Working memory capacity as executive attention. Current Directions in Psychological Science, 2002, 11(1): 19-23.
7 刘华. 超大规模分类语料库构建. 现代图书情报技术，2006，1：71-73.
8 刘华. 基于语料库的领域词语聚类C#实现. 计算机工程与应用，2005，41（36）：167-169
9 赵世奇等. 基于类别特征域的文本分类特征选择方法. 中文信息学报，2005，19（6）：21-27
10 代六玲. 一种文本分类的在线SVM学习算法. 中文信息学报，2005，19（5）：11-16
11 曹素丽等.基于汉字字频向量的中文文本自动分类系统.山西大学学报(自然科学版),1999,22(2):144-149.
12 陈克利.基于大规模真实文本的平衡语料分析与文本分类方法.Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.
13 周雪忠.中文文本分类特征表示及分类方法比较研究[C].Advances in Computation of Oriental Languages.北京：清华大学出版社,2003.

刘华，暨南大学华文学院/海外华语研究中心，博士，讲师，主要研究领域为计算语言学，信息检索。
地址：广州市广园东路暨南大学华文学院华文教育系，邮编：510610。
电话：02035577201，13826432689。
E-mail：liuhua0461@sina.com，liuhua7586@blcu.edu.cn。

分享到：