`
phantom
  • 浏览: 160002 次
社区版块
存档分类
最新评论

基于关键短语的文本分类研究

阅读更多

基于关键短语的文本分类研究
 刘华
(暨南大学 华文学院/海外华语研究中心,广州 510610)
摘  要: 文本分类的进一步改进不在算法方面,应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。
关键词: 文本分类;关键短语;文本表示;特征项
Text Categorization Based on Key Phrases
Liuhua
(College of Chinese Language and Culture, Jinan University, Guangzhou, 510610)
Abstract:  Improvement in text categorization lies not on algorithm of classing model, but on the fundamental element: integrated and independent feature of text representation. Key Phrases are phrase that have strong text representation function, can characterize text content such as subject and kind. With steady structure, integrated meaning and statistical significance, Key Phrases can overcome the limitation of VSM (Vector Space Model) and NB (Naive-Bayes), are fit for feature of text representation, and are propitious to improving effect of text categorization. From linguistics, cognitive psychology and computational linguistics, we searched the base of theory of Key Phrases' advantage, defined Key Phrases, and acquired them by extracting key words labeled by specialist in web pages. The experiment proved that Key Phrases are fitter for feature of text representation than words: MicroF1 increase of 3.1 percent of parent- category, MicroF1 increase of 15 percent of sub- category.
Key words:  text categorization; Key Phrases; text representation; feature
文本分类的理论研究比较成熟,而且也出现了一些初步的应用系统。文本分类的研究主要围绕算法方面进行,如特征提取、权重计算、分类模型的算法的分析与改进。相对来说,文本分类需要的资源方面研究的较少,如文本表示中特征项的粒度选择和获取,特别是概念、短语、词和字究竟哪个更适合作为文本表示的特征项的问题缺乏系统的研究。我们认为文本分类的进一步改进不在算法方面,应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,文本分类的改进应该专注于提高特征项的完整独立程度。
相对于字、词和N元组,关键短语(Key Phrases)结构稳定、语义完整、统计意义较强,更有利于表达文本内容特征,提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理据;对关键短语进行了界定;通过抽取网页上专家标引的关键词构建了共32万词条的含关键短语的大词语表;实验证明在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。
1 文本分类算法改进的分析
基于统计的分类算法是主流,主要包括以下几种分类模型:相似度模型(Rocchio、K-近邻)、概率模型(贝叶斯)、线性模型(LLSF、SVM)、非线性模型(决策树、神经网络)、组合模型。对于这些分类算法,国内外很多研究者进行了客观评测(Yang,1999;Joachims,1998;He,2000;Tsay,2000;庞剑锋,2001;王灏,2003;李保利,2003;周雪忠,2003)。
很多实验证明无论分类算法如何改进,分类效果总难以提高,而且众多分类算法在训练集充分的情况下,几乎没有什么区别。在周雪忠的实验中,统计数据表明词频特征表示的TFIDF/Rocchio的分类准确率在测试集相对充分时高于SVM,在特征表示和分类器相结合的实验中,TFIDF/Rocchio(W)取得了最好的效果,最后他得出结论,采用相对高维的特征表示(如词)和简单的分类方法(如TFIDF/Rocchio)即可达到理想的分类性能要求。另外,Yiming Yang和Xin Liu(1999)对五种文本分类方法进行了受限的统计显著性测试研究:支持向量机(SVM)、k-近邻(KNN), 神经网络(NNet)、线性最小平方拟合(LLSF)映射和朴素贝叶斯(NB)。结果表明当训练集平均,每个类中的正例数目较少时(少于10),SVM、KNN和LLSF比NNet、NB显然要好,而当处理大分类(超过300个正例样本)时所有的分类方法性能相当。这些都证明在算法改进提高分类效果的基础上,文本分类效果的进一步提高已经不能单纯依靠算法了。
在基于统计的文本分类方法中,向量空间模型基于这样一个关键假设:文章中词条出现的顺序是无关紧要的,他们对于文档的类别所起的作用是相互独立的。但实际上,句子中词条之间远不是独立的,同样的词条集合,组合顺序不同,其表达的含义也不同。由此,向量空间模型一个很大的缺陷在于它没有考虑文本上下文间的语义关系和潜在的概念结构(如词汇间的共现关系、同义关系等),特征项之间独立性不够,不能充分反映出文本总体面貌。在概率模型中,也存在类似的贝叶斯假设,即特征之间被假定为是相互条件独立的。
正是因为从根本上难以克服贝叶斯假设和向量空间模型的先天缺陷,因此,基于其之上的很多算法准确率都不高。最基本最有效的改进应该是从向量空间模型和概率模型的文本表示入手,提高特征项之间的独立性,比如用语义概念、词汇之间的互信息或搭配来满足特征项的独立性假设。例如,"医药"词语只会归类到"医药" 类,"板块" 词语则倾向于归入到"地理"类,"医药板块"短语语义更独立完整,更适合表示文本内容,可准确分到"经济_股市基金"类。
这在汉语中体现得尤为明显。由于汉语是语义型语言,和英语相比,更加讲究意合,形式化程度较低,符号之间的搭配受规则限制较少,位置灵活自由,受潜在语义的制约。因此,向量空间模型和贝叶斯假设的先天缺陷可能还要放大些,在英语中表现较好的统计方法在汉语可能还要打些折扣。
既然众多实验证明了文本分类改进的方向不在算法上,统计算法难以从根本上克服贝叶斯假设和向量空间模型的先天缺陷。因此,我们认为文本分类的改进应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项。文本分类的改进应该专注于提高特征项的完整独立程度。
目前,文本分类中表示文本特征的特征项包括字、词、N元串、短语和语义概念。从理论上来说,应该是长的短语(句法级)优于词(词语级),语义概念(语义级)优于短语。但由于目前自然语言处理水平的限制,多数信息处理的应用系统,如文本分类和信息检索系统,采用词作为特征,少见的系统采用N元组(n-gram)(戴保存,2000;宋枫溪,2004;周新栋,2005,王映,2005),目前的结论倾向于认为以N元组为特征项比以词为特征项的分类效果基本相近或有所下降。O.Zamir也通过实验说明了在英语中短语由于其"固定性"和"有序性"而优于固定长度的低价N元字符串;也有一些系统采用字作为特征(曹素丽,1999;王梦云,2004),但这只会提高速度,不会提高准确度;还有一些则利用语义词典(Hownet、Wordnet或同义词词林)进行特征的语义概念表示(战学刚等,2000;李莼,2003;党齐民,2004;徐建斌,2005)或进行潜在语义索引(林鸿飞,2000;曾雪强,2004)和语义SVM表示来改善分类效果(代六玲,2004),但语义资源获得较难,覆盖度不够,而且算法复杂度较高。
总的说来,相对于字、词和N元组,短语结构稳定,具有一定的凝固性;在大规模真实文本中具有一定的流通度,并非临时性的组合,可重用性强,具有统计上的意义;表意完整单一、所指明确,在意义上有一定的完整性和专指性。和语义概念相比,短语获得比较容易。因此,短语更适合作为文本分类的特征项,有利于表达文本内容特征。
2 短语优势的理据
在语言学、认知心理学和言语习得、计算语言学等方面,我们可以找到短语优势理论上的依据。
2.1 语言学上关于"词组本位"的论述
朱德熙先生明确提出了"词组本位"的思想,认为语素和词、短语、句子这三级语法单位中,语素、词、短语都是组成关系,即语素组成词,词组成短语,而短语和句子则是实现关系。汉语三级语法单位形式上存在连续性,没有天然分隔界限,在构造上基本采用相同模式。短语处于静态单位(语素、词)和动态单位(词和短语结合形成的小句和句子)的交接处(吕叔湘),在内部结构上,短语和词发生关系,在外部功能上则和句子关系密切。短语兼具结构单位和功能单位双重角色。选择短语作为语法描述系统的切入点,对词的属性判断可以直接在构成短语时得到检验,对句子的分析理解也可转化为对短语的层层剖析。短语本位语法体系以短语构造规律的研究辐射对词和句子性质的探求,理顺了三级语法单位间的关系。
2.2 计算语言学上的"短语方法"
乔姆斯基认为人的语言知识的基础部分包括语法规则和词典两个部分(Chomsky,1965)。近年来,计算语言学家认识到不能把语言知识严格地分为词典和语法规则两部分。(Wilensky,1984)提出了"短语方法",提出把短语和词一样放到词典中,Zernick和Dyer(1987)则主张把能产的和非能产的短语都放到词库中,甚至主张不要语法规则,用短语库代替语法规则。机器词典中除了收入普通的词之外,还需要收入一些较凝固的短语,如世界著名的机器翻译公司SYSTRAN的汉英机器翻译系统的词典规模达到60万,其中就收入了大量的短语(Yang,J. & Gerber,L.,1996)。
短语的"内部结构比较稳定,往往作为一个整体和句子中的其它成分发生作用,并且它的构造原则和句子的构造原则也基本一致"(周强,1997)。在计算语言学界,目前的一个主要领域是对短语的研究,比如短语的自动划分和标注或者组块分析。
2.3 认知心理学上的"语块"与"长串切分"
1956年Miller指出短时记忆的容量是7±2个单位,这就是记忆广度( chunk)。语块被看作是记忆的单位,它因人们认知结构和以往经验的不同而有大有小。虽然短时记忆容量很小,但人们可以借助自己的已有知识和经历对信息进行组块,大脑采取最大限度扩大存储单位的方法,即采用长串切分的方法,使得信息迅速、高效地编码,以语块形式储存的信息也便于日后检索和提取,这便是记忆的组块效应。
认知心理学家也从传统的语义学所定义的"词位"角度进行研究,认为语言中词和短语的整体性识别容易形成反应模式。Freeddle(1979)的研究证明,在模式反应中语言反应时间并不随单位的长度增加而增加。Osgood和Hoosain(1974)的研究也说明,熟悉的复合名词的识别速度与同样长度和频率的单词识别速度相同。因此,在相同反应时间控制下,加大识别单位的长度,更有利于语言理解过程的进行。
在言语习得中,"词汇短语" 是"一串作为整体储存在脑中的词,可以以预制板块的形式被提取和使用,其形式可以原封不动,或是稍作改变" (Willis,2000)。 研究发现,在母语学习者的言语表述中很大一部分是词汇短语,词汇短语对语言学习者语言的流利度和地道性起着重要作用(Skehan,1999;Pawley、Syder,1983;Widdowson,1989;Wong Fillmore,1976)。
3 关键短语的界定和获取
3.1 关键短语的界定
简单地说,关键短语是具有强文本表示功能的特征短语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。例如,常见的虚词性成分(如"总而言之")的文本表示功能较弱,而一些领域性强的体词性成分(如"封闭式基金")则文本表示功能较强。具体地说,可以从三个角度来界定关键短语:
[1]  结构上:
结构较稳定,具有一定的凝固性。
[2]  语义上:
    表意完整单一、所指明确,在意义上有一定的完整性和专指性。
[3]  统计上:
在大规模真实文本中具有一定的流通度,并非临时性的组合,可重用性强,具有统计上的意义。
从关键短语的定义及其三个界定以及词与短语的界限模糊性来考虑,我们定义的关键短语是包括短语和词的,只不过由于"强文本表示功能"和"语义的完整性和专指性"的限定,词占的比例较小。
当然,上面三个界定还需具有可操作性,我们下文将会利用文本分类的特征提取方法提取和聚类关键短语,进一步对关键短语作出形式化与定量化的界定。
3.2 关键短语与短语
关键短语当然是短语。但通常所说的短语范围很广,包括三类:自由短语、固定短语和类固定短语(或半固定短语)。自由短语多是一些临时性的组合,如"群众的智慧、听不明白、讨论问题、所提的意见、开会前、这几个"等,通常也叫非固定短语。这些短语中的成分只要符合语义和句法上选择性的要求,即可自由替换,但在真实文本中的统计意义不强,用它们来表示文本特征显然并不适合,因此,自由短语首先被排除在关键短语之外。
固定短语的内部构成成分相对稳定而不能随意替换,也可看作是短语化了的词,主要是成语,还包括口语色彩较浓的惯用语,如"闭门羹、露马脚"。它们一般都收入进了词表。固定短语,如成语和惯用语,大多古已有之,多出自古代的作品、故事传说(走马观花、刻舟求剑)或现当代的固定搭配(百花齐放、力争上游、露马脚)。它们一般具有表意的双层性特点,其整体意义和字面意义不一致,使人产生联想,运用起来能收到生动、形象、言简意赅、耐人寻味的修辞效果。这显然也不符合关键短语的表意完整单一、所指明确的特点,基本上也被排除在外。
还有一些介于二者之间的,这些处于模糊地带的半固定短语,或者称之为词语搭配(collocation)或词汇化短语(lexical phrase),如"可视电话、社会效益、规章制度、浮动利率"等,这些组合有自己的语法结构,也可以用规则加以描述。它们在被翻译成另一种语言时,经常不能用词对词翻译的方式,说明这些短语在结构上具有一定的凝固性,在意义上有一定的完整性和专指性。
半固定短语正是我们需要重点关注的对象。和词、固定短语相比,半固定短语具有更强的语义单一性,往往语义结构稳定,没有歧义,能够更好地表达或指向语义概念。相反,词则灵活性更大,语义结构不够稳定,往往含有歧义。和自由短语、分句或句子相比,半固定短语又具有结构稳定的优势,而且具有统计学上的意义。半固定短语不仅具备自由短语、分句或句子所不具有的稳定性,而且具备词、固定短语所没有的语义单一性,很适合表达文本内容特征。
命名实体、本体、术语的基本特征都是领域相关性,语义专一完整、结构固定,它们都是关键短语的一部分。
在情报学上,主题词又称叙词(即正式主题词),是在标引与检索档案时,主题词表中规定用于表达档案主题概念的词语 。文献标引中关键词是指出现于论文标题,摘要或正文中,对表征论文主题内容具有实际意义的词语。关键词是一种非标准化的自然语言,是非正式主题词。从二者定义来看,它们的主要特征也是领域(主题)相关性。根据我们对关键短语的界定,也应该是关键短语的一部分。而且,文献标引中的关键词正因为其是一种非标准化的自然语言,与命名实体、本体、术语和主题词的严格科学性和固定来源不同,它来源很广,数量很多,将会是关键短语主要的构成来源。
3.3 关键短语的获取
目前国内外有许多基于规则、统计或规则统计结合的短语发现方法,如CHURCH、赵军、周强、孙宏林、孙茂松、黄昌宁、李素健等。主要用到的方法包括:类词语切分边界确定的,基于HOWNET、知识图、最大熵、SVM、决策树、神经元网络或隐马尔科夫模型的,统计与错误驱动相结合的,等等。在词语的关键程度计算(文本分类中的权重计算)方面也提出了一些算法,如Bootstrapping、互信息、TFIDF、最大熵,等等。
目前,我们主要通过大规模地抽取门户网站网页上专家标引的"关键词"来获得原始的关键短语。"关键词"是对一个网页主题的描述词语,是文本主题表示功能强的词语,多为短语,基本符合我们对关键短语的定义。一般一个网页约三个关键词,例如一篇题为《安然高官仍受调查 前主席秘书承认犯内部交易罪》网页的关键词为"安然 内部交易罪"。这些词语往往结构固定、语义完整,是领域中的关键短语,如"保修证明书、手机操作系统、精确轰炸"。
抽取时只针对网页中主题性的"关键词"链接,如"<meta name="keywords" content="安然 内部交易罪">",并非标题性的链接,如"<meta name=keywords content="萨达姆辩护律师借口伊拉克骚乱要求推迟复审">"(主题性和标题性的链接在网页中很容易区分,在网页的不同位置)。而且,抽取后还需利用"长度+频次"的方法进行排错处理,方法如下(以经济类抽取的关键词为例):在17058个词语中,词次大于或等于4的词语,由于是多次出现,避免了笔误、超常词语或标题性句子(如"虐人"、"萨达姆辩护律师借口伊拉克骚乱要求推迟复审")等偶尔出现的出错情况,百分之百正确。词次小于4特别是词次为1的词语,有一些是上面提到的笔误、超常词语或标题性句子,但比例很小,在4079个词语中总共发现了11个,大多是形如"萨达姆辩护律师借口伊拉克骚乱要求推迟复审"这样标题性的小句,词次都小于等于2(基本上为1)。因此,对从关键词中抽取的所有类的词语,我们只对词次小于等于2的词语进行了排错,结果表明错误率等于0.25%。
超大规模层级分类语料库时间跨度为4年(2002-2005),约60万个网页,6亿字, 15个大类,层级类别体系最深为四级,如"科技_数码_视频_数字电视",类目总共244个。从60万个的57万个网页中(3万为部分测试集)抽取出其中已标注的关键词,总共229237个词条,按原来网页的主题属性存储进词表,形成15个大类的领域词表(按层级小类形成244个领域词表)。
虽然这些"关键词"文本表示功能较强,但由于网站标引的非严格性,仍然需要结合关键短语的定义,利用文本分类中的特征选择方法进行进一步的筛选。
公式一:训练时,关键词在类中的权重计算公式(陈克利,2003)
 
其中, , 是类 含有的所有词的次数之和, 是词i在类 出现的次数;  ,其中m为类别数; 表示训练语料中出现词 的次数,N是训练语料中所有词出现次数之和;n >= 1。
由于无法进行召回率的计算,只计算了准确率。以经济领域为例,分别取聚类后(32万底表,n=3)的前1000、2000、3000、4000、5000个词语,人工进行评测,但这种人工评价方法主观性较强。评价结果如下表:
表1  准确率
领域 正确词数 抽取到的总词数 准确率
经济 962 1000 96.2%
 1916 2000 95.8%
 2870 3000 95.6%
 3814 4000 95.3%
 4737 5000 94.7%
4 基于关键短语的文本分类实现
4.1 分类算法选择
面对众多的分类算法,选择一个适合自己的算法是个必须考虑的问题。考虑到我们面对的是大规模实时更新的网页语料,分类算法的速度至关重要,简便快捷是其首要条件。
从上面第一节的分析可以看到,训练集充分和高维特征表示是分类高性能的关键(周雪忠,Yiming Yang、Xin Liu),文本分类的关键在于如何满足向量空间模型和概率模型的独立性假设。实际上,这都是文本表示的问题。相对于词,关键短语是复杂特征项,包含更丰富的语言学信息,如句法搭配、语义制约,自足性、独立性更强;充分的6亿字语料集(训练集5.7亿),则更能保证关键短语的出现及其出现语境,部分解决数据稀疏问题。二者都有助于文本表示的合理有效。
考虑到上面的因素,本文采用高维的关键短语特征项结合简单的VSM相似度计算的分类方法进行文本分类。VSM相似度判定采用夹角余弦法。
4.2 训练集、测试集和测试方法
语料来自上文提到的超大规模层级分类语料库,共6亿字,分为15个大类,244个层级小类,约60万篇XML文档。
表2  15类语料
类别 文件数 类别 文件数 类别 文件数 类别 文件数
游戏 22843 旅游 18471 汽车 21745 教育 24405
经济 40115 文艺 14248 体育 96120 生活男女 19382
科技 53126 时政_国际 59130 娱乐 23905 时政_社会 42559
房产 19573 时政_国内 119695 时政_军事 21743 总计 597060
训练集类别构成基本上同比例等于总语料类别,共约57万篇XML文档。
测试集源于同样的语料库,由于训练集太大,层级小类和兼类需要人工校对,工作量很大,也难以保证校对的客观性和一致性。因此,测试只采用了约3万篇,和训练集的比例约20:1。测试语料有部分已经人工校对,2862篇文档已标记兼类,约占总测试集的十分之一。分类产生兼类时,这二类往往都可以作为文档的类目,较少存在主次之分。
测试时采用如下方法打分:
表3  测试打分方法
专家分类 系统分类 得分 专家分类 系统分类 得分
K1 K1 1 K1,K2 K2 0.7
K1 K1,Kx 0.85 K1,K2 K1,Kx 0.7
K1 Kx,K1 0.7 K1,K2 Kx,K2 0.55
K1,K2 K1,K2 1 K1,K2 Kx,K1 0.4
K1,K2 K2,K1 0.85 K1,K2 K2,Kx 0.4
K1,K2 K1 0.85   
其中,K1代表专家分类的第一个大类,K2代表专家分类的第二个大类,Kx代表分类系统产生的其它分类结果。
测试量化指标采用准确率(P)、召回率(R)、综合分类率(F1)及其微平均和宏平均的测试参数(限于篇幅,测试参数的详细解释及计算公式请参考SEWM2005公布的中文网页分类评测指南,网址:"http://www.cwirf.org/Evaluation/CCT.html")。
4.3 分类算法实现
本文采用高维特征项结合简单的VSM相似度计算的分类方法(下称为SIM)进行文本分类。分类时采用左向最大匹配法切分,未进行未登录词识别和消岐处理。词频统计时并未利用HTML位置标记进行加权,只对标题词语计数乘以3。
训练时,关键词在类中的权重计算公式采用公式一。
公式二:测试时,关键词在文档中的权重计算公式(陈克利,2003)
 
其中, , 是类 含有的所有词的次数之和, 是词i在类 出现的次数; , 表示文本d含有的所有词的次数之和, 是词i在文本d中出现的次数; ,其中m为类别数; 表示训练语料中出现词 的次数,N是训练语料中所有词出现次数之和;n >= 1。
公式三:相似度计算,采用夹角余弦法
 
5 基于关键短语的分类结果分析
如上文所述,本分类系统的主要特点是从向量空间模型和概率模型的文本表示入手,试图提高特征项之间的独立性,使用关键短语来满足特征项的独立性假设。
一般分词采用的底表是通用分词系统的底表(下称8万常用词语表),较少关键短语,或者没有专指性强区别度高的关键短语。我们构建的大词语表包含大量关键短语(下称32万词语表)。
我们分别采用8万常用词表和32万词语表对语料切分,根据第四节的方法训练得到各自的类特征向量。基于8万常用词表而构建的类特征向量的特征项主要是词,以词作为文本表示的特征;基于32万词语表而构建的类特征向量的特征项则主要是关键短语,以关键短语作为文本表示的特征。最后采用第四节的方法进行文本分类。
在该对比实验中,训练集和测试集、训练方法和测试方法、测试平台都一样,只有作为文本表示的特征项(词和关键短语)是变量,我们对比实验的目的也就是力图通过文本分类来证明关键短语比词更适合作为文本表示的特征。
下表是对比测试的结果。"大类"表示自动分类时只分到大类,"层级分类"表示自动分类时分到详细的小类,如"经济_证券资讯_外汇市场"。
表4 特征项(词、关键短语)对分类影响的总体比较
 大类 层级分类
 微平均 宏平均 微平均 宏平均
 P=R=F P R F1 P=R=F P R F1
词(8万) 89.7 81.9 85.3 82.6 77.8 84.1 70.7 73.4
关键短语(32万) 92.8 88.6 88.7 88.1 92.8 89.6 78.1 81
差 3.1 6.7 3.4 5.5 15 5.5 7.4 7.6
    从表中可以发现,大类分类效果微平均只提高了3.1%,宏平均F1值则提高了5.5%。但特征本身(词语表)对于层级小类的影响较大,其中宏平均F1值提高了7.6%,微平均则提高了15%。
    对于大类和层级小类的提高幅度的差异,原因分析如下:
在进行大类训练时,训练集很大,而进行层级小类训练时,训练集则显著下降,类别之间也不均匀,有的类别训练文本数只有几十个。因此,大类训练时即使只是基于8万词语表切分结果,训练效果也影响不大;而层级小类训练时,由于受训练量和特征粒度的双重影响,因此差别较大。
当进行大类分类时,由于各大类之间的相似度较小,8万通用词表中的特征项(词)已经足以区别开大类了。例如,体育类特征项"球队、比赛、冠军……"和经济类的特征项"公司、市场、利润……"都是8万通用词表中的词,是领域通用词,多是词,已经足以区分开体育类和经济类。因此采用短语作为特征的分类结果提高幅度并不很大。
但在进行层级分类时,由于同一大类的层级小类之间相似度极大,例如:"体育_武术类_跆拳道"、"体育_武术类_拳击"、"体育_武术类_摔跤"和"体育_武术类_柔道",层级小类之间共享的特征词非常多,这些特征词往往只是8万词语表中的词,当进行大类分类时,由于大类之间的相似度较小,这些8万词语表中共享的特征词已经足以区别开大类了。但在进行层级小类分类时,真正能区分开这些层级小类的特征词往往是频率较低的专业领域词,即领域专类词,大多是关键短语,8万词语表中基本上没有。
参考文献:
1 LewisDD, RinguetteM. A comparison of two learning algorithms for text categorization. Proceedings of SIAIR94, 3rd annual symposium on document analysis and information retrieval. LasVegas, NV, 1994.81-93.
2 Y. Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, 1999,1(1/2): 67-88.
3 Yiming Yang, Jan O. Pederson. A comparative study on feature selection in text categorization. Proceedings of ICML-97, 14th international conference on machine learning. Nashville, TN, 1997, 412-420.
4 Yiming Yang, Jan O. Pederson. A re-examination of text categorization methods. Proceedings on the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval: 42-49.
5 MIYAKE A. Working memory: The past, the present, and the future. In: Osaka N. The brain and working memory. Kyoto: Kyoto University Press, 2000: 311-329.
6 ENGLE R W. Working memory capacity as executive attention. Current Directions in Psychological Science, 2002, 11(1): 19-23.
7 刘华. 超大规模分类语料库构建. 现代图书情报技术,2006,1:71-73.
8 刘华. 基于语料库的领域词语聚类C#实现. 计算机工程与应用,2005,41(36):167-169
9 赵世奇等. 基于类别特征域的文本分类特征选择方法. 中文信息学报,2005,19(6):21-27
10 代六玲. 一种文本分类的在线SVM学习算法. 中文信息学报,2005,19(5):11-16
11 曹素丽等.基于汉字字频向量的中文文本自动分类系统.山西大学学报(自然科学版),1999,22(2):144-149.
12 陈克利.基于大规模真实文本的平衡语料分析与文本分类方法.Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.
13 周雪忠.中文文本分类特征表示及分类方法比较研究[C].Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.

刘华,暨南大学华文学院/海外华语研究中心,博士,讲师,主要研究领域为计算语言学,信息检索。
地址:广州市广园东路暨南大学华文学院华文教育系,邮编:510610。
电话:02035577201,13826432689。
E-mail:liuhua0461@sina.com,liuhua7586@blcu.edu.cn。

分享到:
评论

相关推荐

    【前端素材】大数据-设备环境监测平台.zip

    大数据技术指的是用于处理和分析大规模数据集的技术和工具。以下是一些常见的大数据技术和工具: Hadoop:Apache Hadoop是一个用于分布式存储和处理大规模数据的开源框架。它包括Hadoop Distributed File System(HDFS)用于数据存储和MapReduce用于数据处理。 Spark:Apache Spark是一个快速、通用的集群计算系统,提供了比MapReduce更快的数据处理能力。它支持内存计算和更多复杂的数据处理流程。 NoSQL数据库:NoSQL数据库(如MongoDB、Cassandra等)则更适用于处理这类数据。 数据仓库:数据仓库是一个用于集成和分析大规模数据的存储系统,一些知名的数据仓库包括Snowflake、Amazon Redshift等。 数据湖:数据湖是一个存储结构化和非结构化数据的存储池,用于支持数据分析和机器学习应用。 机器学习:大数据技术也广泛应用于机器学习领域,支持大规模数据的模型训练和预测分析。 流式处理:针对实时数据处理需求,流式处理技术(如Apache Kafka、Apache Flink)可以实时。

    倍福GSDML-V2.31-Pepperl+Fuchs-PxV100-20210104.xml

    倍福GSDML-V2.31-Pepperl+Fuchs-PxV100-20210104.xml

    【前端素材】大数据-地图数据可视化.zip

    大数据技术指的是用于处理和分析大规模数据集的技术和工具。以下是一些常见的大数据技术和工具: Hadoop:Apache Hadoop是一个用于分布式存储和处理大规模数据的开源框架。它包括Hadoop Distributed File System(HDFS)用于数据存储和MapReduce用于数据处理。 Spark:Apache Spark是一个快速、通用的集群计算系统,提供了比MapReduce更快的数据处理能力。它支持内存计算和更多复杂的数据处理流程。 NoSQL数据库:NoSQL数据库(如MongoDB、Cassandra等)则更适用于处理这类数据。 数据仓库:数据仓库是一个用于集成和分析大规模数据的存储系统,一些知名的数据仓库包括Snowflake、Amazon Redshift等。 数据湖:数据湖是一个存储结构化和非结构化数据的存储池,用于支持数据分析和机器学习应用。 机器学习:大数据技术也广泛应用于机器学习领域,支持大规模数据的模型训练和预测分析。 流式处理:针对实时数据处理需求,流式处理技术(如Apache Kafka、Apache Flink)可以实时。

    使用WADL文件的工具(高分项目).zip

    Java SSM项目是一种使用Java语言和SSM框架(Spring + Spring MVC + MyBatis)开发的Web应用程序。SSM是一种常用的Java开发框架组合,它结合了Spring框架、Spring MVC框架和MyBatis框架的优点,能够快速构建可靠、高效的企业级应用。 1. Spring框架:Spring是一个轻量级的Java开发框架,提供了丰富的功能和模块,用于开发企业级应用。它包括IoC(Inverse of Control,控制反转)容器、AOP(Aspect-Oriented Programming,面向切面编程)等特性,可以简化开发过程、提高代码的可维护性和可测试性。 2. Spring MVC框架:Spring MVC是基于Spring框架的Web框架,用于开发Web应用程序。它采用MVC(Model-View-Controller,模型-视图-控制器)的架构模式,将应用程序分为模型层、视图层和控制器层,提供了处理请求、渲染视图和管理流程的功能。 3. MyBatis框架:MyBatis是一个持久层框架,用于与数据库进行交互。它提供了一种将数据库操作与Java对象映射起来的方式,避免了手动编写繁琐的SQL语句,并提供了事务管理和缓存等功能,简化了数据库访问的过程

    库提供工具,用于检测N +1查询并计算使用Spring和Hibernate生成的查询(高分毕设).zip

    Java SSM项目是一种使用Java语言和SSM框架(Spring + Spring MVC + MyBatis)开发的Web应用程序。SSM是一种常用的Java开发框架组合,它结合了Spring框架、Spring MVC框架和MyBatis框架的优点,能够快速构建可靠、高效的企业级应用。 1. Spring框架:Spring是一个轻量级的Java开发框架,提供了丰富的功能和模块,用于开发企业级应用。它包括IoC(Inverse of Control,控制反转)容器、AOP(Aspect-Oriented Programming,面向切面编程)等特性,可以简化开发过程、提高代码的可维护性和可测试性。 2. Spring MVC框架:Spring MVC是基于Spring框架的Web框架,用于开发Web应用程序。它采用MVC(Model-View-Controller,模型-视图-控制器)的架构模式,将应用程序分为模型层、视图层和控制器层,提供了处理请求、渲染视图和管理流程的功能。 3. MyBatis框架:MyBatis是一个持久层框架,用于与数据库进行交互。它提供了一种将数据库操作与Java对象映射起来的方式,避免了手动编写繁琐的SQL语句,并提供了事务管理和缓存等功能,简化了数据库访问的过程

    node-v12.16.0-x86.msi

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    安全实践-工业互联网安全实践与趋势分析dr.pptx

    安全实践-工业互联网安全实践与趋势分析dr.pptx

    人工智能技术的演进与应用

    人工智能(AI)的演进与应用是一个跨越数十年的历程,它不仅改变了我们的技术景观,也深刻影响了我们的日常生活。PPT详细介绍了AI的历史与演变、AI技术的应用现状、AI伦理、安全与社会责任、AI的未来发展趋势、AI未来发展对人们生活的各种影响。 探索AI的历史渊源,审视其当前应用领域的现状,思考AI伦理、安全与社会责任等重要议题,以及展望AI的未来发展趋势。最后,我们将共同探讨AI与人类共生的未来可能性。AI与人类将共生共创美好未来 AI的训练模式与技术进步,推动了AI的快速发展和应用。 AI技术的应用现状广泛而深入,涵盖了医疗健康、教育、交通与城市规划以及创意产业等多个领域。

    036ssm-jsp-mysql二手手机回收平台系统.zip(可运行源码+数据库文件+文档)

    L文主要是对二手手机回收平台系统进行了介绍,包括研究的现状,还有涉及的开发背景,然后还对系统的设计目标进行了论述,还有系统的需求,以及整个的设计方案,对系统的设计以及实现,也都论述的比较细致,最后对二手手机回收平台系统进行了一些具体测试。 本文以Java为开发技术,实现了一个二手手机回收平台系统。二手手机回收平台系统的主要使用者分为管理员;个人中心、用户管理、手机品牌管理、手机商城管理、手机回收管理、手机估价管理、系统管理、订单管理,前台首页;首页、手机商城、新闻资讯、我的、跳转到后台、购物车,用户;个人中心、手机回收管理、手机估价管理、我的收藏管理、订单管理等功能。通过这些功能模块的设计,基本上实现了整个二手手机回收平台系统的过程。 具体在系统设计上,采用了B/S的结构,同时,也使用Java技术在动态页面上进行了设计,后台上采用Mysql数据库,是一个非常优秀的二手手机回收平台系统。 关键词 :二手手机回收平台系统;Java技术;Mysql数据库;B/S结构

    小程序-63-微信小程序校园失物招领--LW-源码.zip

    提供的源码资源涵盖了小程序应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

    【微信小程序毕业设计】高校校园交友系统开发项目(源码+演示视频+说明).rar

    【微信小程序毕业设计】高校校园交友系统开发项目(源码+演示视频+说明).rar 【项目技术】 微信小程序开发工具+java后端+mysql 【演示视频-编号:262】 https://pan.quark.cn/s/cb634e7c02b5 【实现功能】 个人中心管理,用户信息管理,兴趣爱好管理,公告类型管理,轮播图管理,公告信息管理等

    027ssm-jsp-mysql弹幕视频网站.zip(可运行源码+数据库文件+文档)

    弹幕视频网站是以实际运用为开发背景,运用软件工程开发方法,采用jsp技术构建的一个管理系统。整个开发过程首先对软件系统进行需求分析,得出系统的主要功能。接着对系统进行总体设计和详细设计。总体设计主要包括系统总体结构设计、系统数据结构设计、系统功能设计和系统安全设计等;详细设计主要包括模块实现的关键代码,系统数据库访问和主要功能模块的具体实现等。最后对系统进行功能测试,并对测试结果进行分析总结,及时改进系统中存在的不足,为以后的系统维护提供了方便,也为今后开发类似系统提供了借鉴和帮助。 本弹幕视频网站采用的数据库是Mysql,使用JSP技术开发。在设计过程中,充分保证了系统代码的良好可读性、实用性、易扩展性、通用性、便于后期维护、操作方便以及页面简洁等特点。 关键词:弹幕视频网站,JSP技术,Mysql数据库

    基于java的-117-jspm基于Java的学生综合测评管理系统--LW-源码.zip

    提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

    小程序-72-学生购电小程序-源码.zip

    提供的源码资源涵盖了小程序应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

    大模型时代 最大化CPU价值的优化策略-何普江.pdf

    大模型时代 最大化CPU价值的优化策略-何普江

    node-v16.9.1-linux-armv7l.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    【前端素材】大数据-智慧物流.zip

    大数据技术指的是用于处理和分析大规模数据集的技术和工具。以下是一些常见的大数据技术和工具: Hadoop:Apache Hadoop是一个用于分布式存储和处理大规模数据的开源框架。它包括Hadoop Distributed File System(HDFS)用于数据存储和MapReduce用于数据处理。 Spark:Apache Spark是一个快速、通用的集群计算系统,提供了比MapReduce更快的数据处理能力。它支持内存计算和更多复杂的数据处理流程。 NoSQL数据库:NoSQL数据库(如MongoDB、Cassandra等)则更适用于处理这类数据。 数据仓库:数据仓库是一个用于集成和分析大规模数据的存储系统,一些知名的数据仓库包括Snowflake、Amazon Redshift等。 数据湖:数据湖是一个存储结构化和非结构化数据的存储池,用于支持数据分析和机器学习应用。 机器学习:大数据技术也广泛应用于机器学习领域,支持大规模数据的模型训练和预测分析。 流式处理:针对实时数据处理需求,流式处理技术(如Apache Kafka、Apache Flink)可以实时。

    node-v16.11.0-linux-armv7l.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    【前端素材】大数据-北京市行政执法信息服务平台.zip

    大数据技术指的是用于处理和分析大规模数据集的技术和工具。以下是一些常见的大数据技术和工具: Hadoop:Apache Hadoop是一个用于分布式存储和处理大规模数据的开源框架。它包括Hadoop Distributed File System(HDFS)用于数据存储和MapReduce用于数据处理。 Spark:Apache Spark是一个快速、通用的集群计算系统,提供了比MapReduce更快的数据处理能力。它支持内存计算和更多复杂的数据处理流程。 NoSQL数据库:NoSQL数据库(如MongoDB、Cassandra等)则更适用于处理这类数据。 数据仓库:数据仓库是一个用于集成和分析大规模数据的存储系统,一些知名的数据仓库包括Snowflake、Amazon Redshift等。 数据湖:数据湖是一个存储结构化和非结构化数据的存储池,用于支持数据分析和机器学习应用。 机器学习:大数据技术也广泛应用于机器学习领域,支持大规模数据的模型训练和预测分析。 流式处理:针对实时数据处理需求,流式处理技术(如Apache Kafka、Apache Flink)可以实时。

    【前端素材】大数据-设备监测大屏.zip

    大数据技术指的是用于处理和分析大规模数据集的技术和工具。以下是一些常见的大数据技术和工具: Hadoop:Apache Hadoop是一个用于分布式存储和处理大规模数据的开源框架。它包括Hadoop Distributed File System(HDFS)用于数据存储和MapReduce用于数据处理。 Spark:Apache Spark是一个快速、通用的集群计算系统,提供了比MapReduce更快的数据处理能力。它支持内存计算和更多复杂的数据处理流程。 NoSQL数据库:NoSQL数据库(如MongoDB、Cassandra等)则更适用于处理这类数据。 数据仓库:数据仓库是一个用于集成和分析大规模数据的存储系统,一些知名的数据仓库包括Snowflake、Amazon Redshift等。 数据湖:数据湖是一个存储结构化和非结构化数据的存储池,用于支持数据分析和机器学习应用。 机器学习:大数据技术也广泛应用于机器学习领域,支持大规模数据的模型训练和预测分析。 流式处理:针对实时数据处理需求,流式处理技术(如Apache Kafka、Apache Flink)可以实时。

Global site tag (gtag.js) - Google Analytics