网页模糊归类算法的应用与实现
摘要:本文运用以模糊综合评判为核心的理论实现对网页的模糊自动归类,详细阐述了网页模糊归类算法(FWCA),并且通过一个实例阐明了实现过程。作者利用此算法亲自设计实现了一个“网页模糊归类测试系统”,通过分析大量实验数据证明了利用此算法得归类效果非常稳定和准确。
关键词:FWCA 模糊综合评判 网页归类 分类浏览 搜索引擎
自有文字和书籍以来,人类就开始注意文章的分门别类和编撰目录。那些目录事实上就将文章按照内容的类别进行了分类。九十年代以来,Internet 以惊人的速度发展起来,Web的容量增长迅速,平均每天增加100万个页面。计算技术发展到今天,靠人来阅读互联网上信息和对网上信息做分门别类和总结已经不可能。
搜索引擎的分类浏览模式由此应运而生。它的目录分类的质量较高,检索效果好;但是需要人工维护,因此存在成本高、信息更新慢、维护的工作量大的缺点。而基于模糊技术的网页自动归类能依据网页中所包含的文本的语义将大量的网页自动分门别类,从而更好地帮助人们把握网络信息。
网页模糊归类步骤与算法
简单地说,网页自动归类所要完成的任务就是在给定的分类体系下,根据网页的内容自动地确定网页关联的类别。如果从纯数学角度来看,网页分类的过程实际上就是一个多对多的映射过程。依据“贝叶斯假设”的内容,可以假定组成网页的元素在确定网页类别的作用上相互独立。这样,可以使用网页中出现的字或词的集合来代替网页,即用一个向量来表示文本:D(W1,W2,W3……Wn),其中 Wi 为第 i 个元素(以下均称为“特征项”)的数值。当然,这将丢失大量关于网页内容的信息,但是这种假设可以使网页的表示和处理形式化,从而让计算机可以处理网页。
构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的。首先,需要考虑词语的性质。一些通用的、各个类别都普遍存在的词汇对分类的贡献是很小的,因此特征提取过程需要去掉对表达网页类别不太重要的词汇。例如“的”、“地”、“得”、“着”、“了”等等。其次,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大,为了提高分类精度,可以利用词语的互信息量筛选出针对该类的特征项集合。具体操作方法是算出每个词语的互信息量并排序,然后抽取前n个词语作为该类别的特征项,抽取的原则是反复试验使得网页归类效果最优。互信息量(I)计算公式由下式给出:
为了让计算机为我们进行网页的自动归类,必须先对计算机进行训练。只要训练网页足够多,那么由计算机进行的归类活动也将是准确的。所有的训练样本都需表示为向量 。并使用每个词的相对词频(TF-IDF 公式)对网页样本的特征项进行量化。然后,将每个类别中的所有训练样本数据合成为一个平均参照样本,计算方法就是将每个特征项的值求算术平均。相对词频计算公式由下式给出:
在归类过程中,采用三级模糊综合评判。一级指标因素集(网页中出现位置)包括:网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。二级指标因素集(词性)包括:名词, 动词, 形容词, 副词, 介词, 连词, 助词, 数字, 符号。三级指标因素集:待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0), V2(不太可能属于0.25), V3(可能属于0.5), V4(很可能属于0.75), V5(属于1)}。
专家随机抽取了300篇网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,将一级指标因素权重集确定为A={0.128, 0.128, 0.128, 0.104, 0.104, 0.104, 0.06, 0.06, 0.06, 0.06, 0.05, 0.05};根据语言学专家对各类别中不同词性的词语对标志一个类别(以中图分类法为标准)重要性程度统计和评分,将二级指标因素权重集确定为An={0.28, 0.18, 0.24, 0.06, 0.05, 0.04, 0.04, 0.06, 0.05};根据词语的互信息量确定出三级指标因素权重为Anm={Anm1, Anm2 … Anmx} 其中,Anmx即为对应词语的互信息量
隶属函数采用卡夫曼教授提出的隶属函数确定方法(正态分布模型)确定如下:
① 词频针对“不属于”的隶属函数
② 词频针对“不太可能属于”的隶属函数
③ 词频针对“不可能属于”的隶属函数
④ 词频针对“很可能属于”的隶属函数
⑤ 频针对“属于”的隶属函数
其中,axyz是训练样本中词语的相对词频;x为样本网页中对应词的统计词频;系数是通过人工评判得到一些特殊点,由待定系数法求出的。
下面就要根据多级模糊综合评判的计算方法与步骤将待归类网页与所有类别的平均参照样本进行一遍计算,得出一组表示该网页与各个类别贴近度的数值。然后按照“最大隶属原则”,将网页划到Vn值最大的对应的类别中;或者用“域值法”,事先确定一个不大于1的域值λ,若Vn>λ则认为网页属于此类别,因此,一个网页可能同时属于多个类别。
网页模糊归类实例
(1).前期工作
•简化的分类