在电子商务中如何正确的使用数据挖掘技术

减小字体

增大字体作者：佚名来源：本站整理发布时间：2009-01-10 11:54:58

面具体的分析每一种挖掘任务应使用哪些挖掘技术。
概念描述
概念描述是描述式数据挖掘的最基本形式。它以简洁汇总的形式描述给定的任务相关数据集，提供数据的有趣的一般特性。概念描述由特征化和比较组成。数据特征化是目标类数据的一般特征或特性的汇总。通常，用户指定类的数据通过数据库查询收集。例如，为研究上一年销售增加10%的软件产品的特征，可以通过执行一个SQL查询收集关于这些产品的数据。概念的特征化有两种一般方法：基于数据立方体OLAP的方法和面向属性归纳的方法。二者都是基于属性或维的概化方法．数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般特征比较。例如，将上一年销售增加10%的软件产品与同一时期销售至少下降30%的那些产品进行比较。用于数据区分的方法与用于数据特征化的方法类似。总之，进行概念描述挖掘时一般采用面向数据库的方法，另外还可以采用机器学习方法的基于范例学习技术。与机器学习方法相比，面向数据库的概念描述导致在大型数据库和数据仓库中的有效性和可伸缩性。
聚集发现
聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显，而同一个群之间的数据尽量相似。聚集在电子商务上的典型应用是帮助市场分析人员从客户基本库中发现不同的客户群，并且用购买模式来刻画不同客户群的特征。此外聚类分析可以作为其它算法（如特征和分类等）的预处理步骤，这些算法再在生成的簇上进行处理。与分类不同，在开始聚集之前你不知道要把数据分成几组，也不知道怎么分（依照哪几个变量）。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可能并不好，这时你需要删除或增加变量以影响分群的方式，经过几次反复之后才能最终得到一个理想的结果。聚类方法主要有两类，包括统计方法和神经网络方法。自组织神经网络方法和K-均值是比较常用的聚集算法。
关联规则发现
关联分析是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。序列模式与此类似，它寻找的是事件之间时间上的相关性，如对股票涨跌的分析。以市场货篮这个典型例子分析关联规则。“在购买面包和黄油的顾客中，有90%的人同时也买了牛奶”（面包＋黄油牛奶）。用于规则发现的对象主要是事务型数据库，分析的是售货数据，也称货篮数据。以下给出的数学模型用来描述关联规则的发现问题。
设I={I1，I2，．．．，Im}是一组物品集,其中每一个事务T是一组物品，显然TI。设X为一组物品，当且仅当XT时，称事务T包含X。一个关联规则是如下形式的一种蕴涵：XY，其中XI，YI且X∩Y=。如果D中s%的事务包含X∪Y，则称规则XY在事务集D上的支持度support（X∪Y）＝s。可信度为c，如果c=support（X∪Y）*100/support（X），则说明D中包含X的事务中有c%的事务同时也包含了Y。可信度说明了蕴涵的强度，而支持度说明了规则中所出现模式的频率。具有高可信度和强支持度的规则称为“强规则”（strong rules）。关联规则发现任务的本质是要在数据库中发现强关联规则。利用这些关联规则可以了解客户的行为，这对于改进零售业等商业活动的决策很有帮助。例如，可以帮助改进商品的摆放（把顾客经常同时买的商品摆放在一起），帮助如何规划市场（互相搭配进货）等。在数据挖掘研究领域，对于关联分析的研究开展的比较深入，人们提出了多种关联规则的挖掘算法，如APRIORI、FP增长、STEM、AIS、DHP等算法分类发现
分类要解决的问题是为一个事件或对象归类。设有一个数据库和一组具有不同特征的类别（标记），该数据库中的每一个记录都赋予一个类别的标记，这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据，为每个类别做出准确的描述或建立分析模型或挖掘出分类规则，然后用这个分类规则对其它数据库中的记录进行分类。在电子商务中分类分析可以预测客户响应，如哪些客户最倾向于对直接邮件推销做出回应，又有哪些客户可能会换他的手机服务提供商，或进行商店定位，如按成功的商店、一般商店和失败商店排列得出这3类商店各自具有的属性。然后选择包含位置属性的地理数据库，分析每一预期的商店位置属性，以确定预期的商店定位属于哪一类。只有那些符合成功一类要求的商店位置才作为商店定位的候选。用于分类分析的技术有很多，典型方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类等。最近数据挖掘技术也将关联规则用于分类问题。另外还有一些其它分类方法，包括k－最临近分类、MBR、遗传算法、粗糙集和模糊集方法。目前，尚未发现有一种方法对所有数据都优于其它方法。实验研究表明，许多算法的准确性非常相似，其差别是统计不明显，而训练时间可能显著不同。一

在电子商务中如何正确的使用数据挖掘技术

Tags：

文章评论评论内容只代表网友观点，与本站立场无关！

栏目导航

本类热门阅览

相关文章