用户登录  |  用户注册
首 页商业源码原创产品编程论坛
当前位置:PB创新网文章中心编程技巧计算机应用

在电子商务中如何正确的使用数据挖掘技术

减小字体 增大字体 作者:佚名  来源:本站整理  发布时间:2009-01-10 11:54:58
般的,大部分神经网络和涉及样条的统计分类与大部分判定树方法相比,趋向于计算量大。
回归发现
回归是通过具有已知值的变量来预测其他变量的值。它与分类类似,差别在于前者的预测值是连续的,而后者是离散的。在最简单的情况下,回归采用的是象线性回归这样的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。如商品的销售量、股票价格、产品合格率、利润的大小等,很难找到简单有效的方法来预测,因为要描述这些事件的变化所需的变量以上百计,且这些变量本身往往都是非线性的。为此人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、神经网络等。一般同一个模型既可用于回归也可用于分类,如CART决策树算法既可以用于建立分类树,也可建立回归树。神经网络也一样。
序列模式发现
序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列ABC出现的频率较高”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小值信度C和最小支持度S。另外序列关联规则挖掘中采用的Apriori特性可以用于序列模式的挖掘,另一类挖掘此类模式的方法是基于数据库投影的序列模式生长技术。

3.2理解可以获得的数据的信息。
对可以挖掘的数据进行分析,理解可以获得的数据的信息:内容、字段类型、记录之间的关系。可能影响数据挖掘技术选择的数据性质主要有:
1)种类字段:关联分析和连接分析只适用于种类字段。决策树也可以很容易的用于种类字段。但是有一个忠告:就是当种类的值较多的时候,效果可能就会比较差,当然如果限制分支的个数的时候,决策树的效果还是不错的。神经元网络,可以将种类字段转化成数值字段,但是这样就给种类字段强加了一个先后次序。也可以将种类字段作为多个输入,但是当值很多时,这种方法就成问题了。
2)数值字段:神经元网络将所有输入转化到0—1之间。MBR和聚集检测通过距离函数来处理数值字段。决策树可以通过splitter数值来处理数值字段。对于关联分析,则必须将数值变量区间化成种类变量,但是区间的选择是一个很困难的问题。
3)每条记录都有大量的字段(独立):记录中的字段很多,神经元网络和MBR技术会受其影响,关联规则挖掘也会受影响。而决策树受其影响的程度就比较的小。
4)多个目标字段(非独立):对于存在多个依赖变量的情况,神经元网络是最佳的选择。
5)记录是变长的 :只有关联规则和连接分析可以直接处理变长记录。对于其他的技术,数据需要一些预处理:可以生成一些统计字段;将一条记录拆分成几条记录,每个含有记录号。
6)有时间顺序的数据:神经元网络,关联规则对时间顺序的数据的处理能力比较的好。决策树也能处理时间顺序,但是需要的数据准备就相对较多一点。
7)自由文本数据:MBR技术最适合。
4结论
    总之在选择一种数据挖掘技术我们应根据商业问题的特点来决定采用哪种数据挖掘形式比较合适。应选择符合数据的模型的算法,确定合适的模型和参数。只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用,使企业在激烈的市场竞争中做出正确的决策,保持有力的竞争优势。


参考文献:
1.《构件面向CRM的数据挖掘应用》/(美)贝尔森,(美)史密斯,(美)西瑞林著;贺奇等译。人民邮电出版社,2001.8
2.《数据挖掘概念与技术》,机械工业出版社,2001.8
3.[AGGR98]R.Agrawal,J.Gehrke,D.Gunopulos,and P.Raghavan.Automatic subspace clustering of high dimensional data mining applications.In Proc.1998 ACM-SIGMOD Int.Conf.Management of Data(SIGMOD`98),Pages94-105.Seattle,WA,June 1998.
4.[AAP00]R.Agarwal,C.Aggarwal,and V.V.V Prasad.A tree projection algorithm for generation of frequent itemsets.In Journal of Parallel and Distributed Computing(Special issue on High Performance Data Mining),200

上一页  [1] [2] [3] 

Tags:

作者:佚名

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论
PB创新网ourmis.com】Copyright © 2000-2009 . All Rights Reserved .
页面执行时间:6,734.37500 毫秒
Email:ourmis@126.com QQ:2322888 蜀ICP备05006790号