关联规则中一种改进的Apriori算法

            时间:2011-10-10 10:25 编辑:中变传奇网
    库的数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。换而言之,数据挖掘是一个利用各种分析工具在海量数据中,发现模网游型和数据间关系的过程,这些模型和关系可以用来做出预测。关联规则挖掘则是数据挖掘的一个重要研究方向,由.等人于1993年首先提出,其侧重于确定数据库中不同领域问的联系,找出满足给定支持度和可信度的多个域之问的依赖关系。
  关联规则挖掘的一般对象是事务数据库,这种数据库的主要应用在零售业,比如超级市场的销售管理好传奇。
  关联规则就是辨别交易项目(,指交易中的内容,比如,面包、牛奶等都是项目)之间是否存在某种关联关系。例如,关联规则可以表示“购买了项目和的顾客中有95%的人又买了和”。
  这种关联规则提供的信息可以用作商品销售目录设计、商场布置、生产安排、针对性的市场营销等。
  2.关联规则的概念和定义设=,。,。,。)是个不同项的集合,其中的。(=1,2)代表顾客可以购买的商品。包含个项的集合称为项集,代表顾客购买的一组商品。
  事务是项的集合,代表一次购买活动或一次交易,或即=。,:,3'.一,。,且,对应每一个事务都有唯一的标记,如事务号,记做。是事务的集合,代表交易集,=,。,)。一条关联规则是形如“=>”的蕴涵式,其中∈,∈,且=小。规则=>在交易集中的支持度是指包含和的交易数与所有交易数之比,记为(=>)=。规则=>在交易集中的可信度是指想玩传奇包含和的交易数与包含的交易数之比,记为(=>)=。关联规则的挖掘问题就是生成所有满足用户指定的最小支持度和最小可信度的关联规则,即这些关联规则的支持度和可信度分别不小于最小支持度和最小可信度。
  而同目集中的支持度不小于用户给定的最小支持度,则称为频繁项目集;否则,为非频繁项目集。(2)利用频繁项目集生成关联规则,对于每个频繁项目集,若,:≠书,且>兰,贝0有关联规则=>(—)。由于第二步相对来说较为容易,挖掘关联规则的总体性能由第一步决定,目前研究的重点集中在第一个问题上。3.;算法关联规则挖掘问题的研究现在得到了长足的发展,它的主要挑战性在于数据量巨大,所以算法效率是关键。在现有的关联规则发现算法中,最有影响的仍是.等人在自己的算法基础上提出的算法。算法的基本思想是利用“在给定的事务数据库中,频繁项集的所有非空子集必定是频繁的,或非频繁项集的所有超集必定是非频繁的”这一原理对事物数据库进行多遍扫描。
  算法的主要步骤:首先扫描事务数据库,根据最小支持度产生频繁1项集。;由。
  执行连接和剪枝操作,产生候选2一项集。,并根据产生频繁2项集。;再由。产生。,如此重复,直到=由。连接操作:设=。,12,。),1。,1(1≤≤,≤≤,≠)是其中的两个元素;;=[1],1,[2],1,[]),1;[](1≤≤)是项集;中的第个项。中的两个元素是可连接的当且仅当这两个元素的前—1个元素相同剪枝操作:设∈。.即是一个候选项集,。是。的一个(一1)一项子集,由性质可知,任意非频繁的(—1)一项集不可能是频繁项集的子集。即若,则。
  ,即候选一项集。应该丛候选一项集的集合。中删除。
  4.算法的改进4.1改进算法描述算法对项集进行了充分地缩小,只对支持度可能大于等于的候选项集进行支持度的计算;并且候作者简介:黄宏涛,男,河南新密人,硕士,讲师,研究方向为:数据挖掘,计算机应用。一8一热血传奇游戏选项集的存储采用哈希树结构,项集的计数速度较快。因此,成为多层关联规则、数量关联规则发现算法以及分区算法的核心。然而,随着值的增大,中各候选项集的长度增加,相应的支持度降低,算法仍需扫描整个数据库进行支持度的计算,这样对算法的效率影响比较大。如果利用。,对事务数据库进行筛选,不符合最小支持度的元素如果在。从事务数据库中删除这些元素,而且将项数等于(—1)的事务删除以缩小数据库,然后由新产生的事务数据库产生候选项集。,减少候选项集在数据库中查找的记录数,将会有效地提高算法的执行速度。改进的算法利用事务数据库产生1~项集。,然后扫描数据库,对每个项的出现次数计数,确定频繁一项集,同时将不满足最小支持度的条件的项从中删除,并且将项数小于的事务从中删除,产生新的事务数据库。,然后由。产生候选2一项集。,可以减少候选2项集。中项的数量。这样可以有效的缩小事务数据库,并减少一项集项。的数量,提高效率。4.2改进算法示例设有事务数据库,其中有6个事务记录,设最小支持度为2,运用改进算法提取关联规则的过程如图所示。改进算法运作过程是:首先扫描数据库,搜索所有的事务记录,统计每个项的支持度,产生候选卜项集1,1中满足最小支持度要求的项组合成大卜项集1:其次由产生候选项集2当再对扫描时,因为04不包含2中的任何项集,此时扫描后可以不加考虑,2中满足最小支持度要求的项组合成大项集2:然后由2产生候选大顼集3,当对进行第三遍扫描时,02优秀传奇,03和06由于不包含3中的任何项集,同样在扫描时不加考虑,3中满足最小支持度要求的项组合成大3一项集3,最终得到了满足支持最小支持度的频繁集3。11-01,402.403..304.)105,306.日1强·.)4,03,1的5,06)401.1,04,05302。05,06.03.05)3嘲溺阑222吼.,.,201,)201.05,)22.,205本网络游戏这一点真好.06,)303.,)301.03.05,205',202.05,)206.,201.05,)333..币..,)105,201.05,201.0510,105图利用改进算法提取规则示例5.结束语本文在研究关联规则算法的基础上,提出了改进的算法,减少了在计算候选项集支持度时扫描数据库的记录数,提高了整个算法的效率,性能比原来算法有所提高,具有一定的实用性。参考文献:1王锐,李晶,艘海蕴,绳鹏.基于关联规则的算法的可视化实现方法.计算机工程与设计,2007,2.2彭仪普,熊拥军.关联规则挖掘算法的改进[.计算机应用,趵05,5.3孛绪成,王宝宝.挖掘关联规则中算法的一种改进].计算机工程,2002.7.[4陈劲松,施小莫.一种关联规则增量更新算法[].计算机工程,2002,7.5]颜雪松,蔡之华.一种基于抽的高效关联规则挖掘算法的研究].计算机工程与应用,2002,12,柚姗(.0,西缸,.疝510420,培)舢瞳峨硎也位,、)!衔11.白-舸;;:一9~关联规则中一种改进的算法作者:黄宏涛,李穗丰,作者单位:广东财经职业学院,广东,广州,510420刊名:电脑与电信英文刊名:年,卷(期):2007(7)参考文献(5条)1.颜雪松;蔡之华一种基于的高效关联规则挖掘算法的研究[期刊论文]-计算机工程与应用2002(12)2.陈劲松;施小英一种关联规则增量更新算法[期刊论文]-计算机工程2002(07)3.李绪成;王宝宝挖掘关联规则中算法的一种改进[期刊论文]-计算机工程2002(07)4.彭仪普;熊拥军关联规则挖掘算法的改进[期刊论文]-计算机应用2005(05)5.王锐;李晶;熊海蕴;绳鹏基于关联规则的算法的可视化实现方法[期刊论文]-计算机工程与设计2007(02)。
上一篇:不再迷路:将Google地图装入手机
下一篇:Delphi自定义控件设计
  您在这里看到的是关于关联规则中一种改进的Apriori算法的祥细介绍,如认为本文好请复制本页给您的玩家朋友们!
精品文章推荐导读
  • 飞升造化全新场景、装备《诛仙贰Online》‘序章’隆重登场
  • 这些在当时没有电脑的情况下
  • 电脑与记者
  • 第一届金漫奖入围漫画家 马拉松式签名会开跑
  • 金士顿与NVIDIA联手,提高性能就是如此简单
  • 带钢生产厚度缺陷跟踪系统的设计与实现
  • 吉恩立推出《PLAYNC》免费线上 FLASH GAME 平台1
  • 电子商务网站的设计与实现
  • 信息技术课堂教学管理之我见
  • ÷|12ùú12
  • 借鉴了通俗小说开篇有“入话”、叙事中插入诠释、评论、套语的结
  • 每天打7个小时的副本!《魔兽世界》中国大陆职业游戏团队
  • 我们最垂涎的就是鱼卵了
  • 《田七郎》与《丹青副》
  • 三、自我中心该如何克服人际交律都讲求互惠的原则
  • CCNA新版考试特点和新增考点分析
  • 都想办法找关系
  •   杨静得知这个消息后
  • 利用Excel实现劳防用品计划管理
  • 原来生活可以这么悠闲~史上最无重力的解压作品!
  • 关联规则中一种改进的Apriori算法
  • 巴菲特不是神话
  • 电脑平面设计及印前图文处理问答二十四
  • UT斯达康:青黄不接
  • 一个WordPress的教程将是你所有的问题答案
  • 基于生命游戏置乱的MPEG-4运动矢量水印算法
  • 2次参考文献
  • 现代物流中心电子标签拣货系统的研究与实现
  • 与悟空前往中土冒险 NCsoft宣布《魔法千字文Onlin
  • Frame框架在可视化程序设计中的应用