时间:2022-07-27 10:27:16
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据挖掘技术范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
中图分类号: C37 文献标识码: A
数据挖掘,也可以称为数据库中的知识发现 (Knowledge Discover Database,KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[16]。实际上这是一个模式提取的过程,主要基于人工智能、机器学习、统计学等技术,高度自动化的分析企业原有的数据,做出归纳行的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。
1 数据挖掘的分类
数据挖掘就是发现隐藏在数据中的模式。它所发现的模式按功能模型一般可分为两大类:描述型(descriptive)的模式和预测型(predictive)模式[21]。描述型的模式是对当前数据中存在的事实做规范的描述,它所揭示的是当前数据的一般特性;预测型模型则是以时间为关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。根据模式的特征,预测和描述可以通过下面的任务来完成。
图1 数据挖掘模型
1) 关联规则(Association Rules)
关联模式是数据项之间存在的关联规则,是在同一事件中出现不同项之间的相关性,例如客户在一次购买活动中所购买的不同商品之间的关联性。在数据挖掘领域,对于关联模式的研究开展得比较深入,人们提出了多种关联规则挖掘算法,如Apriori,DHP,Partition,Sampling,FP-Growth等算法。这些算法能够发现数据库中形如“80%的客户在一次购买活动中购买X商品的同时也购买Y商品”之类的知识。
2) 分类分析(Classification)
分类就是构造一个分类模型,把具有某些特征的数据项映射到某个给定的类别上。这个过程分为两步:模型的创建和模型的使用。模型的创建是指通过对训练数据集的学习建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。其中的训练数据集是带有类标号的,也就是在分类之前,要划分的类别是已经确定的,通常分类模型是以分类规则、决策树或数学表达式的形式给出的。
分类模式往往表现为一棵树,从树根开始搜索,沿着数据满足的分支走。走到树叶时就能确定类别。已有许多数据分类方法,如决策树方法、统计方法及粗糙集方法等。Metha, Agrawal, Rissanen等人开始研究面向数据库的分类方法。J. Han等人在他们开发的知识发现系统DBMiner中采用了基于概括的决策树方法,该方法集成了面向属性的归纳和决策归纳技术。
3) 聚类分析(Clustering)
聚类就是根据数据的属性对一系列未分类数据进行类别划分,把一组个体按照相似性分成若干个类或簇,即“物以类聚”。其目的是使类间的数据差别尽能大,类内的数据差别尽可能小,即“最小化类间的相似性,最大化类内的相似性”原则。与分类模式不同的是聚类中要划分的类别是未知的,它是不依赖于预先定义的类和带类标号的训练数据集的非监督学习(unsupervised learning ),无需背景知识,其中类的数量由系统按照某种性能指标自动确定。聚类分析的方法有很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记录集合可能有不同划分结果。
4) 回归分析(Regression)
回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式则采用连续的预测值。它通过具有己知值的变量来预测其他变量的值。在最简单的情况下,回归采用的是类似于线性回归的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。如商品的销售量、股票价格、产品合格率等,很难找到简单有效的方法来预测,因为要完全地描述这些事件的变化需要上百个变量,而且这些变量本身往往都是非线性的。为此学术界提出了很多试图解决这个问题方法,如逻辑回归、决策树和神经网络等。
5) 序列模式分析(Sequential)
序列模式分析和关联规则分析相似,它是描述基于时间或其他序列的经常发生的规律或趋势,并对其进行建模。它能发现数据库中形如“在某一段时间内,75%的顾客购买商品A,接着购买商品B,然后又购买商品C,即序列A-B- C出现的频度较高”之类的知识。序列模式将关联模式和时间序列模式结合起来,重点考虑数据之间在时间维上的关联性。在进行序列模式挖掘时主要有以下几个问题值得注意:首先是序列的持续时间,也就是某个时间序列的有效时间或者是用户选择的一个时间段:其次是时间折叠窗口,即在某一段时间内发生的事件可以被看作是同时发生的;最后是所发现的模式时间间隔。
6) 偏差分析(Deviation)
偏差分析是指对差异或极端特例的描述,如聚类划分外的偏离值。在大多数据挖掘方法中都是将这些偏差信息作为噪声而丢掉,然而在一些实际应用中,这种罕见的数据可能比正常的数据更有价值。比如网络的入侵检测和信用卡的欺诈检测等。我们可在通过这些异常数据的偏差来分析其中的原因,以便对其采用相应的措施。
2 数据挖掘的主要方法
数据挖掘是一门新兴的研究领域,其技术基础是人工智能(Artificial Intelligence )。它借鉴了信息论、数理逻辑、进化计算、神经计算和统计学等理论和算法[22]。在此介绍几种主流的方法。
1) 遗传算法
遗传算法是一种基于生物进化过程的组合优化方法,它是生物学和计算机相结合的产物,由美国密西根大学的D.J Holland教授和他的同事们在1975年首次提出的。根据适者生存的原则模拟自然界的生命进化机制,形成当前群体适合的规则组成新群体,以及这些规则的后代。
基于这些思想,根据遗传算法的最适合模型,并进一步对数据模型进行优化。
由于遗传算法是一种弱算法,具有高效性和灵活性的特点,在数据挖掘中也用于评估其他算法的适应度。
遗传算法擅长于数据聚类,通过事件的类比和空间上的类比,可以把大量繁杂的信息数据进行系统化、条理化,从而找出数据之间的内在关系,得出有用的概念和模式。再建立数据模式时,将遗传算法与神经网络相结合,可以更好地提高模型的适应性。因此遗传算法广泛应用于自动控制、机器学习、模式识别和组合优化等领域。
2) 神经网络
神经网络(neural network )是由多个神经元按照某种方式相互连接形成,靠网络状态对外部输入信息的动态响应来处理信息,网络的信息分布式存储于连接权系数中,使网络具有很强的容错性和鲁棒性。神经网络的核心是结构和算法,例如Hopfield网就是以结构见长,而BP (back propagation)网是以算法见长。
神经网络和基于符号的传统技术相比,具有直观性、并行性和抗噪声性。目前,已出现了许多网络模型和学习算法,主要用于分类、优化、模式识别、预测和控制等领域。在数据挖掘领域,主要采用前向神经网络提取分类规则。
在数据挖掘领域,将神经网络用于数据挖掘,重点要解决好以下两个问题:一是降低训练时间,二是挖掘结果的可理解性
3) 统计分析方法
统计分析方法是利用统计学、概率论的原理对数据库中的各属性进行统计分析,从而找出其中的关系和规律。统计分析方法是最基本的数据挖掘方法之一。常用的统计分析方法有
判别分析法:建立一个或多个判别函数,并确定一个判别标准,然后对未知属性的对象根据观测值将其划分归为已知类别中的一类。
因子分析法:用较少的综合变量来表达多个观察变量。根据相关性大小把变量分组,使得各组内的变量之间相关性较高,不同组变量的相关性较低。
相关分析和回归分析法:相关分析是用相关关系来度量变量间的相关程度。回归分析是用数学方程来表示变量间的数量关系,方法有线性回归和非线性回归。
偏最小二乘回归法:是一种新型的多元统计数据分析方法,它主要研究的是多因变量(结果)对多自变量(原因)的回归建模,特别当各变量内部高度线性相关时,用偏最小二乘回归法更有效。另外,偏最小二乘回归较好地解决了样本个数少于变量个数等问题。
在数据挖掘中,统计分析方法适用于分类挖掘和聚类挖掘。
4) 粗集方法
粗集(rough set)理论的特点是不需要预先给定某些特征或属性的数量描述,而是直接从给定问题出发,通过不可分辨关系和不可分辨类确定问题的近似域,从而找出该问题中的内在规律。粗集理论同模糊集、神经网络、证据理论等其它理论均成为不确定性计算的一个重要分支。
粗集理论是由波兰华沙理工大学的Z.Pawlak教授于1982年提出的一种研究不完整、不确定知识和数据的表达、学习及归纳的理论方法。粗集理论采用了上近似集合、下近似集合和边界来定义粗糙集。
粗糙集合理论可以用于分类,发现不准确数据或噪声数据内在的联系。找出可以描述给定数据集中所有概念的属性子集是个难题。在给定的现实世界数据中,往往有些类不能被可用的属性区分,则可以用粗糙集合来近似地定义这些类。根据目前己有的给定问题的知识,将问题的论域进行划分,然后对划分后的每一个组成部分确定其对某一概念的支持度,即肯定支持此概念或不支持此概念和模糊概念。上述情况分别用3个近似集合来表示。即将知识定义为对事物的分类能力。这种能力分别由上近似集、下近似集、等价关系等概念来体现。
5) 决策树方法
决策树((decision tree)是一个类似于流程图的树型结构,其中树的每一个内部节点代表对一个属性的测试,其分支代表测试的每一个结果:树的每一个叶子节点代表一个类别。决策树通过一系列的规则对数据进行分类。目前许多基于规则进行归纳的商用数据挖掘系统都是采用决策树方法。
决策树分类方法的优点:
1、决策树方法结构简单,便于人们理解;
2、决策树模型效率高,对训练及数据量大的情况较为合适;
3、决策树方法具有较高的分类精确度;
4、决策树可以清晰的显示哪些字段比较重要。
建立一棵决策树可能只要对数据库进行几遍扫描之后就能完成,这也意味着需要计算的资源较少,而且可以很容易的处理包含很多预测变量的情况,因此决策树模型可以建立的很快,并适用于大量的数据处理。常用的算法有CHAID,CART,Quest、C5.0和ID3算法。
建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程,每次切分对应一个问题,也对应一个节点。对每个切分都要求分成的组之间的差异最大。各种决策树算法之间的k要区别就是对这个“差异”衡量方式的区别。
对决策树的批评常见的是,认为其在为一个节点选择怎样进行分割时使用的“贪心”算法。此种算法在决定当前分割时根本不考虑此次选择会对将来的分割产生什么样的影响。换句话说,所有的分割都是顺序完成的,一个节点完成分割之后不可能以后还有机会回头考虑此次分割的合理性,每次分割都是依赖于它前面的分割方法,只要第一次分割有一点点不同,那么由此得到的整个决策树就会完全不同。
除上述方法外,还有把数据与结果转化表达成可视化形式的可视化技术、模型方法和归纳学习等方法。
2、数据挖掘技术
2.1关联规则方法
关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。
2.2分类和聚类方法
分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。
2.3数据统计方法
使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。
2.4神经网络方法
神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类;用于分类、预测和模式识别的前馈式神经网络模型;用于联想记忆和优化计算的反馈式神经网络模型;用于聚类的自组织映射方法。
2.5决策树方法
0 引言
随着信息科技的进步以及电子化时代的到来,现代信息社会中数据和数据库呈现爆炸式增长。面对浩瀚的数据海洋,如何从这些庞大的数据中找出它们之间存在的“潜伏”的关系和规则,进而根据这些关系和规则预测未来的发展趋势,已经成为二十一世纪探索的热点问题。
数据挖掘(Data Mining)技术的诞生,为解决这一问题提供了可以参考的方法,是开发信息资源的一种新的数据处理技术。它不仅能对过去的数据进行查询,而且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地解决决策、预测等问题。
1 数据挖掘概述
数据挖掘就是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。数据挖掘的目的是为了从这些数据中抽取一些有价值的知识或信息,提高信息利用率。
数据挖掘主要有以下对象:
(1)关系型数据库、事务型数据库、面向对象的数据库;
(2)数据仓库/多维数据库;
(3)空间数据(如地图信息);
(4)工程数据(如建筑、集成电路的信息);
(5)文本和多媒体数据(如文本、图象、音频、视频数据);
(6)时间相关的数据(如历史数据或股票交换数据);
(7)万维网(如半结构化的HTML,结构化的XML以及其他网络信息)。
数据挖掘的步骤一般会因不同的实际应用情况而有所变化,其过程就是用一定的数据挖掘算法从给定的数据库中提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。图1显示的是数据挖掘过程,主要由以下步骤组成:
(1)数据清理(消除噪音或不一致数据);
(2)数据集成(多种数据源可以组合在一起);
(3)数据选择(从数据库中提取与分析任务相关的数据);
(4)数据变换(数据变换或统一成适合挖掘的形式;如通过汇总或聚集操作);
(5)数据挖掘(基本步骤,使用智能方法提取数据模式);
(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式);
(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
例如,应用数据挖掘算法中聚类分析的方法,可以在城市规划的过程中,根据类型、价格、地理位置等来划分不同类型的住宅。具体使用哪种数据挖掘算法,要根据具体情况和应用要求而定。一种数据挖掘算法可能在一种情况下适用,而在另一种情况下就不适用。在特定的应用环境下,应找出最适用的数据挖掘算法,并加以实施。
3 数据挖掘的应用
3.1 数据挖掘在零售业中的应用
由于零售业便于搜集大量的销售数据、顾客购物记录、货物运送、消费模式和服务记录等特点,使其成为数据挖掘的主要应用领域。
零售商们采用数据仓库使他们有更好的机会运用数据挖掘技术。通过数据挖掘,零售商们可以了解销售全局、对商品分组布局、降低库存成本、分析销售市场趋势,从而更加有效地对商品进行促销。大型的零售连锁店和杂货店用大量的“信息丰富” 的销售数据,通过数据挖掘揭示一些没有发现的“隐藏关系”,其中最著名的啤酒和尿布的故事即是数据挖掘在零售业中典型的应用。
3.2 数据挖掘在体育竞技中的应用
先进信息技术的运用是美国NBA职篮联盟成功的众多因素中非常重要的一个。例如,魔术队教练利用IBM公司开发的数据挖掘应用软件Advanced Scout,对不同的队员布阵时的相对优势进行了系统的分析,并根据分析结果取得了对迈阿密热队4连胜的战绩。
3.3 数据挖掘在企业中的应用
数据挖掘在企业信息处理中的应用是一个将信息转化为企业商业知识的过程。它主要用于企业的客户关系管理、市场分析、营销策略和趋势预测等方面。
数据挖掘技术已经广泛应用在美国银行和金融领域中。例如用数据挖掘工具Marksman可以分析消费者的赊账卡、家庭贷款、投资产品以及储蓄等信息,并对客户进行分类,从而预测何时哪类产品最适合哪类客户,因而被美国Firstar等银行使用。此外,近年来数据挖掘技术在信用记分的研究和应用方面也取得了很大的进步。银行利用Credit Scoring技术对客户的一些信息(如基本资料、资产以及以往信用等)进行分析、评估,做出最有利的决定。
数据挖掘在电信行业中的应用也很广泛。它可以帮助电信企业制定合理的电话收费和服务标准、针对特别的客户群的优惠政策、防止费用欺诈等。
3.4 数据挖掘在科学探索中的应用
随着数据挖掘技术的不断发展和完善,已经逐步应用到尖端科学的探索中。数据挖掘技术在生物学中的应用主要集中于分子生物学特别是基因工程的研究上。通过用计算生物分子系列分析方法,尤其是基因数据库搜索技术已在基因研究上做出了很多重大发现。
SKICAT(Sky Image Cataloging and Analysis Tool)是天文学上一个非常著名的系统。该系统使用数据挖掘算法中的决策树方法构造分星体类器对星体进行分类,结果使得能分辨的星体与以前的方法相比,在亮度上要低一个数量级之多,并且在效率上这种方法比以往的方法高40倍以上。
3.5 数据挖掘在信息安全中的应用
利用数据挖掘作为入侵检测的数据分析技术,把“潜伏”的安全信息从海量的安全事件数据中提取出来,抽象出有利于进行判断和比较的与安全相关的普遍特征,进而发现不确定的入侵行为,并作出判断、决策(如图3)。相对于传统的入侵检测分析技术,数据挖掘具有良好的自适应性、误警率低且能减轻数据过载,大大提高了检测和响应的效率和速度。
图3 数据挖掘方法的入侵检测系统流程图数据挖掘这一新兴技术至今已经在商业、银行、金融、制造业、互联网络、教育、科学研究等领域广泛应用,并且给我们的社会和生活带来了极大的改观。
参考文献
[1]Margaret H.Dunham: DATA MINING Introductory and Advanced Topics[M].北京:清华大学出版社,2003.
[2]Mehmed Kantardzic: DATA MINING Concepts,Models,Methods,and Algorithms[M].北京:清华大学出版社,2003.
随着计算机和互联网技术的迅速崛起与普及,人们(当然包括犯罪分子和)已经离不开手机、电脑、智能电视等智能终端设备,不少日常活动基本上都可以数字化地表示。几点几分从家出门,坐什么车花了多长时间到了工作地点。这期间,无论是谁,每发一次微博和打一次电话,包括经纬度在内的精确地理位置信息都被记录在案,而通话记录在许多年之后仍可以被调阅查询。总之,在通信技术无孔不入的时代,人们的一举一动都产生了大量的数据。而在很多时候,这些原始数据就会成为司法部门破案时所需要分析的材料。
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以可理解的方式(如可视化)将找出的规律表示出来。由于人类从来没有像今天这样如此依赖网络和电子设备,因此,信息时代众多的电子踪迹让研究每个人、每个群体,甚至整个人类的习惯成为了可能。
1数据挖掘技术的概述
数据挖掘是通过对各种数据信息进行有选择的统计、归类以及分析等挖掘隐含的有用的信息,从而为实践应用提出有用的决策信息的过程。通俗的说数据挖掘就是一种借助于多种数据分析工具在海量的数据信息中挖掘模数据信息和模型之间关系的技术总裁,通过对这种模型进行认识和理解,分析它们的对应关系,以此来指导各行各业的生产和发展,提供重大决策上的支持。数据挖掘技术是对海量数据信息的统计、分析等因此数据挖掘技术呈现以下特点:一是数据挖掘技术主要是借助各种其它专业学科的知识,从而建立挖掘模型,设计相应的模型算法,从而找出其中的潜在规律等,揭示其中的内在联系性;二是数据挖掘主要是处理各行数据库中的信息,因此这些信息是经过预处理的;三是以构建数据模型的方式服务于实践应用。当然数据挖掘并不是以发现数据理论为目的,而是为了在各行各业的信息中找出有用的数据信息,满足用户的需求。
2数据挖掘的功能
结合数据挖掘技术的概述,数据挖掘主要具体以下功能:一是自动预测趋势和行为。数据挖掘主要是在复杂的数据库中寻找自己有用的信息,以往的信息搜索需要采取手工分析的方式,如今通过数据挖掘可以快速的将符合数据本身的数据找出来;二是关联分析。关联性就是事物之间存在某种的联系性,这种事物必须要在两种以上,数据关联是在复杂的数据中存在一类重要的可被发现的知识;三是概念描述。概念描述分为特征性描述和区别性描述;四是偏差检测。
3数据挖掘技术的步骤分析
3.1处理过程
数据挖掘虽然能够实现在复杂的数据库中寻求自己的数据资源,但是其需要建立人工模型,根据人工模型实现对数据的统计、分析以及利用等。
3.2关键技术
由于数据挖掘涉及到很多专业学科,因此相对来说,数据挖掘技术融合多门专业技术学科的知识,结合实践,数据挖掘技术主要应用到以下算法和模型:一是传统统计方法。采取传统的统计方法主要有抽样技术,也就是采取相应的策略对数据进行合理的抽样。多元化统计和统计预测方法;二是可视化技术,可视化技术是数据挖掘技术的热点,它是采取可视化技术与数据挖掘过程的结合,以直观的图形等使人们更好地进行数据挖掘技术;三是决策树。决策树需要对数据库进行几遍的扫描之后,才能完成,因此其在具体的处理过程中可能会包括很多的预测变量情况;四是4)聚类分析方法。聚类分析方法是一种非参数分析方法,主要用于分析样本分组中多维数据点间的差异和联系。判别分析法需要预先设定一个指针变量,假设总体为正太分布,必须严格遵守数理依据。而聚类分析则没有这些假设和原则,只需要通过搜集数据和转换成相似矩阵两个步骤,就能完成聚类分析的全过程。聚类分析主要用于获取数据的分布情况,能够简单方便的发现全局的分布模式,识别出密集和系数区域;此外,对于单个类的分析也有很强的处理能力,能深入分析每个类的特征,并找出变量和类之间的内在联系。基于距离、层次、密度和网络的方法是最常用的聚类分析方法。
4数据挖掘技术的实践应用
数据挖掘技术虽然在我国发展的时间还不长,但是其在实践中的应用已经非常的广泛,因为数据挖掘技术在实践中的应用价值是非常大的,其可以提取隐藏在数据背后的有用信息,具体来看,其主要应用在:(1)在医学上的应用。人体的奥秘是无穷无尽的,人类遗传密码的信息、人类疾病史和治疗方法等,都隐含了大量数据信息。采用数据挖掘来解决这些问题,将给相关工作者的工作带来很大方便。此外,医院内部医药器具的管理、病人档案资料的整理、医院内部结构的管理等,也是庞大的数据库。将数据挖掘技术应用于医学领域,深入分析人类疾病间的内在联系和规律,帮助医生进行诊断和治疗,能够有效提高医生诊断的准确率,对人类的健康和医疗事业的发展有十分重要的作用。(2)在电信业中的应用。随着三网融合技术的不断发展,传统的电信业务已经不能满足当前社会发展的需求,而是侧重通信、图像以及网络等业务的融合,而实现“三网融合”的关键技术是实现对数据的分析与统计,因为三网融合会带来更多的数据,这些数据都需要充分的挖掘,以此实现“三网融合”战略的实现。将数据挖掘技术与电信业务有效的结合起来,能够提高资源利用率,更深入的了解用户的行为,促进电信业务的推广,帮助各行各业获取更大的经济效益。(3)在高校贫困生管理的应用。贫困生管理分析系统主要应用了数据仓库技术以及数据挖掘技术,其主要是将高校贫困生的各种信息统一纳入到高校信息管理平台中,然后根据具体的贫困生划分标准,建立模型,进而对学生的信息进行统计与分析,实现对贫困生信息的科学管理,便于高校管理者及时了解学生的信息。
5结语
总之数据挖掘技术在实践中的广泛应用,为我国互联网+战略提供了关键技术支撑,但是由于数据挖掘技术在实践中还存在某些技术问题,比如各种模型和技术难于集成、缺少与数据库系统耦合的通用API或挖掘系统仅提供孤立的知识发现功能,难于嵌入大型应用等问题导致挖掘技术在实践中的应用还存在缺陷,因此需要我们加大对数据挖掘技术的进一步研究,以此更好地实现“互联网+”战略。
作者:陈建伟 李丽坤 单位:安阳职业技术学院
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)04-0222-01
1 大数据时代数据挖掘的重要性
随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC(Internet Data Center,互联网络数据中心)预计,到2020 年全球数据量将增加50倍。毋庸置疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。
如果运用合理的方法和工具,在企业日积月累形成的浩瀚数据中,是可以淘到沙金的,甚至可能发现许多大的钻石。在一些信息化较成熟的行业,就有这样的例子。比如银行的信息化建设就非常完善,银行每天生成的数据数以万计,储户的存取款数据、ATM交易数据等。
数据挖掘是借助IT手段对经营决策产生决定性影响的一种管理手段。从定义上来看,数据挖掘是指一个完整的过程,该过程是从大量、不完全、模糊和随机的数据集中识别有效的、可实用的信息,并运用这些信息做出决策。
2 数据挖掘的分类
数据挖掘技术从开始的单一门类的知识逐渐发展成为一门综合性的多学科知识,并由此产生了很多的数据挖掘方法,这些方法种类多,类型也有很大的差别。为了满足用户的实际需要,现对数据挖掘技术进行如下几种分类:
2.1 按挖掘的数据库类型分类
利用数据库对数据分类成为可能是因为数据库在对数据储存时就可以对数据按照其类型、模型以及应用场景的不同来进行分类,根据这种分类得到的数据在采用数据挖掘技术时也会有满足自身的方法。对数据的分类有两种情况,一种是根据其模型来分类,另一种是根据其类型来分类,前者包括关系型、对象-关系型以及事务型和数据仓库型等,后者包括时间型、空间型和Web 型的数据挖掘方法。
2.2 按挖掘的知识类型分类
这种分类方法是根据数据挖掘的功能来实施的,其中包括多种分析的方式,例如相关性、预测及离群点分析方法,充分的数据挖掘不仅仅是一种单一的功能模式,而是各种不同功能的集合。同时,在上述分类的情况下,还可以按照数据本身的特性和属性来对其进行分类,例如数据的抽象性和数据的粒度等,利用数据的抽象层次来分类时可以将数据分为三个层次,即广义知识的高抽象层,原始知识的原始层以及到多层的知识的多个抽象层。一个完善的数据挖掘可以实现对多个抽象层数据的挖掘,找到其有价值的知识。同时,在对数据挖掘进行分类时还可以根据其表现出来的模式及规则性和是否检测出噪声来分类,一般来说,数据的规则性可以通过多种不同的方法挖掘,例如相关性和关联分析以及通过对其概念描述和聚类分类、预测等方法,同时还可以通过这些挖掘方法来检测和排除噪声。
2.3 按所用的技术类型分类
数据挖掘的时候采用的技术手段千变万化,例如可以采用面向数据库和数据仓库的技术以及神经网络及其可视化等技术手段,同时用户在对数据进行分析时也会使用很多不同的分析方法,根据这些分析方法的不同可以分为遗传算法、人工神经网络等等。一般情况下,一个庞大的数据挖掘系统是集多种挖掘技术和方法的综合性系统。
2.4 按应用分类
根据数据挖掘的应用的领域来进行分类,包括财经行业、交通运输业、网络通信业、生物医学领域如DNA等,在这些行业或领域中都有满足自身要求的数据挖掘方法。对于特定的应用场景,此时就可能需要与之相应的特殊的挖掘方法,并保证其有效性。综上所述,基本上不存在某种数据挖掘技术可以在所有的行业中都能使用的技术,每种数据挖掘技术都有自身的专用性。
3 数据挖掘中常用的方法
目前数据挖掘方法主要有4种,这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。
遗传算法:该算法依据生物学领域的自然选择规律以及遗传的机理发展而来,是一种随机搜索的算法,利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型结合等优点从而在数据挖掘中得到了应用。
决策树算法:在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。
粗糙集算法:这个算法将知识的理解视为对数据的划分,将这种划分的一个整体叫做概念,这种算法的基本原理是将不够精确的知识与确定的或者准确的知识进行类别同时进行类别刻画。
神经网络算法:在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。光缆监测及其故障诊断系统对于保证通信的顺利至关重要,同时这种技术方法也是顺应当今时代的潮流必须推广使用的方法。同时,该诊断技术为通信管网和日常通信提供了可靠的技术支持和可靠的后期保证。
参考文献
中图分类号:F49 文献标识码:A 文章编号:1007-9416(2015)030-0209-01
近几年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。2012 年3 月,奥巴马公布了美国《大数据研究和发展计划》,标志着大数据已经成为国家战略,上升为国家意志。从硅谷到北京,大数据的话题传播迅速。
1 大数据时代
随着计算机技术全面融入社会生活,经过半个多世纪的发展,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。
1.1 大数据时代产生的背景
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大规模生产、分享和应用海量数据的时代之所以能够开启,源于信息科技的进步、互联网与云计算技术和物联网的发展。
(1)信息科技的进步。信息处理、信息存储和信息传递是信息科技的三个主要支撑,存储设备性价比不断提升、网络带宽的持续增加,为大数据的存储和传播提供了物质基础。
(2)互联网与云计算技术。互联网时代,电子商务、社交网络和移动通信产生了大量结构化和非结构化的数据,以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。互联网领域的公司最早重视数据资产的价值,他们从大数据中淘金,并且引领着大数据的发展趋势。
(3)物联网的发展。众所周知,物联网时代所创造的数据不是互联网时代所能比拟的,而且物联网的数据是异构的、多样性的、非结构和有噪声的,最显著的特点是是它的高增长率。大数据是物联网中的关键技术,物联网对大数据技术的要求更高,它的发展离不开大数据。
1.2 大数据与数据挖掘
Google、Amazon、Facebook、Twitter,这些称霸全球互联网的企业,它们的成功都具备一个共同的因素,就是收集分析海量的各种类型的数据,并能够快速获取影响未来的信息的能力。“购买了此商品的顾客还购买了这些商品”,这恐怕是世界上最广为人知的一种商品推荐系统了,而创造出这个系统的正是Amazon。Amazon 通过分析商品的购买记录、浏览历史记录等庞大的用户行为历史数据,并与行为模式相似的其他用户的历史数据进行对照,提供出最适合的商品推荐信息。Facebook 可以为用户提供类似“也许你还认识这些人”的提示,这种提示可以准确到令人恐怖的程度,而这正是对庞大的数据进行分析而得到的结果。这种以数据分析为核心的技术就是数据挖掘(data mining)。
从技术角度看,数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说,数据挖掘是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇。
2 数据挖掘
数据挖掘旨在从大数据中提取隐藏的预测性信息,用便于理解和观察的方式反映给用户,作为决策的依据。
2.1 数据挖掘原理
数据挖掘又称为数据库中的知识发现(Knowledge Diseoveryin Databases,KDD),是一个从数据库或数据仓库中发现并抽取隐含的、明显未知的、具有潜在用处的信息的过程。数据挖掘一般流程主要包括三个阶段:数据准备、数据挖掘、结果解释和评价。在数据挖掘的处理过程中,数据挖掘分析方法是最为关键的。
(1)数据准备。数据准备是从海量数据源得到数据挖掘所用的数据,将数据集成到一起的过程。由于数据收集阶段得到的数据可能有一定的污染,即数据可能存在不一致,或有缺失数据、脏数据的存在,因此需通过数据整理,对数据进行清洗及预处理。
(2)数据挖掘。是数据挖掘中最关键的一步,使用智能的方法提取数据模式,例如决策树、分类和聚类、关联规则和神经网络等。首先决定要提取什么样的模型,然后选取相应的算法参数,分析数据从而得到可能形成知识的模式模型。
(3)结果解释和评价。数据挖掘后的结果需要转换成用户能够理解的规则或模式,并根据其是否对决策问题具有实际意义进行评价。
2.2 数据挖掘技术在营销中的应用
无差别的大众媒体营销已经无法满足零和的市场环境下的竞争要求。精准营销是企业现在及未来的发展方向,在精准营销领域,最常用的数据挖掘分析方法包括分类、聚类和关联三类。
(1)关联规则。挖掘关联规则就是发现存在于大量数据集中的关联性或相关性,例如空间关联挖掘出啤酒与尿布效应;时间关联挖掘出孕婴用品与家居装修关系;时间关联挖掘出调味品、纸巾与化妆品的消费等。
此外,关联规则发现也可用于序列模式发现。序列模式发现的侧重点在于分析数据项集在时间上或序列上的前后(因果)规律,可以看作是一种特定的关联规则。例如顾客在购买了打印机后在一段时间内是否会购买墨盒。
(2)分类分析。分类是假定数据库中的每个对象属于一个预先给定的类,从而将数据库中的数据分配到给定的类中。它属于预测性模型,例如在银行业,事先定义用户的信用状况分为两类:信用好和信用坏,对于一个信用状态未知的用户,如果需要确定其信用度,可以采用“决策树”法构建一个分类模型,决策树方法着眼于从一组无次序、无规则的客户数据库中推理出决策树表现形式的分类规则。决策树的非叶子节点均是客户的一些基本特征,叶子节点是客户分类标识,由根节点至上而下,到每个叶子节点,就生成了一条规则,由该决策树可以得到很多规则,构成了一个规则集合,从而进行数据分析。
(3)聚类分析。聚类是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。为品牌找客户,回答品牌“谁来卖”是精准营销首先要解决的问题,科学细分客户是解决这一问题的有效手段。聚类可以将目标客户分成多个类,同一个类中的客户有很大的相似性,表现在购买行为的高度一致,不同类间的客户有很大的相异性,表现在购买行为的截然不同。
3 结语
大数据时代背景下“数据成为资产”,数据挖掘技术作为支撑精准营销的重要手段,将它应用于营销行业的决策中,不仅拓展了数据挖掘技术的应用范围,而且大数据时代的数据挖掘技术可以帮助企业获得突破性回报。
参考文献
[1]维克托・迈尔―舍恩伯格;肯尼思・库克耶.大数据时代:生活、工作与思维的大变革[M].周涛译.杭州:浙江人民出版社,2013.
[2]王伟玲.大数据产业的战略价值研究与思考.技术经济与管理研究[J],2015(1).
【关键词】大数据 数据挖掘 分类 聚类
大数据(Big Data),也称为海量数据,是随着计算机技术及互联网技术的高速发展而产生的独特数据现象。现代社会正以不可想象的速度产生大量数据,如网络访问,微博微信,视频图片,手机通信,网上购物……等等都在不断产生大量的数据。如何更好的利用和分析产生的数据,从而为人类使用,这是非常重要的科学研究。在大数据时代,更好的利用云计算以及数据挖掘,显得尤为重要。
1 大数据的概念
大数据,是指无法在一定时间内用常规机器和软硬件对其进行感知、获取、管理、处理和服务的数据集合。IBM将大数据的特点总结为三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。
即产生的数据容量大。数据主要来源如:E-mail、搜索引擎的搜索、图片、音频、视频、社交网站、微博微信、各种应用软件和app、电子商务以及电子通信等等。在实际生活中,电子商务的购物平台数量和种类越来越多,社交网站的典型facebook的数据量大的惊人,以PB计量都不够。数据存储的单位不仅仅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每个单位的关系为后者是前者的1024倍,如1PB=1024TB。同时大数据的增长速度是越来越快,如手机相机的像素数随着新款手机的出现而成倍的增长。
1.2 多样化
从数据组织形式的角度将数据分为结构化数据和非结构化数据。结构化数据,具有一定的规律,可以使用二维表结构来表示,并存储在数据库中,如高校的教务管理系统的数据、银行交易产生的数据。而非结构化数据是无法通过预先定义的数据模型表达并存储在数据库中的数据,如声音、视频和图片等等。当前非结构化数据的增长速度远远超过结构化数据。
1.3 快速化
在当前商业竞争激烈的时代,对实时的数据进行分析和处理,挖掘有用的数据信息,并用于商业运作,对于企业和组织来说非常重要。如现在网络购物会依据多数人的购物组合,分析出大部分人在购买一件物品的同时会同时购买其他的物品,从而在购物选择时给予方便,提高网购的效率,提高效益。
随着互联网技术和计算机技术的快速发展,在产生大数据的同时,人们要能够对这些数据加以利用,得到有用的信息,才是最重要的。为了让海量规模的数据能够真正发挥巨大的作用,需要将这些数据转换为有用的信息和知识,即从传统的数据统计向数据挖掘和分析进行转换。比如沃尔玛超市能够从男人购物时买啤酒的同时会购买小孩的纸尿裤这种关联,并在实际物品摆放时将这两种物品放置在一起,方便用户购物。
2 数据挖掘
随着信息技术应用的广泛,大量的数据产生并存储各个领域的信息系统中,数据呈现了爆炸式的增长。数据挖掘在这种“数据爆炸,知识匮乏”的情况下出现的。数据挖掘(Data mining)是一个多学科交叉的研究领域,它融合了数据库技术、机器学习、人工智能、知识工程和统计学等学科领域。数据挖掘在很多领域尤其是电信、银行、交通、保险和零售等商业领域得到广泛的应用。
数据挖掘也称为从数据中发现知识,具体来讲就是从大规模海量数据中抽取人们所感兴趣的非平凡的、隐含的、事先未知的和具有潜在用途的模式或者知识。
3 数据挖掘的主要研究内容
数据挖掘的任务是发现隐藏在数据中的模式,其模式分为两大类:描述型模式和预测型模式。描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性。预测型模式则是以时间为主要关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。常使用的算法有:
3.1 聚类分析
聚类是将数据划分成群组的过程,根据数量本身的自然分布性质,数据变量之间存在的程度不同的相似性(亲疏关系),按照一定的准则将最相似的数据聚集成簇。主要包括划分聚类算法,层次聚类算法和密度聚类算法等。经典算法有K-Means、K-Medoids。
3.2 特性选择
特性选择是指为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关和冗余的属性。特性选择用于在建立分类模型前,或者预测模型之前,对原始数据库进行预处理。常用的算法有最小描述长度法。
3.3 特征抽取
特征抽取式数据挖掘技术的常用方法,是一个属性降维的过程,实际为变换属性,经变换了的属性或者特性,是原来属性集的线性合并,出现更小更精的一组属性。常用算法如主成分分析法、因子分析法和非负矩阵因子法等。
3.4 关联规则
关联规则挖掘是数据挖掘领域中研究最为广泛和和活跃的方法之一。最初的研究动机是针对购物篮分析问题提出的,目的是为了解决发现交易数据库中不同商品之间的联系规则。关联规则是指大量数据中项集之间的有趣关联或相关关系。常用的算法有Apriori算法。
3.5 分类和预测
分类是应用已知的一些属性数据去推测一个未知的离散型的属性数据,而这个被推测的属性数据的可取值是预先定义的。要很好的实现推测,需要事先定义一个分类模型。可用于分类的算法有决策树、朴素贝叶斯分类、神经网络、logistic回归和支持向量机等。
4 结论
随着时代的进步,数据也发生变化,具有各种各样的复杂形式。很多研究机构和个人在对结构化数据进行数据挖掘的同时,也展开了对空间数据、多媒体数据、时序数据和序列数据、文本和Web等数据进行数据挖掘和分析。同时大数据的发展促进了云计算的产生,基于云计算的数据挖掘也在迅速崛起。
参考文献
[1]刘军.大数据处理[M].北京:人民邮电出版社,2013(09).
[2]王元卓等.网络大数据:现状与展望[J].计算机学报,2013(06).
[3]申彦.大规模数据集高效数据挖掘算法研究[D].江苏大学,2013(06).
[4](加)洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014.
[5]贺瑶等.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013(02).
作者简介
许凡(1996-),男,江苏省南京市人。现就读三江学院计算机科学与工程学院计算机软件工程专业本科。
中图分类号:G642文献标识码:A文章编号:1003-2851(2009)12-0174-01
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。
一、 Web数据挖掘定义及分类
Web数据挖掘(Web Date Mining),简称Web挖掘,是数据挖掘技术在Web环境下的应用,是从数据挖掘、计算机技术、信息科学等多个领域进行的一项技术。
Web 数据挖掘的分类根据数据挖掘对象的不同可以将Web数据挖掘分为Web 内容挖掘、Web 结构挖掘和Web 访问信息挖掘三类(见图1)。Web 内容挖掘就是指从Web 的文档中发现提取有用信息; Web 结构挖掘是指对html 页面间的链接结构进行挖掘; Web 访问信息挖掘是从网络访问者的交谈或活动中提取信息。
二、 Web数据挖掘的过程
数据挖掘的过程可以分为6个步骤:
(一)理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。
(二)理解数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。
(三)准备数据:将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换和数据清理等。
(四)建模:选择和应用各种建模技术,并对其参数进行优化。
(五)模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的。
三、Web 数据挖掘的常用工具
Web 数据挖掘工具如果按用途分, 可分为: Web 文本信息挖掘工具、用户访问模式挖掘工具或用户导航行为挖掘工具和综合性的web分析工具。Web 文本信息挖掘工具主要完成两方面的功能: 信息检索和对文本的分析。IBM 公司的产品Intelligent Miner 中的web 挖掘工具Intelligent Miner for Text 就是比较好的文本信息挖掘工具。用户模式挖掘工具通常实现的方法是对Sever Logs、Error Logs 和Cookie Logs 等日志文件分析挖掘出用户访问行为、频度和内容等信息, 从而找出一定的模式和规则。由Sstphen Tumer 博士编制的免费个人软件Analog 是一个用来分析Server Logs 的工具。
四、数据挖掘的应用现状
数据挖掘是一个新兴的边缘学科,它汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。多学科的相互交融和相互促进,使得这一新学科得以蓬勃发展,而且已初具规模。在美国国家科学基金会(NSF)的数据库研究项目中,KDD被列为90年代最有价值的研究项目。人工智能研究领域的科学家也普遍认为,下一个人工智能应用的重要课题之一,将是以机器学习算法为主要工具的大规模的数据库知识发现。尽管数据挖掘还是一个很新的研究课题,但它所固有的为企业创造巨大经济效益的潜力,已使其很快有了许多成功的应用,具有代表性的应用领域有市场预测、投资、制造业、银行、通讯等。
美国钢铁公司和神户钢铁公司利用基于数据挖掘技术的ISPA系统,研究分析产品性能规律和进行质量控制,取得了显著效果。通用电器公司(GE)与法国飞机发动机制造公司(sNEcMA),利用数据挖掘技术研制了CASSIOP.EE质量控制系统,被三家欧洲航空公司用于诊断和预测渡音737的故障,带来了可观的经济效益。该系统于1996年获欧洲一等创造性应用奖。