数据挖掘技术应用汇总十篇

时间:2023-03-13 11:05:25

序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据挖掘技术应用范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。

数据挖掘技术应用

篇(1)

中图法分类号:TP274文献标识码:A文章编号:1009-3044(2010)22-6231-02

Survey on Data Mining Technology

WANG Wen

(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.

Key words: data mining; user preference; examination system; intrusion detection system

随着时代的发展,计算机科学在以飞快的速度前进着。在计算机科学的众多领域中,人工智能是最富有挑战性和创造性的一个领域。近几十年来,随着人工智能技术的日渐成熟,人们对人工智能的研究更加深入,对人工智能更加重视。科学界对于人工智能的重要性也已形成共识。

自进入21世纪以来,电子数据获取与计算机技术方面的不断发展以及网络的广泛普及与应用,人们日常生活中接收的数据和信息较以往正以飞快的速度增加,因而形成了独特的知识爆炸时代。就在最近几十年很多超大型数据库的产生使得整个社会发生着天翻地覆的变化,遍及银行存款、超级市场销售、粒子物理、天文学、化学、医学以及政府统计等领域。在这个数字化、信息化时代,这么大规模的数据库以及以后可能诞生的更大规模的数据库的数据管理问题将会是以后对数据处理的一个重要关注点。众多科技工作者共同关注的焦点集中在了如何从这些大型数据库中发现有用的、信息、模式以及如何实现有效的数据处理方法。因而“数据挖掘”(Data Mining) 的新领域逐渐走进了人们的事业,并且在人们的关注和不断研究下飞速发展,这是一个与统计学、人工智能、模式识别、机器学习、数据库技术以及高性能并行计算等领域都有很大相关的新学科,正是计算机学科的一个研究重点。

1 数据挖掘的一般过程

数据挖掘一般分为如下四个步骤(图1)。

1.1 数据预处理

收集和净化来自各种数据源或数据仓库的信息,并加以存储, 一般存于数据仓库中。

1.2 模型搜索

利用数据挖掘在数据库中匹配模型,这个搜索过程可以由系统自动执行,自下而上搜索原始数据以发现它们之间的某种联系;也可以进行用户交互,由分析人员发问,自顶向下寻找以验证假设的正确性。一个问题的搜索过程可能用到许多模型,如神经网络、基于规则的系统(决策树)、机器学习、基于实例的推理等。

1.3 评价输出结果

一般来说,数据挖掘的搜索过程需要反复多次,当分析人员评价输出结果后,它们可能会形成一些新的问题,或者要求对某一方面作更精细的查询,通过反复的搜索过程即可满足分析人员的这种需求。

1.4 生成报告

知识的发现过程可以由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示等几个步骤组成。数据挖掘可以与用户或知识库交互,把用户关心的模式提交给广大用户,或作为新的知识存放在知识库中。

2 数据挖掘应用

2.1 数据挖掘在实现网站用户偏好度的应用

数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。使数据能够被更加高效的利用,对无用的数据加以摒弃,是数据挖掘技术最主要的实现形式,也是其最重要的应用方式。传统的数据库中的数据相对于Web的数据而言,其结构性很强,是完全结构化的数据,而半结构化则是Web上的数据最大特点。因而,面向单个数据仓库的数据挖掘较之面向Web的数据挖掘比要简单许多。据统计,网站上的绝大部分内容对绝大部分用户来说是无用的信息。事实是对于某个特定用户来说,其关心的内容仅是网站上极小部分的内容,而网站上提供的更多的内容对于这个用户来说是其不感兴趣的,并且过多的信息往往会掩盖有用的信息,使得用户的查询效率降低,并且对于网站也不是一件利事。

对于Web数据挖掘技术而言,半结构化数据源模型和半结构化数据模型的查询与集成问题是应当首要解决的问题。解决Web上的异构数据的集成与查询问题,有一个模型来清晰地描述Web上的数据是很必要的。因此,针对数据半结构化的Web数据的特点,寻找一个半结构化的数据模型至关重要。并且除此定义一个半结构化数据模型之外,一种半结构化模型抽取技术(自动地从现有数据中抽取半结构化模型的技术)也是应当提出的。因而半结构化模型和半结构化数据模型抽取技术是面向Web的数据挖掘实现的重要前提。

用户浏览网站上的内容时,他会被很的多因素影响,网页的外观,信息标题,网页链接以及个人的兴趣和习惯等等。我们可以设定合理的假设,建立他们之间的模型,利用以上提到的方法解决用户偏好度的问题。

2.2 数据挖掘在在线考试系统方面的应用

数据挖掘在在线考试系统方面的应用最主要体现在题库的构建,下面分别介绍题库的构建中数据挖掘的应用情况。

在设计数据库方面,数据库主要由题库、答案库和答案关键字库构成,题型库又涵括科目、题号、题型、题目、难度、分值等字段;答案库中包含科目、题号、分值、答案以及在同一题中有不同答案时应提供的不同答案序号等字段;答案关键字库中有题号、答案序号、权重和答案关键字。此后在将答案录入答案库。对于客观题而言,仅仅需要录入唯一的答案;但对于主观题而言,则需要尽量给出多个参考答案并将每个答案的关键字及其所对应的权值、答案序号输入答案关键字库。

通常有两类数据挖掘方法:①统计型,应用概率分析、相关性、聚类分析和判别分析等技术得以实现;②通过人工智能中的机器学习,经过训练以及学习输入大量的样品集,以得出需要的模式或参数。由于每一种方法都根据其特点都有其优势以及相应的引用领域,最后结果的质量和效果将受到数据挖掘技术选择的影响,采用多种技术结合的方法,其各自的优势可以达到互补的要求,从而实现最佳配置。下面介绍了两种数据挖掘方法: ①决策树算法:为每个问题的答案构造一个二叉树,每个分支或者是一个新的决策点,或者是一个叶子节点。在沿着决策树从上到下的遍历过程中,对每个问题的不同回答导致不同的分支,最后到达一个叶子节点,每个叶子节点都会对应确定的权值,通过对权值的计算判定得分;②模糊论方法:利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。由于主观题答案很灵活,答案不可能完全匹配,采用此方法将考生答案与答案库中的答案进行对照,以确定答案的正确度,从而更客观准确地评定主观题分数。

2.3 数据挖掘在网络入侵检测系统方面的应用

入侵检测就是通过运用一些分析方法对从各种渠道获得的反映网络状况和网络行为的数据进行分析、提炼,再根据分析结果对这些数据进行评价,从而能够识别出正常和异常的数据或者对潜在的新型入侵做出预测,以保证网络的安全运行。

基于分布式数据挖掘的入侵检测系统要对一个网段上的信息进行全面而细致的监测,同时在网络上多个点进行数据采集,如网关和特别需要保护的服务器等。整个系统构成分为本地分类器、规则学习模块和集中分类器三块基本构件。本地分类器负责对从网络上各个点采集到的数据通过预处理模块去除掉无效数据,并将原始数据处理成为以后进行数据挖掘算法可识别的格式,以实现对数据的初步检测和处理。本地分类器有2个输出:一个输出为分类数据,用于提交给规则学习模块,另外一个为数据摘要,用于提交给集中分类器。规则学习模块负责对标记过的分类数据进行深层次的数据挖掘,从而学习到新的知识。学习到的知识被直接录入到规则库中,这样保证了规则库可以根据网上的变化可以随时达到更新的需求。另外一种方式是通过规则学习模块实现人工训练系统,从而实现升级规则库的需求。最后将分布式数据挖掘的结果形成数据摘要发送给集中分类器,由集中分类器对各点数据摘要进行汇集,从而做出综合判断,达到有效地检测协同攻击的效果,最后将检测结果提交给决策模块。

3 结束语

数据挖掘技术是人工智能学科的一个重要分支,也是现代计算机科学的一个研究重点。现在基于数据挖掘技术的科研可以说是硕果累累,自从人工智能这个概念被提出来之后,其发展一直是计算机学科的热门而且其分支广而泛,都在不同的领域发挥着十分重要的作用。相信在计算机研究人员的不断努力下数据挖掘会在更多的方面服务人们,并且期待着新的理论的提出。

参考文献:

[1] 何克抗.建立题库的理论[M].长沙:国防科技大学出版社,1995.

[2] 刘波,段丽艳.一个基于Internet的通用题库系统的设计与实现[J].华南师范大学学报:自然科学版,2000(1):39-44.

篇(2)

关键词:

大数据时代数据挖掘技术分析和研究运用数据挖掘技术,也被称为数字处理技术,顾名思义,就是对于目前各大企业的内部数据,进行整理、调整、挖掘实施以及评估等一系列处理操作,其主要的目标是保证全局数据都能够得到充分的优化。而大数据则是区分于以往抽样调查的方法,而是对于全局数据进行分析,从而保证分析的全面以及完成。而大数据技术也包含4个优点,即高数量、高速度、多元化以及高价值。而笔者将通过本文,就大数据时代的数据挖掘技术与应用进行分析和探讨。

1相关概念的简介

1.1大数据的概念关于大数据的理念提出,可以追溯到麦肯锡研究院于2011年的《大数据:创新、竞争和生产力的下一个新领域》,其中阐述的观念就涵盖数据方面,即数据已经融入到了人们的日常生活中,也是生产运作的一个重要因素。而大数据的运用,对于消费以及生产水平都是一种有效的提升提升,根据美国曾经的《大数据研究和发展倡议》资料,截至2011年一年,全球总的数据就增加了1.8ZB,而进行人均计算,相当于每个人都具有至少200GB的数据资源,而且这一数据还在呈现出日益增长的趋势,根据统计计算,这一数值将会按照约为50%/年的速度增长。

1.2数据挖掘作为一个新型学科,数据挖掘技术源于20世纪的80年代,那时其效用与目前存在本质差异,科学家最初研究大数据,主要是用于一些人工智能技术的开发。简而言之,技术层面上,数据挖掘就是一个对数据进行发掘创新的过程,即要求目标数据具有隐蔽性、挖掘价值以及挖掘潜力,而且需要操作者在一堆冗杂的、随机的、模糊的数据库中进行挖掘;而对于商业层面上来说,数据挖掘就是在一些大量的数据信息中获得规律以及价值信息,从而为决策提供重要的知识凭据。

2数据挖掘的研究手段

对于数据挖掘而言,不同的研究手段将是其开展的重要基础,而研究手段的决定,主要需要依靠科学的计算为依据,分析和对比数据中存在的一些不为人知的规则,然后通过研究手段的改变去应付不同的问题,对于实际操作来说,就是针对不同的数据找出不同的解决方法,而常见数据挖掘的研究手段主要可以分为四类,即聚类研究、分类和预测以及关联研究。

2.1聚类研究将抽选的数据或者对象的库进行类似“分类”的聚类划分,然后再将其中的相同或者相近的数据划分为一个组类,由此建立起多个组类开展研究的过程。整个过程突出的是一种无知识基础、无监督管控的学习过程。而整个过程由于分类研究有本质的差异,因为聚类研究在事先根本无法得到目标的重要属性数据,而这种分析方法主要可以用于多个区域,例如心理、统计、医药、销售以及数据识别等,而根据其隶属度的取值,有能将其分为两种研究方法,即硬聚类与模糊聚类,对于前者来说,就是将目标按照影响标准进行划分,即目标如果属于某类,必定不属于其他类;而对于后者来说,主要取决与隶属度的取值不同。而划分过程可能会将目标划分入多个聚类中。此外聚类的计算方法也能分为多种,即包含密度算法、层次算法、划分算法、网格算法以及模型算法等等。

2.2分类与估测对于分类与数值估测来说,都是属于是问题预测方式,其中前者要求估测各个类中的标号,这些标号都是分散且无规律的,而估测方法可以采用函数模型,要求模型类型为连续值函数。分类估测作为数据挖掘的起始工作,主要需要反应已经获知的训练数据库的特点,从而根据以上基础完成其中对每一类的情况以及特点完成相应的分类操作,而整个操作也是受到督促的,对于一般的分类算法可以有决策树、粗糙集、贝叶斯、遗传等算法,而估测主要是基于分类以及回归基础,估测数据将来的动向,即包含局势外推、时间序列以及回归分析几类。

2.3关联研究关联研究是源于自然生物间微妙的关系,而某事情的发生和发展也会引发连锁的事情发展,也就类似所谓“蝴蝶效应”的定义。而关联研究的研究目标即是研究物与物之间的微妙关系,包含一些依赖关系等等,从而找出其中的规则,基于规则,分析将来的动向。以购物为例,分析购物者的心理规律以及习惯,可以从他们对于购物的一系列表现,例如购物篮的物品类型、放置规律、购物消费理念、购物环境需求等等,而掌握这些规律,足以让一个销售企业获得巨大的消费市场以及商机。

3大数据时代的数据挖掘的运用

3.1数据准备准备流程需要依附于研究者已经建立起长期且丰富数据资源的数据库,而根据这些无规则的原始数据进行相应的挖掘前的准备的工作,例如数据的处理、择取、清除、推敲以及转变,作为基础的流程,数据准备操作在整个流程中起到重要的基础作用。

3.2数据挖掘开展数据挖掘操作,需要根据挖掘对象的情况择选最优的计算方法,从而获取其中的规律性,例如对应采用决策树算法、分类算法、神经网络算法以及Apriori算法等。

3.3数据挖掘的模式评估研究模式评估的对象主要是通过数据挖掘处理过程数据,而评估流程是了解、研究且取得其中数据的规则,然后对数据进行转变“翻译”成通俗易懂的语言,供人们去研究和思考。

3.4数据挖掘的知识应用知识应用是数据挖掘的最后一步,通常知识运用就是一种现实运用的过程,通过数据准备、挖掘、研究评估,最后将结果数据或者规律用于现实中,从而体现数据的本身的价值,这就是知识应用的内涵。

4大数据时代的数据挖掘的运用

4.1市场营销方面市场营销行业已经是目前数据挖掘采用最多的行业,数据挖掘的作用主要体现在的对于消费者群体的消费习惯以及行为进行解析,从而改变销售方法,提升产品的销售量,此外,除了一些购物消费以外,数据挖掘技术以及拓展到了各大金融行业,例如保险行业、银行行业以及电子商务行业等等。例如:在市场营销方面,采用数据挖掘中的聚类研究,即客户一系列无规则、无意识的行为数据,对他们进行识别,即根据客户的忠诚度、消费意识进行分类,帮助企业寻找其中的潜在客户以及固定客户群。

4.2数据挖掘的科学分析科学本身就是一个寻找规律、发现规律以及利用规律的过程,而且任何科学研究都是需要基于数据作为基础,所以数据挖掘对于科学领域也具有重要的意义和价值,特别是针对一些未知的事物、领域或者知识,通过数据挖掘可以有效展示数据规则。例如对于太空行星的分析,遗传基因DNA的数据以及遗传规律等。

4.3制造业与其他行业不同,制造业运用数据挖掘的目的主要是产品质量检查方面,例如研究产品的数据,找出其中规则。分析整体生产流程,解析其中过程,找出影响生产质量以及效率的问题,然后通过对这些问题进行解决,提升企业经济效益。对于制造业而言,数据挖掘运用主要体现在决策方面,即首先通过数据筛选,获取有用的知识和数据,然后采用决策树算法,统计决策,然后选择其中正确的决策,即像根据目前产品的流行情况,预测目前生产产品的受欢迎度,然后决策生产的时间以及周期。

4.4教育方面对于教育行业来说,最重要的除了教师的教学方法以外,学生的学习情况、心理动向以及教学评估都是十分重要的,采用数据挖掘技术,则可以有效将这些数据通过分类、筛选以及处理,得出有效的数据规则,供学校教学改革时进行参考。例如:教学质量评估数据挖掘模块的开发,即将教学质量相关的项目通过QSLSevrer进行整合和存储,例如教学准备、教学内容、教学方式以及教学态度等,最后学生可以进行自行浏览并且完成评估,而评估结果则会上传系统进行最后通过数据挖掘,筛选其中有用的信息,再通过Apr1ori算法挖掘其中关联规律。

5结语

虽然数据挖掘技术不是一项新兴的技术,但是其还具有较大的研究价值与运用前景,特别是在特殊领域的运用,对于一系列数据进行科学冗杂的处理,然后分析其中规则价值,可以有效提升各大行业的经济效益。

参考文献

[1]赵倩倩,程国建,冀乾宇,戎腾学.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014,11(33):7831-7833.

篇(3)

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)09-0239-02

Abstract: along with our country social improvement, economic development,meteorological services in China has been developed greatly in the process.In the process of the development of meteorological services, meteorological data along with the increasing scale and coverage. In the face of this part of the huge data, how to effectively search, its use has become a problem of great concern to the industry of our country. In this paper, the application of data mining technology in meteorological data on the study and analysis of some.

Key words: data mining; meteorological data; application

对于气象数据的收集与分析有利于帮助我们对不同地区所具有的气象条件以及气象规律进行把握,以此使我们能够更好的对该地区某一时段下的气象情况进行预测。但是,这种数据的收集就会使我们所具有的气象数据资料越来越多,难以对其进行管理与应用。仅仅通过我们计算机方式的应用,也很难对这种规模较大的数据集进行处理,在这种情况下,就需要我们能够以数据挖掘技术的应用更好的实现气象数据的管理。

1 数据挖掘流程

1.1 确定对象

在开展数据挖掘工作中,首先需要对业务所具有的问题进行明确的定义,帮助我们对数据挖掘的目的进行确定。虽然对于我们后续数据的挖掘结果会具有一定的不可预测性,但是对于我们问题探索的目标却需要具有良好的预见性,并以此针对性目标的确定帮助我们更好的开展后续工作。

1.2 数据准备

在这个环节中,主要具有数据预处理、数据转换以及数据选择这三个主要步骤。其中,数据选择是对同本次业务具有关联的维度或者数据进行选择,并从中选择出适合本次数据挖掘工作的相关数据;数据预处理则是对本次研究数据所具有的质量进行研究,并以此帮助我们为后续的进一步分析作出准备,同时对数据操作所具有的类型进行确定;数据转换则是要将不同类型数据通过一定的方式将其转换为我们所需要的数据分析模型,对于该模型而言,其是针对我们原有挖掘算法而建立的,而这种分析模型的建立也是我们开展数据挖掘工作的重要基础与重点环节。

1.3 数据挖掘

数据挖掘正是我们本次工作的核心环节,需要对所有数据预处理完成的、经过转换的数据进行全面的挖掘。在此过程中,除了需要我们以人工的方式对适合本次挖掘工作所使用的算法进行选择之外,其余的工作都会以自动的方式开展。

1.4 结果解释与评价

在我们数据挖掘工作结束之后,往往会得到一系列规则集,而这部分规则集通常需要在专业人员对其进行一定的研究与合理的解释才能够被人们更好的掌握。对此,就需要我们对本次数据挖掘结果进行适当的解释与评价,进而使其能够具有更好的易用性以及广泛性。

2气象资料特点

2.1 数据量大

气象资料可以说是我国历史最为久远、保存最为系统且完善的一类资源信息。尤其随着改革开放之后,我国已经积累了数量非常多的气象基础数据以及信息,且新的气象数据资料也以非常快的速度在每年增长,在我们实际处理时经常会出现冗余情况。

2.2 多样性

气象信息具有着非常多样化的种类,如高空气象资料、农业气象资料、日地物理资料、雷达资料、气象辐射资料、冰雪圈资料、土壤与植被资料、气象灾害资料、地面气象资料、水文气象资料以及卫星资料等等。而气象资料所具有的载体也具有着很多种方式,如不同气象站所的气象原始报表,不同省市所的气象卫星云图以及雷达图等等。

2.3 多维性

在气象资料中,通常都具有着较多的气象要素,如高空资料以及地面资料往往具有着温度、日照以及气温等很多种要素。而在每一类要素中,也都具有着其所独特的属性维度。也正是根据这种特点,则使气象资料往往具有着较为明显的多为特征。

2.4 复杂性

气象资料中所常见的数据类型主要有标称类型、二元类型、数值类型以及序列类型等等。比如降雨与否为二元类型、气压为数值类型等等。

2.5 连续性

在气象站中,无论是高空站还是地面站,其所具有的气象要素属性值都是一种具有连续特征的数值,比如气压、温度以及气温要素。

3 气象资料预处理

3.1 缺失值处理

在SPSS软件中,具有着很多种对于数据的缺失值处理方式。而对于气象数据来说,由于其所具有的变化是一个能量的动态变化过程,对此,我们对于气象数据所具有的缺失值则使用Mean of nearby points方式进行,并对其中所具有的缺失值根据邻近三个小时所具有的数据平均值对缺失值进行替代。

3.2 气象资料属性泛化

在数据维度泛化方面,需要严格的按照我国相关标准开展工作,比如在二氧化硫数据的泛化方面,其是否存在超标情况则需要根据我国所制定的污染物浓度标准对其进行泛化。即如果CO2所执行的为一级标准,那么则可以根据其每小时所具有的浓度值同标准中的参考值0.15进行比对,并以此帮助我们判断该项参数是否存在超标的现象。而对于其所具有的超标、不超标现象来说,我们则需要在对结果判断之后将其标记为(是,否)二元属性值。

3.3 气象资料标准化

在气象数据资料中,不同维度间数据往往具有着不一致的量纲,而我们在对其开展定量量测以及聚类分析时,也经常由于量纲所具有的不同而对最终的分析结果产生较大的影响。一般情况下,气象资料中所具有的风向数值都会控制在0至360之间,而如果污染因子的单位为毫克,那么其所具有的范围则会在0至1之间,我们在对聚类进行应用时如果以距离作为评价,其主要依据则会在两个维度中更加倾向于风向维护。而为了能够对这部分维度间所具有的影响进行消除,就需要我们对这部分重点维度开展标准化预处理。在气象数据的标准化处理中,具有着很多种方式,Z标准化是我们应用较多的一类方式,即均值为0,方差为1。

3.4 气象资料维归约

在气象资料中有时候维度之间具有很强的依赖性或者说相关性,对于维度之间的这种依赖性或者相关性有时候在数据分析时候由于数据量巨大会导致多余的计算,所以对于一些需要把握主要的或者消除冗余的数据来进行数据分析时就可以采用主成分分析方法或者计算相关性来消除这些冗余的属性维度。

4 气象资料孤立点分析

在气象资料中的庞大数据中,我们在对其进行分析时往往忽略了孤立点的存在,或者忽略了孤立点所具有的特殊意义。通常来说,人们认为孤立点仅仅是噪声数据的一种,且经常将孤立点分析这项工作作为了数据预处理进行处理,仅仅对其中可能对数据挖掘整体结果产生影响的因素进行了剔除。但是,在气象数据中,这部分孤立点往往具有着非常特殊的意义,通过孤立点数据的分析与检测,很容易帮助我们对很多灾害气象进行分析。目前,对于孤立点进行分析的技术主要有以下几种:

4.1 基于统计方式

首先,需要假设我们所具有的数据集能够满足某一种概率的分布形式,之后再根据其所具有的这种独特概率对数据集进行拟合,并通过不一致检验方式的应用对其中很多个数据对象开展不一致性测试。如果经过测试发现其存在着不符合的情况,就可以认为其是一个孤立点。

4.2 基于距离方式

在该种方式中,我们可以将对于孤立点的分析视作邻居对象不充分的集合,且这种邻居对象也是根据对象所具有的距离进行定义的。通常来说,人们仅仅会通过DB(p,d)的应用对全局孤立点进行发现,而对于局部孤立点却很难判断。对此,我们则可以认为孤立点概念不需要以一分为二的属性对其分离,而可以通过对象孤立度的制定对其所具有的模糊度进行衡量。

4.3 基于密度方式

基于密度的孤立点分析就是探测局部密度,通过不同的密度估计策略来检查

孤立点。密度即指任一点和 p 距离小于给定半径 R 的领域空间数据点的个数。基于密度的孤立点分析最显著的特点就是给定了对象是孤立点程度的定量量度,并且是数据具有不同密度的区域也能得到很好的处理。基于密度的孤立点分析较基于距离的孤立点分析更合理,但数据的计算复杂度较基于距离的孤立点分析要高许多。

4.4 基于聚类方式

聚类分析是用来发现数据集中强相关联的对象组,而孤立点检测是发现不与其他对象组强关联的对象。因此,孤立点分析与聚类是两个相互对立的过程。首先聚类所有的对象,然后评估对象属于簇的程度,对于基原型的聚类,可以用对象到它的簇中心的距离来衡量对象属于簇的程度。

总得来说,数据挖掘技术在我国现今的气象数据处理中具有着较为重要的作用。在上文中,我们对于数据挖掘技术在气象数据中的应用进行了一定的研究,而在实际操作过程中,也需要我们在联系数据类别的基础上通过数据挖掘技术的应用获得更好的气象分析效果。

参考文献:

篇(4)

根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。

一、客户关系管理(CRM)

CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。

二、数据挖掘(DM)

数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。

常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。

三、数据挖掘在客户关系管理中的应用

1.进行客户分类

客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。

2.进行客户识别和保留

(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户

这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。

(2)在客户保留中的应用

客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。

(3)对客户忠诚度进行分析

客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。

(4)对客户盈利能力分析和预测

对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。

(5)交叉销售和增量销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

四、客户关系管理应用数据挖掘的步骤

1.需求分析

只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。

2.建立数据库

这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为结果分析等数据传递给数据库用户。

3.选择合适的数据挖掘工具

如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。

4.建立模型

建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。

5.模型评估

为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。

6.部署和应用

将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当的调整,以使模型适应不断变化的环境。

参考文献:

[1]罗纳德.S.史威福特.客户关系管理[M].杨东龙译.北京:中国经济出版社,2002

[2]马刚:客户关系管理[M]大连:东北财经大学出版社,2008

[3]朱美珍:以数据挖掘提升客户关系管理[J].高科技产业技术与创新管理,2006,(27)

篇(5)

[中图分类号]TP[文献标识码]A[文章编号]1007-9416(2010)02-0079-02

1 前言

数据挖掘能帮助企业减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略,以用最小的花费得到最好的销售。

2 数据挖掘概述

数据挖掘是一种决策支持过程,是一类深层次的数据分析方法。它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性地推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的商业应用可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘,还可以称为数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的信息的高级处理过程。

2.1 数据挖掘是在数据库技术、人工智能技术、概率与数理统计的基础上发展起来的一种的技术。

2.1.1 数据库技术

SQL统治数据库查询语言标准三十多年这一事实本身就与现在 IT 发展的节拍不符,难道我们“只会查询”吗?所以就有很多专家纷纷转向数据仓库与数据挖掘技术,从数据查询转向数据挖掘、从数据演绎转向数据归纳。传统的数据库系统的体系结构也过于瘦少,只有不协调的两层,这样的结构就造成了只有程序员能编程,老板只能求助于这些“专家”。

2.1.2 人工智能技术

人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”直接制约了它在现实技术市场上的作为。而在与数据仓库技术的结合上,它可以发挥重要作用,这使得它转向数据挖掘技术。

2.1.3 概率与数理统计

数理统计技术是应用数学中最重要、最活跃的学科。但在与数据库技术的结合上作为有限,这从 SQL 中那可怜的几条汇总函数便可看出。随着数据挖掘对查询、归纳对演绎需求的进化,概率与数理统计将获得新的生命力。

2.2 数据挖掘中最常用的技术:

2.2.1 工神经网络(Artificial Neural Networks)

人工神经网络是仿照生理神经网络结构的非线性预测模型,通过学习进行模式识别。神经网络常用于两类问题:分类和回归。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。而神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上,为的是防止训练过度和控制训练的速度,如图1所示:

2.2.2 决策树 (Decision Tree)

决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据概述性字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支过程。决策树的基本组成部分:决策节点、分支和叶子。比如,在贷款申请中,要对申请的风险大小做出判断,为了解决这个问题而建立的一棵决策树,如图2所示:

2.2.3 临近搜索方法(Nearest Neighbor Method)

临近搜索方法将数据集合中每一个记录进行分类的方法。

2.2.4 规则推理(Rule Induction)

从统计意义上对数据中的“如果-那么”规则进行寻找和推导。

2.3 数据挖掘步骤

数据挖掘的数据分析过程可以分为三个步骤:

2.3.1 确定业务对象

清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

2.3.2 数据准备(Data Preparation)

本阶段又可进一步细分为两步:数据集成、数据选择和预分析。

(1)集成(Integration)。在这一步中,将从操作型环境中提取并集成数据,解决语义二义问题,消除脏数据等等。很明显,数据集成的目的和所利用的技术与数据仓库的数据集成完全一致,都是为了建立统一的数据视图。数据挖掘不一定需要建立在数据仓库的基础上,但如果数据挖掘与数据仓库能协同工作,则必将大大地提高数据挖掘的工作效率。

(2)数据选择和预分析(Data Selection and Pre-Analysis)。这一步将负责缩小数据范围,提高数据挖掘的质量,前面提到的验证型工具长于对数据的细致,深入地观察和表述,在这一步中可以发挥相当的作用。

2.3.3 挖掘(Mining)

数据挖掘(Data Mining processor)综合利用前面提到的四种数据挖掘方法分析数据库中的数据。

2.3.4 表述(Presentation)

与验证型工具一样,数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。由于用户要求的不同,DM分析的数据的范围会有所不同,这样DM系统会得出不同的结论。这些基于不同数据集合的分析结果除了通过可视化工具提供给用户外还可以存储在知识库中,供日后进一步分析和比较。

2.3.5 评价(Assess)

如果分析人员对分析结果不满意,可以递归的执行上述三个过程,直到满意为止。

3 数据挖掘在企业决策过程中的作用

3.1 数据挖掘的功能

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘就是对海量数据进行精加工。严格地说,数据挖掘是一种技术,从大量的数据中抽取出潜在的、不为人知的有价值信息、模式和趋势,然后以易于理解的可视化形式表达出来,其目的是为了提高市场决策能力、检测异常模式、控制可预见风险、在经验模型基础上预言未来趋势等。数据挖掘技术在商业领域已经不是一个新名词,最早成功应用于高投入、高风险、高回报的金融领域,正在不断向电信、保险、零售等客户资源信息密集的行业拓展。美国财富杂志500强之一的第一数据公司(First Data Corp.)就在为第一国家银行(First National Bank)、美国在线交易(Ameritrade holding Co.)、奥马哈保险公司(Mutual of Omaha Co.)等著名的金融证券和保险公司提供数据挖掘的产品服务,这些企业在风险控制、挖掘客户、降低成本方面的年收益数以亿计。

3.2 在企业决策过程中利用数据挖掘的作用

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

目前,商业数据挖掘的应用重点集中在对企业内部信息资源的加工处理,指导企业运营的战术策略的实施。具体地说,就是在以客户需求为价值源泉、进销存为价值链的各环节进行数据增值分析,并将分析结果迅速向链条的上一环节传递,调整链条上游的执行达到改善下游环节执行结果的目的,最终形成以客户终端需求为导向的价值增值。

部分企业资源计划软件中集成了对计划、生产、产品销售进行数据挖掘的模块,能够提供商业智能的分析结果;另外,客户需求的价值链终端是另一个数据挖掘技术应用的重点,客户关系管理的目的就是创造、挽留客户并不断升级对客户的服务,以保证企业利润的持续增长。“以客户为中心”的数据挖掘内容涵盖了客户需求分析、客户忠诚度分析、客户等级评估分析等三部分,有些还包括产品销售。

客户需求分析包括:消费习惯、消费频度、产品类型、服务方式、交易历史记录、需求变化趋势等因素分析。

客户忠诚度分析包括:客户服务持续时间、交易总数、客户满意程度、客户地理位置分布、客户消费心理等因素分析。

客户等级评估分析包括:客户消费规模、消费行为、客户履约情况、客户信用度等因素分析。

产品销售分析包括:区域市场、渠道市场、季节销售等因素分析。

然而,数据挖掘不仅仅用于客户关系管理,ERP更不能够完全覆盖数据挖掘的整个内涵。企业数据挖掘的内容不仅包括企业的内部信息资源,更包括大量的企业外部信息资源。商业数据挖掘的下一个应用热点将建立在两类信息资源充分整合的基础上。

相对于内部信息资源而言,企业外部的宏观政策环境、市场需求动向和竞争对手情报等信息资源左右着企业战略决策与宏观发展规划,也直接决定企业市场战术策略的实施,所以对信息资源的整合利用以及竞争情报分析将成为企业级数据挖掘应用的重点。

以IBM为例,为了导正企业战略决策方向,IBM于1993年提出三项竞争策略:立即加强对竞争对手的研究、建立一个协调统一的竞争情报运行机制以及将可操作的竞争情报运用于公司战略、市场计划及销售策略。其新的竞争策略通过研究市场格局和竞争对手的状况、合理定位并改善自身的产品和服务两个途径有效地提升了企业核心竞争力,采用的竞争情报运行机制及竞争情报规划能够把全公司的竞争情报力量集中于主要的竞争对手和主要威胁,不断地优化现有的情报资源。

随着企业市场竞争的日益加剧,企业竞争情报已经不限于原有意义上的数据采集、整理、分类、的概念,“在线”需求逐步超越“离线”需求,“受动式服务”正为“主动式、自助式”服务所取代,数据挖掘技术已经成为“信息分析”这个企业竞争情报系统中核心模块的技术支撑。“数据在线服务”和“竞争情报个性化服务”将成为企业级数据挖掘应用的新热点需求,也将成为知识经济下新兴的数据服务模式。

4 结语

数据挖掘的核心技术是人工智能、机器学习、统计学等,但一个DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其他辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表述这一系列任务,最后将分析结果呈现在用户面前。

[参考文献]

[1] 胡百敬,SQL Server 2000 数据转换服务[M],北京:中国铁道出版社,2003.1.

[2] Reed Jacobson,SQL Server 2000 Analysis services 学习指南[M].北京:机械工业出版社,2001.

[3] 韩加炜J.(Han,JiaWei),数据挖掘:概念与技术[M].北京:机械工业出版社,2001.

[4] 陈京民,数据仓库与数据挖掘[M],北京:电子工业出版社,2002.

[5] 李真文, SQL Server 2000 开发人员指南[M].北京:北京希望电子出版社,2001.

[6] 石钧.ADO编程技术[M].北京:清华大学出版社,2001.

篇(6)

doi:10.3969/j.issn.1673-0194.2015.02.044

[中图分类号]F270.7-TP311.13 [文献标识码]A [文章编号]1673-0194(2015)02-0058-01

1 数据挖掘技术的分析方法

现在作为数据挖掘的主要工作就是分析方法,只有科学、可信赖的算法才能够帮助数据进行挖掘工作,找寻数据中隐藏的一些规律。只有利用不同的分析方法,才能解决各种不同的问题。而现在常见的分析方法有聚类分析、分类和事先推测、关联分析。

1.1 聚类

聚类分析是将一组数据分类成相近性及有异性这样几个种类,这样做的目的就是将同一种类型的数据之间的相近性发展到最大化,不同种类之间数据的相近性尽可能的降低。这项分析方法可以用到客户团体的分类、客户背景分析、客户购买的事先推测、市场细分等。聚类分析广泛的存在于心理学、医学、数据识别等领域中。

1.2 分类及事先推测

分类是将数据库里面的数据对象的相同点按照分类的形式将其归为不同的类型。这样做的目的就是经过分类的形式把数据库中的数据项反射到特点的一个类型。这可以用到客户的分类、特性、满意程度、购买趋势等。而事先的推测是建立连续值函数模型,常见的方法有局势外推测法、时间序列法、回归分析的方法。

1.3 关联分析

在自然界中,每个事物之间都有一定的联系,如果发生一件事情,肯定会关联到其他的相应事件。关联分析就是利用到来事物之间存在的联系和相互之间的依赖性的规律,对于这些事件进行的预测。在数据库中的表现就是数据项之间存在的问题之间的关联,就是一个事物中的某一项事物可能会导致其他一系列事项的出现。对于企业的客户管理有着非常大的帮助,对于数据库中的数据进行挖掘,找出影响市场的因素,为各种活动提供依据。

1.4 特征

特征分析方法就是将数据库里面的一组数据抽取出有关这组数据的特征式,这种特征式能够表现出数据的整体的特征。就像营销工作人员对于客户流失数据的提取能够了解到原因,利用这些数据找到原因后就能帮助挽留客户。

2 数据挖掘在企业中的应用

2.1 市场营销和经营

数据挖掘最早应用的行业就是市场营销,市场营销行业利用数据挖掘技术对于用户进行分析挖掘来获得客户的消费习惯和特征,这样做的目的是来提升销售的业绩。当然,现在数据挖掘不仅是在超市购物上被利用,还普及到很多的金融行业。

经营上使用的具体实例:一些邮件类的广告上,可以根据数据挖掘帮助确定客户可能会购买的产品,这样可以节约很多的邮资,还能够帮助管理客户之间的关系,也就是经过分析那些可能走向竞争对手的客户的特点,这样就能针对性的来留住顾客。购买方式:利用数据挖掘技术给零售商提供方便,零售商能够通过这一技术确定顾客会购买哪些商品,还有就是在商店中该放那样的商品供顾客选择,目的是方便顾客购买,这样能够帮助销售量的提高。当然数据挖掘技术还能够帮助用户分析、评判促销活动会产生的成效。

2.2 电力、电信行业

随着数据挖掘技术的发展,电网业务在不断的进步和丰富。而电信行业快速的发展,电信技术和服务成为一个巨大的混合载体,对于市场关系、技术服务有极大的影响。对于企业的资源进行有效的整体和结合,形成一个非常大的关系网和信息数据系统。对这些数据进行挖掘成为解决各种问题的有效方法,为企业的发展有着非常重要的推动作用。

2.3 互联网和云计算机

互联网对于数据挖掘有很多的应用,比如搜索引擎、电子商务等。这些都是利用数据挖掘技术在庞大的数据海洋中找寻能够符合客户要求的信息。常见的就是根据预测分类算法来预测出客户应该需要的信息。

2.4 金融行业

银行、通信公司、保险行业这些在评估客户的信用等级上需要注意安全。数据挖掘的利用在金融行业是非常的重要,当然数据挖掘技术在这方面取得了很好的成绩,可以帮助这些金融企业正确的识别出诈骗行为、控制风险。如2003年春天,广东分行在进行信贷电子数据分析的时候,发现了一些异常的现象,发现除了南海华光公司的冯某对于银行进行的诈骗行为,其中有74亿元被骗取,这并不是通过举报而获得线索,而是经过数据挖掘技术,发现冯某公司信贷出现的异常,然后被审计人员发现并验证这一诈骗行为,若不是数据挖掘要想发现这一诈骗可谓是难上加难。

3 结 语

篇(7)

前言

最近几年,信息技术的不断发展,使得目前三季度产生的数据量是以前几百年的总和,且处于持续增长的状态。尽管激增的数据量扩展了人们的信息范围,然而无形中也提高了企业或个人从大量数据中挖掘出有价值信息的困难程度。针对该问题,基于云计算的大量数据挖掘技术实现了资源配置和利用的优化,具有虚拟性、实用性等特征,符合数据挖掘快速、准确的要求。由此可见,将云计算技术应用于数据挖掘是目前提高数据利用效率的有效方式。基于此,本文提出的以云计算为基础的海量数据挖掘模型,旨在提供给各企业快速有效的数据挖掘服务,从而减少生产成本和提升生产效率。

1云计算技术

1.1基本概念

至今为止,关于云计算的定义尚未有统一标准,维基百科上关于云计算的介绍如下:云计算是通过网络提供给用户相关服务的新计算模式,主要提供可动态变化的虚拟资源,无需用户掌握基本支持设施的应用和管理。也就是说,云计算是一种新商机,借助价格低、可连接的计算机联网进行任务处理,为各系统提供数据存储、运算或其他功能。就技术面而言,云计算技术起步较早,是虚拟技术的拓展、分布计算技术的发展,是资源统一管理和智能控制的重要表现。和传统计算机技术相比,云计算技术推动了观念创新和方法改进。就商业角度而言,云计算技术的应用目标是提供服务,用户产生需求时会主动购买和应用,适应企业发展和系统升级。通常来讲,云计算技术发展衍生出三种商业契机,包括服务即平台、服务即架构和服务即软件三种。图1所示是云计算商业模式逻辑图。

1.2基于云计算技术的并行运算模型

为了实现对海量数据的并行处理,谷歌公司开发出Ma-pReduce,是一个分布并行运算架构或模型。某个MapReduce可分解成多个Reduce和Map任务,其会将海量数据分解成多个单独运算的Map任务,同时配发到对应计算机进行运算处理,生成一定格式的中间数据,最后由相关Reduce任务对其进行合并反馈运算结果。谷歌公司关于云计算技术的研发比较成功,其五大主要技术有分布式文件系统、大容量分布式数据库、分布式锁机制、集群管理和MapReduce。基于上述主要技术,云计算方能提供大量数据挖掘服务和运算系统。总而言之,云计算平台会将大量数据分解成统一规格的数据模块,并分布存储在云端服务器中,之后通过MapReduce并行运算模型进行数据处理,其是谷歌公司在网络搜索引擎方面的重大突破。尽管通过MapReduce并行运算模型可进行海量数据处理,然而其要求数据结构相同、运算过程简单。关于数据挖掘这类密集型的数据处理技术,可能涉及迭代、近似求解等复杂算法,运算过程比较困难。在这种情况下,以云计算技术为基础的大量数据挖掘受到IT行业的重视,是社会热点问题之一。

2基于云计算技术的海量数据挖掘

2.1数据挖掘

所谓的数据挖掘,是发现数据库中有价值信息的过程,即从大量数据中挖掘出有价值或有意义的信息。就企业角度而言,数据挖掘的目的是从大量数据中发现有利于企业经营管理的信息,而且数据量越大,信息准确性越高。一般而言,海量数据挖掘对网络环境和应用条件要求较高,而云计算技术的应用有效提高了数据挖掘效率。基于云计算的资源管理系统可存储大量数据,并结合数据挖掘要求来合理配发网络资源,提高数据挖掘算法的延伸性,且具有一定的容错性,提高了数据挖掘的可靠性和安全性。

2.2云计算技术在数据挖掘中的应用优势

(1)基于云计算技术的数据挖掘可进行分布式并行处理,提高了数据挖掘的实时性和有效性。并且适合各种规模的企业,降低了中小企业数据应用成本,减少大型企对特殊数据应用软件和设备的依赖性;(2)以云计算技术为基础的海量数据挖掘更便捷、更快速,用户层被隐藏起来了,不需要用户进行数据分类、数据分配和任务控制等操作;(3)云计算实现了数据挖掘的并行处理,可提升传统设备的海量数据处理能力,增加了多个控制节点,具有一定的容错性;(4)以云计算为基础的数据挖掘实现了数据应用技术的共享,满足了不同类型用户的数据挖掘需要。

2.3基于云计算技术的海量数据挖掘模型

云计算技术在海量数据挖掘中的应用体现在云计算提供了并行处理能力和大容量存储能力,有效解决了当前海量数据挖掘的难点。图2所示是关于基于云计算技术的海量数据挖掘模型的结构图。据图,以云计算技术为基础的海量数据挖掘模型包括云服务层、数据运算层和用户层三层。云服务层是最基层,负责存储海量数据和提供分布并行数据处理功能。云计算环境除了要保证数据的实用性之外,还要确保数据的安全可靠性。关于数据的存储,云计算采取分布存储形式,提供了数据副本冗余存储功能,确保在数据遗失等情况下用户的正常运转。当前,比较普遍的云计算数据存储技术有开源的HDFS和非开源的GFS两种。除此之外,云计算数据挖掘实现了数据的并行处理,可在多用户发出指令的情况下,及时回复并提供数据挖掘服务。图2基于云计算技术的海量数据挖掘模型的架构图第二层是数据挖掘运算层,主要负责数据的预处理和挖掘算法的并行处理。数据预处理是对大量无规则的数据进行预先整理,基于云计算的MapReduce并行运算模型只适合同一结构的数据挖掘,常见的数据预处理方法有数据转化、数据分类、数据抽调、数据约束等。对数据进行预处理是提升数据挖掘质量的重要保障,使海量数据挖掘更实时、更快速。用户层是最顶层,直接面向用户,主要负责接收用户请求,同时将数据传递到下一层,并且将数据挖掘的运算结果反馈给用户。除此之外,用户还可通过可视化界面来监督和控制任务进度,并实时查看任务执行结果。基于云计算技术的数据挖掘的流程是:用户在输入模块中发出数据挖掘指令,并传递给系统服务器,服务器自动根据用户的挖掘指令在数据库中调出数据,同时在算法库中调出最优的挖掘算法,对数据进行预处理之后,传递到MapReduce运算模块进行深入数据挖掘,最后将挖掘结果反馈到可视化界面,以便用户查看和了解。

2.4云计算技术应用于数据挖掘的缺陷和应对措施

云计算技术尚处于发展阶段,势必会存在诸多问题或缺陷,以云计算为基础的数据挖掘也存在如下问题:(1)用户需求问题。以云计算技术为基础的数据挖掘势必会成为一种新服务形式,用户需求也会更多样化、个性化;(2)数据容量问题。就数据容量而言,未来可能要处理TB甚至PB容量以上的数据,同时还包括噪音数据、动态数据和高维数据等,某种程度增加了数据挖掘的难度;(3)算法选择问题。数据挖掘效果受算法是否最优和是否并行化等影响显著,算法设计、参数设置等都对数据挖掘结果有直接作用;(4)不确定性问题。数据挖掘过程中不确定因素较多,比如任务需求描述不准确、数据采集和预处理不确定、算法选择不确定等。针对上述问题,可从以下几点入手加强云计算技术在海量数据挖掘中的应用:(1)基本设施的构建。要结合用户具体的个性化要求,同时考虑各行各业的特点,建立合适的云计算数据挖掘系统;(2)虚拟技术为云计算在数据挖掘中的应用提供了重要保障,未来要加强虚拟技术的研发,并推动其成果的最大限度应用,可有效控制网络资源的配发和控制;(3)关于各种云计算产品的研发,要充分结合社会具体需要,引导大众积极参与,从而提高数据挖掘的多样化和个性化;(4)就可信度而言,设计和应用的算法要具备一定的通用性,满足后续调查和检验的要求;(5)关于数据安全性方面,不可用传统加密方式来保证数据安全,而要结合用户的具体需要,在客户端通过合适的加密方式来保证数据安全性。

篇(8)

中图分类号:TP311文献标识码:A文章编号:1007-9599 (2012) 01-0000-02

Application Analysis of the Data Mining Technology

Zhang Yihui

(Shandong Polytechnic,Jinan250104,China)

Abstract:With the advent and popularization of the Internet age,a lot of information get together,in the quick and easy at the same time to give people the agent has brought us a problem,how is the large amount of data to digest and true and false identification,followed by information how secure is to ensure that lay their unified approach method.This is a new term-data mining technology.Data mining is a relatively new database technology,there is a wide range of practical applications demand;made a comprehensive overview of data mining technology,citing a data mining system composition and mining method.

Keywords:Data mining;Technology;Application;Analysis

何为数据挖掘,所谓数据挖掘(Data Mining)在传统的定义就是提取隐含在大量的、不完全的、有噪声的、模糊的、随机的数据中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。意思简单来讲就是从一大堆乱七八糟的信息数据里提取一些对自己有用的数据知识。

一、数据挖掘的概念

从面的定义中我们对数据挖掘有了一个模糊的了解,其实数据挖掘技术通俗的从字面意思理解就是从数据中挖掘有用的数据。我国一些单位普遍都采用了计算机技术来处理单位的一些业务,因为计算机的分析处理数据的能力比较强,所有产生了大量的业务数据,通过计算机来分析这一大批数据不单单是为了研究的需要,更为重要的是从这些杂乱的数据中分析提取一些对自身企业有价值的数据信息。一些企业单位要从大批量的数据中获取对自己有用的数据来进行企业运作以及提高自身企业的竞争能力,这就好比从矿石中提炼金子一样,提取的都是精华。所以数据挖掘越来越得到人们的重视。

随着数据挖掘和知识发现核心技术研究的逐步深入,其核心模块已经强有力的形成了三大的技术领域:数据库技术、人工智能和数理统计。随着高性能的关系数据库引擎的广泛数据集成和相关理论研究和相关技术的成熟,,让数据库挖掘技术进入了实用阶段。

在国际上,由美国人工智能协会主办的KDD(数据库中的知识发现,简称KDD)已经渐渐被人们所接受,已经召开了数十次国际研讨会,随着规模的不断壮大,在注重多种发现策略和技术的集成,理论研究指导实践应用,以及多种学科之间的相互渗透的基础上,研究重点也逐渐从发现方法转向系统应用,成为目前计算机领域的研究热点;与国外相比,国内研究起步较晚,主要是处在基础理论上的研究。国家自然科学基金对于该领域的研究项目是1993年首次支持。目前,知识发现的基础理论及其应用研究在国内的许多知名的高等院校和科研机构已经开展。

二、数据挖掘系统的组成

以下是典型的数据挖掘的几个组成部分:

(一)数据挖掘所操作的最直接的对象就是数据库,这些数据库是一个或一组可以在数据上进行数据收集、存储、处理和集成的数据库、数据仓库或其他类型的信息库。

(二)数据库或数据仓库服务器:在数据处理过程中,根据客户的数据挖掘请求的指令信息,数据库或数据仓库服务器负责提取相关数据反馈信息。

(三)知识库:数据挖掘的关键技术就是知识库,它是用于指导数据搜索、查找、分析或拟合评估模式的兴趣度的领域知识集。另外将数据信息集中属性或属性值组成不同的数据抽象层的概念分层和用户确信方面的知识数据也包括在里面。

(四)数据挖掘引擎:用于特征化、关联、分类、聚类分析以及演变和偏差分析的一组功能模块,这是数据挖掘系统的基本组成。

(五)模式评估模块:这是数据挖掘实现的关键所在,在数据挖掘过程中参照兴趣度做度量,并与数据挖掘模块交互配合,以便将数据搜索、归并、聚焦在有趣模式的操作。根据所用数据挖掘方法的不同,模式评估模块也可以使用兴趣度阀值作为评定参数,去过滤发现的模式挖掘数据,也可以与数据挖掘模块集成在一起使用。

(六)图形用户界面:是以图形界面的形式给出用户数据查询操作或指令任务,并提供中间参考信息提示、帮助搜索、确定聚焦兴趣度,根据数据挖掘的中间结果进行探索式数据挖掘的操作模块,是在用户和数据挖掘系统之间通信的桥梁,是用户与系统交互的中介。

三、数据挖掘方法

数据挖掘方法的来源主要是由人工智能和机器学习的方法发展来的,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成的数据挖掘的方法和技术。数据挖掘是数据和信息系统及其应用的学科前沿,是综合了数据库、专家系统和可视化等领域的相关技术的多学科和多种网络技术交叉结合的新领域,在商业利益的强大推动下,每年都有新的数据挖掘方法和模型的出现,数据挖掘的方法和技术可以分为六大类。

(一)关联分析(Association Analysis)。在数据处理中,随着大量数据不停的收集、存储和处理,关联规则在数据挖掘中发现大量数据项集之间有趣的关联和相互联系,因此许多业界人士对于通过关联规则从相关数据库中挖掘有用的信息,并从中组织和处理这些有用的数据是越来越感兴趣。

(二)聚类方法(Clustering Approach)。在数据处理中,按一定的规则(参照距离或相似尺寸等)将数据分成一系列相互区别的数据组或数据集,这种操作不需要用户的事先提示相关操作和背景知识而去直接挖掘、发现有意义的数据结构或数据模式的方法。

(三)决策树方法(Decision Tree Approach)。该方法是一种常用于预测模型的算法,具有信息描述简单、查找速度快的特点,适合于大规模的数据挖掘。建立决策树的过程:首先根据信息论中的信息增益寻找数据库中具有最大信息量的字段,从中找到潜在的、有价值的信息,然后建立决策树的节点,再根据字段的不同取值建立树的各个分枝,然后在每个分枝子集上分别递归上述过程,即可。

(四)神经网络方法(Neural Network Approach)。神经网络由于本身的特性适合解决数据挖掘问题,因此,近年来越来越被关注。以HEBB学习规则和MP模型为基础的模拟人脑神经元方法,建立了三大类多种神经网络模型:反馈式网络模型、前馈式网络模型和自组织网络模型。

(五)遗传算法(Genetic Algorithms)。遗传算法是模拟生物自然选择与遗传机理的(进化过程)随机的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成的仿生全局优化方法。遗传算法所具有的特有性质已在数据挖掘中发挥了显着作用。

(六)可视化方法(Visualization Approach)。可视化方法增强人们认识能力,拓宽了传统的图表展示功能,增强了用户对数据反馈的感知度,使用户对数据的剖析更加清楚。例如,在数据库表中,将多维数据变成多种线性图形(如线图、柱图),增加直观性,使用户更好、更快速的理解和掌握,并充分揭示数据的内涵、内在本质及规律起了很大的作用。

四、数据挖掘的应用领域

数据挖掘所应用的领域非常广泛,目前,数据挖掘应用最集中的领域包括医疗保健、金融、司法、市场、零售业、制造业、工程与科学等。但每个领域又有其特定的应用问题和应用背景。

(一)医疗保健。在我过国,医疗保健行业有大量的数据需要处理。这个行业中数据挖掘最关键的任务是进行数据处理理,系统可以从大型多变的数据库中发现并整理,预测医疗保健费用。由实验室开发的解释保健数据,在定量范围内解释偏差,生成报表。

(二)金融。数据挖掘技术在金融行业中的应用不但指的是对金融事务数据的开采,能够发现某个客户、消费群体或组织的金融和商业兴趣,并且还可以融市场的变化趋势。

(三)司法。在司法方面,数据挖掘技术可应用在案件调查、诈骗监测、洗钱认证、犯罪组织分析等工作中,这将给司法工作带来巨大的收益,例如:美国财政部开发的系统,对各类金融事务进行监测,识别洗钱、诈骗等。

(四)数字城市。数据挖掘技术应用于数字城市建设中的数据整合系统是指通过对不同的数据库资源进行连接,根据需要获取不同的数据库资源的数据内容,组合形成所需要的数据资源,支持分析决策。在这种机制下,即实现了数据集市的建立,又解决了与城市信息化建设中业已建成的各种信息系统运行上独立,数据上统一的问题。

(五)制造业。制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。例如进行彩色扫描仪的生产过程分析。他们基于大约公司个参数建立了一个自动数据收集系统,产生了难以手工处理的大量数据,通过使用,工程师们能够对数据进行分析并对最重要的参数进行认定。

五、利用WEKA编写算法

作为数据挖掘爱好者自然要对WEKA的源代码进行分析并以及改进,努力写出自己的数据挖掘算法。我一直觉得对于机器学习算法来说,weka是很有特色的工具,算法非常多。而且还有诸如clementine之类的数据流处理工具。相比之下,clementine的算法就会失色很多。但是weka的可视化做的不好。这是它的缺点。如果在weka的基础上再做些二次开发,加强可视化的应用应该很不错。最近看到一本书叫《可视化数据》,作者竟然包装了java的图形库,自己创作出了个processing语言来做数据可视化,似乎效果不错,而且也是开源的。如果能在这个基础上做些研发应该会不错的。

六、结语

在现今社会,数据挖掘技术已经可以被应用与所有的领域和行业中。在人们生活里的各个方面几乎都可以用到数据挖掘技术数据挖掘技术不但给我们的日常生活带来了巨大的改变和影响,并且这种影响还深深的改变着我们的生活方式。

参考文献:

[1]韩少锋,陈立潮.数据挖掘技术及应用综述[J].机械管理开发,2006,2

[2]颜惠,吴小穗.MetaCrawler集成搜索引擎[J].图书馆工作与究,2002,3:46-47

[3]周黎明,邱均平.基于网络的内容分析法[J].情报学报,2005,5:594-599

篇(9)

作者简介 胡珊珊(1982-),女,江西经济管理干部学院讲师、审计师、硕士,研究方向为审计。(江西南昌 330000)

随着经济的发展,企业活动的日益错综复杂,交易数量的庞大对各项交易进行记录、分析的过程如果仍然依靠手工操作,会导致工作效率严重低下,并且工作成本大大增加。与此同时,随着计算机技术和网络的普及,人工智能系统已经被引入企业管理,如供应链管理系统(SCM)和企业资源计划系统(ERP),这些系统使企业的众多交易活动都可以通过计算机实时在线录入,形成大量的数据,现代审计面临着数据库中的海量数据,如何从中寻找出一定的数据特征,发现可疑数据,以提高审计效率和降低审计风险,是审计人员面临的崭新课题。

一、数据挖掘技术在现代审计中的应用

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在的信息和知识过程。这一概念要求数据源必须是真实的、海量的、有噪声的。数据挖掘是一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的且可用的信息,并利用这些信息做出决策或者丰富知识。

数据挖掘改变了审计实践的方式。由于信息技术的普及,很多企业引入人工智能系统,这些系统使企业的众多交易活动都可以实时在线录入,各种事件包含大量会计数据和经营管理数据。审计人员通过对数据的分析获得审计线索,获取有用的审计证据,并发表适当的审计意见。数据挖掘可以从大量的数据中发现隐藏于数据中的新的或者不可预见的模式,可以回答审计人员可能根本没有想过的问题。

在审计过程中运用数据挖掘技术的基本思路是这样的:首先接受日志收集信息系统各部件提交的统一格式的审计数据,然后对这些数据进行预处理,比如转换格式、数字提炼等。接下来运用合适的数据挖掘算法对审计数据进行处理,提取数据中隐藏的知识,并对实践进行统计。最后系统地进行审计数据的分析处理及趋势预测。

目前应用于现代审计业务的数据挖掘技术主要有以下几种方法:

(一)离群点挖掘

离群点挖掘是从大量复杂的数据中挖掘出存在于小部分异常数据中新颖的、与常规数据模式显著不同的数据模式。利用离群点挖掘,一方面可以对审计数据进行有效的预处理,减少审计数据量,快速定位数据,从而提高审计效率;另一方面可以自动的从数据中提取难以发现的业务模式和管理模式行为,减少人工参与,减轻审计人员工作负担。

(二)孤立点检测

孤立点是在数据源中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。由于审计中可疑数据往往表现为孤立点,所以通过检测并去除数据源中的孤立点可以达到数据清理的目的,从而提高数据质量,以达到审计目的。

(三)异常点检测

异常点检测是数据挖掘技术中重要的研究内容。它是从大量审计数据对象中挖掘少量具有异常行为模式的数据对象,很多情况下,这些审计数据对象包含了跟多审计人员感兴趣的信息。

(四)聚类分析

数据聚类是将审计资料数据中较为接近的数据划为一类,根据不同数据的特征,将对象分成几个群体。聚类分析可应用于控制测试阶段,为测试各控制环节的执行情况将具有相似特征的交易分组。继而更有利于审计人员对相似数据进行分析、挖掘。

(五)关联规则

关联规则发现是通过分析资料,找出某一事件或资料中会同时出现的东西。关联规则挖掘用于发现大量数据集合间有意义的关联,它侧重于数据中不同领域之间的联系。审计信息系统运用关联规则提取数据之间的联系,能有效的分析经济业务中数据的相关性,从而使审计人员更准确的发现数据之间的联系。

随着信息技术的迅猛发展和审计实践的变化,这些技术还在实践中不断的完善和发展,将来必定有更多更有用的数据挖掘方法应用于审计实践。

二、数据挖掘技术应用于现代审计工作的意义

随着信息技术的发展和网络的广泛普及,审计数据和网络数据以惊人的速度增长。审计过程中利用计算机技术的程度越来越高,很多大型组织已经建立并运行着特大数量级的应用数据库,并积累了大量的历史数据。审计人员面对的也不再是纸质的会计资料,每一个被审计单位的计算机系统和网络系统中都存在着大量的财务数据或非财务数据。在审计系统中引入数据挖掘技术,显示出了巨大的优势,尤其是在大规模网络环境下进行的数据挖掘,不但可以提高系统的运行效率,还能增强系统的智能性。

数据挖掘作为一种新兴的技术,与以往的单纯的统计方法相比,其优势在于它能从数据中发现人们未知的知识和规律。我们引入数据挖掘技术的目的是建立一种系统化和自动化的创建入侵检测系统的方法,这种方法采用以数据为中心的视点,将入侵检测视为一个数据分析过程。这种方法符合现代审计的需要,其核心是将数据挖掘技术应用于审计数据,从中分别提炼出正常和入侵情况下的用户行为模式,再由生成的模式库匹配入侵检测系统所采集到的数据以捕获网络入侵。它不仅可以处理大规模的数据,而且不需要审计人员提供主观评价信息,这种技术能发现容易被审计人员主观忽视和隐藏的信息,有利于避免有价值的线索被人为的主观因素所忽略的情况。

三、数据挖掘技术应用的局限性

数据挖掘技术在西方审计中还处于初级阶段,它的应用还有一定的局限性。

1.数据质量难以保证

数据挖掘技术的基础在于数据本身的质量,如果数据本身是虚假的、错误的,特别是作为审计对象的那些数据如果被审计单位篡改了,那么再先进、再成熟的数据挖掘技术也无法得出有意义的结论。

2.使用成本高

数据挖掘技术要应用于实际工作中,必须要产生相应的数据编制成本、维护成本、分析成本和人员培训成本,一些数据软件的成本费用更是高的惊人。成本因素也是数据挖掘技术应用于审计工作中的一个局限。

3.对审计人员的素质要求高

由于审计数据特征和测度是根据建模者的经验和知识选择的,因此数据挖掘技术要真正应用到现代审计工作中来,不仅需要审计人员具有丰富的审计理论知识和实践经验,而且还要求他们掌握计算机的专业知识,熟悉数据库和数据挖掘的技能。他们不仅要能识别、运用挖掘技术,而且还要对结果做出有效的分析和评价。

四、结论

尽管数据挖掘技术应用于现代审计技术还处于初级阶段,但它的巨大优势是传统审计方法无可比拟的,相信在不久的将来随着审计人员技术水平的提高和对数据挖掘技术研究的深入,数据挖掘技术必定将在现代审计中有更广阔的应用前景。

篇(10)

1 关于数据挖掘技术

数据挖掘技术是20世纪80年代诞生的一门新兴学科。对数据挖掘技术从技术的角度来看,顾名思义就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有察觉的、有潜在价值的信息和知识的过程。而从商业角度来看,数据挖掘技术就是从海量的数据库当中进行抽取、转换、分析一些潜在规律和价值,从而获得辅助商业决策的关键信息和有用的知识的过程。

计算机的数据挖掘技术对于海量的数据可以起着整理的作用,不仅对于企事业的工作生产起着巨大的作用,同时对于学校的校园生活也提供了很好的帮助,除此,计算机的数据挖掘技术还应用在许许多多的不同领域当中。

2 数据挖掘的基本流程

2.1 数据准备阶段

由于海量的原始数据是长期的、无规律积累的结果,而且这些原始的数据是不适合进行数据挖掘的,因此必须要进行预处理的过程,在海量的原始数据中进行数据的选择、清洗、推测、转换等相关的操作,在进行数据准备阶段的时候,一般分为三个子步骤,既是:数据集成,就是从多个数据源中来提取整合的数据,并对这些数据进行处理;数据收集,就是根据要挖掘数据的目的来对数据进行缩小范围的操作,从而提高挖掘的数据的质量;数据预处理,就是对已经挖掘的数据做进一步的准备和分析,来确定进行挖掘的类型。这一系列的过程就被称之为数据准备阶段,数据准备的好与坏是直接决定数据挖掘的质量和效率的。

2.2 数据挖掘阶段

当原始数据进行相应的处理之后,就进入相当关键的阶段,按照数据挖掘的目标要求,来选择恰当的算法,挖掘数据的规律,一般来说,常用的算法主要包括决策树、分类、神经网络等,具体操作就是进行算法的选择和参数的确定,不断反复的进行重复的操作,直到对挖掘的数据满意之后,此过程被称之为数据挖掘阶段。

2.3 数据的评价分析及知识运用

对进行数据挖掘之后的结果进行解释、分析,来提取有意义的或者是有使用价值的规律,将这些数据进行还原的操作,使之成为能够被用户所谓理解的数据语言。将挖掘到的评估结果在现实的决策中进行运用,就是所说的知识运用,这样是一个非常重要的过程,是数据挖掘的最终实现的目的。

3 数据挖掘技术的应用

计算机数据挖掘技术作为一门新兴的学科,是顺应时展的潮流的,自从此项技术诞生以后,就备受瞩目,由于自身的特点也受到广大用户的亲睐,因此,在许多的行业范围之内,计算机数据挖掘技术也得到了充分的发挥和使用。

3.1 在金融领域的应用

金融领域所涉及的层面较为广泛,包括诸如银行、金融机构、金融分析领域等不同的方面,对于这些海量的数据来说,对金融的投资方面的风险和股票交易的方面的预测,则更是让投资者和决策者大伤脑筋,这就要求大家对如此的海量进行判断,而如果通过个人的经验进行判断的话,可能容易导致错误的发生,在这时,计算机的数据挖掘技术就恰恰迎合了用户的心理,可以通过此项技术在海量的信息当中提取自己所需的各种信息,以及信息之间的关联和关系,对风险进行规避,对股票进行很好的预测。

3.2 在教育领域的应用

教育信息化不断的发展,已经成为近几年教育培养的新趋势。学校已经摒弃了较为传统的时间空间比较固定的教育模式,而是开始了学生、教师、学校三者之间的较为繁杂多样的交流方式,数据挖掘技术也为教育领域开辟了新思路。比如在学校中的学生信息的管理系统、教师的教务管理系统、选课系统等都体现了数据挖掘技术的优势。此外,还包括学生在校园中的图书馆借阅的功能、饭卡充值等一卡化的功能,也离不开计算机数据挖掘技术的应用。因此,计算机的数据挖掘技术也很大程度的辅助了信息化教学的持续发展。

3.3 在电子商务领域的应用

电子商务已经成为计算机用户每天必不可少的一个环节,尤其对于年轻人而言,很多用户每天浏览于各个电子商务网站,同时企业又很期望自己的网站或者是产品能够被更多的用户所浏览和点击,从而来完成订单的操作,获得利润。那这时,计算机的数据挖掘技术便起了巨大的作用,用户或者企业可以通过此技术对一些的数据进行归纳汇总、分析、判断,最终得以整合,使得用户可以选到满意的产品,同时,企业也可以在众多的竞争对手中处于不败之地。

3.4 在军事领域的应用

随着信息化和科技化的不断加强,军事领域的任务也不单单是传统的关注了,更多的需要进行新兴的媒体技术对存在的数据进行收集、分析、整理,这样,既可以掌握自己的军事实力,同时,又能有效的去了解和监管其他方面的军事情况。事实上,在当今的形势之下,任何一个国家,都非常的重视数据挖掘技术对所需信息的使用,同时,也需要大量的计算机能力很强的人才,爱国敬业,计算机挖掘技术在军事领域的应用是绝对不可小觑的。

4 结语

总之,随着数据挖掘技术的不断发展,许多的人们也越来越认可数据挖掘技术的重要性,对信息的价值性越来越重视,因此,如何从大量的数据中去挖掘出自己日常所需的数据知识已经日益重要。同时,计算机的数据挖掘技术已经广泛的被应用到各个领域当中,充分发挥着作用。

参考文献

[1]赵杨杰,王树斌.数据挖掘技术的前景探究[J].科技创新导报,2014(15).

[2]许芳芳,丁雷道.浅谈数据挖掘技术及其相关问题解析[J].数字技术与应用,2014.(04).

上一篇: 医学检验技术论文 下一篇: 工作失误检讨书
相关精选
相关期刊