时间:2023-04-01 09:51:21
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据挖掘技术论文范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
2、数据挖掘技术主要步骤
数据挖掘技术首先要建立数据仓库,要根据实际情况而定,在易出现问题的有关领域建立有效的数据库。主要是用来把数据库中的所有的存储数据进行分析,而目前的一些数据库虽然可以进行大量的存储数据,同时也进行了一系列的技术发展。比如,系统中的在线分析处理,主要是为用户查询,但是却没有查询结果的分析能力,而查询的结果仍旧由人工进行操作,依赖于对手工方式进行数据测试并建模。其次,在数据库中存储的数据选一数据集,作为对数据挖掘算法原始输入。此数据集所涉及到数据的时变性以及统一性等情况。然后,再进行数据的预处理,在处理中主要对一些缺损数据进行补齐,并消除噪声,此外还应对数据进行标准化的处理。随后,再对数据进行降维和变换。如果数据的维数比较高,还应找出维分量高的数据,对高维数数据空间能够容易转化为检点的低维数数据空间进行处理。下一步骤就是确定任务,要根据现实的需要,对数据挖掘目标进行确定,并建立预测性的模型、数据的摘要等。随后再决定数据挖掘的算法,这一步骤中,主要是对当前的数据类型选择有效的处理方法,此过程非常重要,在所有数据挖掘技术中起到较大作用。随后再对数据挖掘进行具体的处理和结果检验,在处理过程中,要按照不同的目的,选择不同的算法,是运用决策树还是分类等的算法,是运用聚类算法还是使用回归算法,都要认真处理,得出科学的结论。在数据挖掘结果检验时,要注意几个问题,要充分利用结论对照其他的信息进行校核,可对图表等一些直观的信息和手段进行辅助分析,使结论能够更加科学合理。需要注意的是要根据用户来决定结论有用的程度。最后一项步骤是把所得出的结论进行应用到实际,要对数据挖掘的结果进行仔细的校验,重点是解决好以前的观点和看法有无差错,使目前的结论和原先看法的矛盾有效解除。
3、数据挖掘技术的方法以及在电力营销系统中的应用和发展
数控挖掘技术得到了非常广泛的应用,按照技术本身的发展出现了较多方法。例如,建立预测性建模方法,也就是对历史数据进行分析并归纳总结,从而建立成预测性模型。根据此模型以及当前的其他数据进行推断相关联的数据。如果推断的对象属于连续型的变量,那么此类的推断问题可属回归问题。根据历史数据来进行分析和检测,再做出科学的架设和推定。在常用的回归算法以及非线性变换进行有效的结合,能够使许多问题得到解决。电力营销系统中的数据挖掘技术应用中关联规则是最为关键的技术应用之一。这种应用可以有效地帮助决策人员进行当前有关数据以及历史数据的规律分析,最后预测出未来情况。把关联规则成功引入电力营销分析,通过FP-Growth算法对电力营销的有关数据进行关联规则分析,从中得出各种电量销售的影响因素以及外部因素、手电水平等的关联信息,以便更好地为电力的市场营销策略提供参谋和决策。对电力营销系统的应用中,时间序列挖掘以及序列挖掘非常经典、系统,是应用最为广泛的一种预测方法。这种方法的应用中,对神经网络的研究非常之多。因此,在现实中应用主要把时间序列挖掘以及神经网络两者进行有效地结合,然后再分析有关电力营销数据。此外,有关专家还提出应用一种时间窗的序列挖掘算法,这种方式可以进行有效地报警处理,使电力系统中的故障能够准确的定位并诊断事故。此算法对电力系统的分析和挖掘能力的提高非常有效,还可判定电力系统的运行是否稳定,对错误模型的分析精度达到一定的精确度。
二、Web数据挖掘技术的工作流程
Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本,这一步是用户选取目标文本,以此来作为提取用户的特征信息;第二步,提取特征信息,这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值;第三步,从网络上获取信息,这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的Web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成WWW资源库索引;第四步,进行信息特征匹配,通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回个用户。
三、Web数据挖掘技术在高校数字图书馆中的应用
高校数字图书馆为师生主要提供以下功能:查找图书、期刊论文、会议文献等数字资源;图书借阅、归还等服务;图书信息、管理制度;导航到图书光盘、视频资源等数据库系统。师生时常登录到网站中查找其需要的信息,根据师生所学专业、研究方向不同,关注目标也不同。通常这类师生会到常用的图书馆网站上,查找自己所需要的特定领域的资源;浏览一下有哪些内容发生变化,是否有新知识增加,而且所有改变常常是用户所关注的内容;另外,当目标网页所在的位置有所改变或这个网站的组织结构、层次关系有所变动时,所有这些问题只要稍加改动,容易使用户难以找到所需内容。本课题采用Web挖掘技术与搜索技术相结合。首先允许用户对感兴趣的内容进行定制,构造数据挖掘的先验知识,然后通过构造浏览器插件,捕获用户在浏览器上的行为数据,采用Web数据挖掘的方法,深入分析用户的浏览行为数据,获得用户的信息资料集,最终为用户提供不同的个性化服务页面,并提供用户对站内信息进行搜索功能,同时可以满足师生对于图书馆资源进行查找访问的需求,实现高校图书馆网站资源真正意义上的个性化服务。
1、为开发网络信息资源提供了工具
数字图书馆需要的是一种可以有效的将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过Web数据挖掘技术科研有效的解决这一问题。这种技术可以用于挖掘文档的隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。通过Web数据挖掘技术科研对数字图书关注中的信息进行更加有效地整合。
2、为以用户为中心的服务提供帮助
通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名师用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效的了解用户的需求通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设的更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后在通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过Web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以适当各种资源的配置更加的合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。
3、Web数据挖掘技术在图书馆采访工作中的应用
在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作的做的好坏程度会直接的对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员的主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买,不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而Web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚的得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据对分析还能帮组图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时的进行补充,哪些文献应该进行剔除,对馆藏机构进行优化,真正的为高校里的师生提供所需要的文献和资料。
4、使用Web数据挖掘技术提供个性化服务
金融部门每天的业务都会产生大量数据,利用目前的数据库系统可以有效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了数据爆炸但知识贫乏”的现象。与此同时,金融机构的运作必然存在金融风险,风险管理是每一个金融机构的重要工作。利用数据挖掘技术不但可以从这海量的数据中发现隐藏在其后的规律,而且可以很好地降低金融机构存在的风险。学习和应用数扼挖掘技术对我国的金融机构有重要意义。
一、数据挖掘概述
1.数据挖掘的定义对于数据挖掘,一种比较公认的定义是W.J.Frawley,G.PiatetskShapiro等人提出的。数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识、这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts),规则(Rules)、规律(Regularities)、模式(Patterns)等形式。这个定义把数据挖掘的对象定义为数据库。
随着数据挖掘技术的不断发展,其应用领域也不断拓广。数据挖掘的对象已不再仅是数据库,也可以是文件系统,或组织在一起的数据集合,还可以是数据仓库。与此同时,数据挖掘也有了越来越多不同的定义,但这些定义尽管表达方式不同,其本质都是近似的,概括起来主要是从技术角度和商业角度给出数据挖掘的定义。
从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程。它是一门广义的交叉学科,涉及数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等多学科领域且本身还在不断发展。目前有许多富有挑战的领域如文本数据挖掘、Web信息挖掘、空间数据挖掘等。
从商业角度看,数据挖掘是一种深层次的商业信息分析技术。它按照企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。
2.数据挖掘方法
数据挖掘技术是数据库技术、统计技术和人工智能技术发展的产物。从使用的技术角度,主要的数据挖掘方法包括:
2.1决策树方法:利用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。国际上最有影响和最早的决策树方法是ID3方法,后来又发展了其它的决策树方法。
2.2规则归纳方法:通过统计方法归纳,提取有价值的if-then规则。规则归纳技术在数据挖掘中被广泛使用,其中以关联规则挖掘的研究开展得较为积极和深入。
2.3神经网络方法:从结构上模拟生物神经网络,以模型和学习规则为基础,建立3种神经网络模型:前馈式网络、反馈式网络和自组织网络。这种方法通过训练来学习的非线性预测模型,可以完成分类、聚类和特征挖掘等多种数据挖掘任务。
2.4遗传算法:模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。为了应用遗传算法,需要将数据挖掘任务表达为一种搜索问题,从而发挥遗传算法的优化搜索能力。
2.5粗糙集(RoughSet)方法:Rough集理论是由波兰数学家Pawlak在八十年代初提出的一种处理模糊和不精确性问题的新型数学工具。它特别适合于数据简化,数据相关性的发现,发现数据意义,发现数据的相似或差别,发现数据模式和数据的近似分类等,近年来已被成功地应用在数据挖掘和知识发现研究领域中。
2.6K2最邻近技术:这种技术通过K个最相近的历史记录的组合来辨别新的记录。这种技术可以作为聚类和偏差分析等挖掘任务。
2.7可视化技术:将信息模式、数据的关联或趋势等以直观的图形方式表示,决策者可以通过可视化技术交互地分析数据关系。可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。
二、数据挖掘在金融行业中的应用数据挖掘已经被广泛应用于银行和商业中,有以下的典型应用:
1.对目标市场(targetedmarketing)客户的分类与聚类。例如,可以将具有相同储蓄和货款偿还行为的客户分为一组。有效的聚类和协同过滤(collaborativefiltering)方法有助于识别客户组,以及推动目标市场。
2..客户价值分析。
在客户价值分析之前一般先使用客户分类,在实施分类之后根据“二八原则”,找出重点客户,即对给银行创造了80%价值的20%客户实施最优质的服务。重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度;通过对交易数据的详细分析来鉴别哪些是银行希望保持的客户;通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。
3.客户行为分析。
找到重点客户之后,可对其进行客户行为分析,发现客户的行为偏好,为客户贴身定制特色服务。客户行为分析又分为整体行为分析和群体行为分析。整体行为分析用来发现企业现有客户的行为规律。同时,通过对不同客户群组之间的交叉挖掘分析,可以发现客户群体间的变化规律,并可通过数据仓库的数据清洁与集中过程,将客户对市场的反馈自动输人到数据仓库中。通过对客户的理解和客户行为规律的发现,企业可以制定相应的市场策略。
4.为多维数据分析和数据挖掘设计和构造数据仓库。例如,人们可能希望按月、按地区、按部门、以及按其他因素查看负债和收入的变化情况,同时希望能提供诸如最大、最小、总和、平均和其他等统计信息。数据仓库、数据立方体、多特征和发现驱动数据立方体,特征和比较分析,以及孤立点分析等,都会在金融数据分析和挖掘中发挥重要作用。
5.货款偿还预测和客户信用政策分析。有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素,别除非相关因素。例如,与货款偿还风险相关的因素包括货款率、资款期限、负债率、偿还与收入(payment——to——income)比率、客户收入水平、受教育程度、居住地区、信用历史,等等。而其中偿还与收入比率是主导因素,受教育水平和负债率则不是。银行可以据此调整货款发放政策,以便将货款发放给那些以前曾被拒绝,但根据关键因素分析,其基本信息显示是相对低风险的申请。
6.业务关联分析。通过关联分析可找出数据库中隐藏的关联网,银行存储了大量的客户交易信息,可对客户的收人水平、消费习惯、购买物种等指标进行挖掘分析,找出客户的潜在需求;通过挖掘对公客户信息,银行可以作为厂商和消费者之间的中介,与厂商联手,在掌握消费者需求的基础上,发展中间业务,更好地为客户服务。
7.洗黑钱和其他金融犯罪的侦破。要侦破洗黑钱和其他金融犯罪,重要的一点是要把多个数据库的信息集成起来,然后采用多种数据分析工具找出异常模式,如在某段时间内,通过某一组人发生大量现金流量等,再运用数据可视化工具、分类工具、联接工具、孤立点分析工具、序列模式分析工具等,发现可疑线索,做出进一步的处理。
数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势,这些信息对于决策或规划是有用的,金融
行业数据的挖掘有助于根据顾客的流量安排工作人员。可以挖掘股票交易数据,发现可能帮助你制定投资策略的趋势数据。挖掘给企业带来的潜在的投资回报几乎是无止境的。当然,数据挖掘中得到的模式必须要在现实生活中进行验证。
参考文献:
丁秋林,力士奇.客户关系管理.第1版.北京:清华人学出版社,2002
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2012)30-7150-04
随着数字信息化社会的飞速发展,计算机技术和数据库管理系统被广泛应用于科学探索、商业、金融业、电子商务、企业生产等各种行业,已逐渐发展成为一种智能管理过程。数据挖掘作为一种新兴的数据分析技术,它的研究成果取得了令人瞩目的成就[1]。利用数据库技术,通过对教务管理的大量数据进行多层次、多维度的加工处理,从而实现人性化管理,为科学决策提供支持。
毕业论文在教学体系中占有十分重要的位置,是本科生培养计划中衡量教学质量的重要指标。提高毕业论文教学质量是一项系统工程,为研究在当前的教学条件下如何提高毕业论文教学质量,本文采用数据挖掘技术对影响毕业论文成绩管理的多方面因素进行了深入分析和挖掘,以期发现对学校毕业论文教学管理有用的知识,将这些知识应用于本科学生毕业论文教学实践中,为学校管理者提供有用的信息,进而获得更好的管理效益,为学校未来的发展提供更广阔的空间,发挥重要的作用。
1 数据挖掘简介
数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge discovery in Database. KDD)[2],是通过分析每一个具体数据,从大量的、有噪声的、模糊的、随机的海量数据中寻找其规律的技术,它是数据库研究中的一个很有应用价值的新领域。
1.1 数据挖掘的定义
H包含如下功能:
综上所述,数据挖掘具有三大特点:其一是处理大型数据;其二应用数据挖掘的目的是发现未知的、有意义的模式或规律;其三是一个对大量数据处理的过程,有特定的步骤[3]。
1.2 数据挖掘的主要方法
数据挖掘是一个多学科交叉领域,它由人工智能、机器学习的方法起步,并与统计分析方法、模糊数学和可视化技术相融合,以数据库为研究对象,围绕面对应用,为决策者提供服务。
数据挖掘的方法主要可分为六大类:统计分析方法、归纳学习方法、仿生物技术、可视化技术、聚类方法和模糊数学方法。归纳学习法是目前重点研究的方向,本文根据给定的训练样本数据集,采用归纳学习法中的决策树技术构造分类模型,将事例分类成不同的类别。
2 决策树算法基本理论
2.1 决策树方法介绍
决策树[4]方法是以事例学习为基础的归纳推算法,着眼于从一组无序的,无规则的事例中推断出类似条件下会得到什么值这类规则的方法,它是一种逼近离散值函数的方法,也可以看作一个布尔函数[5]。决策树归纳方法是目前许多数据挖掘商用系统的基础,可以应用于分析数据,同样也可以用来作预测。建模过程中,即树的生长过程是不断的把数据进行切分,采用“自顶向下,分而治之”的方法将问题的搜索空间划分为若干个互不交叉的子集,通常用来形成分类器和预测模型。如图1所示,为决策树的示意图。
决策树一种类似流程图的树形结构,是一种知识的表现形式。为了对未知样本进行分类,生成具体的分类规则,信息样本的各个属性值要在决策树上进行测试。主要分为两个阶段:在第一阶段中生成树。决策树最上面的节点为根节点,是整个决策树的开始,然后递归的进行数据分区,每次切分对应一个问题,也对应着一个节点;在第二阶段中对树进行修剪,此过程中去掉一些可能是噪音或异常的数据,防止决策树的过匹配,进而保证生成决策树的有效性和合理性。当一个节点中的所有数据都属于同一类别,或者没有属性可以再用于数据进行分割时,分割工作停止。具体的工作流程如图2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3决策树算法,它是最早的决策树算法之一。ID3算法运用信息熵理论,选择当前样本中具有信息增益值的属性作为测试属性,对样本的划分则依据测试属性的取值[6]。C4.5算法是在ID3算法基础上发展起来的,它继承了ID3算法的全部优点,并增加了新的功能改进了ID3算法中的不足,可以进行连续值属性处理并处理未知值的训练样本。在应用单机的决策树算法中,C4.5算法不仅分类准确而且执行速度快。
C4.5通过两个步骤来建立决策树:第一阶段树的生成,第二阶段树的剪枝。C4.5算法采用信息增益率来记录字段不同取值的选择,首先计算各个属性的信息增益率,寻找到规则信息的优劣,选出信息增益率最大的属性作为结点,自顶向下生成决策树。C4.5算法构造决策树的基本策略如下:
首先计算出给定样本所需的期望信息,设S为一个包含s个数据样本的集合,对于类别属性,可以取m个不同取值,分别对应于m个不同的类别[Ci(i∈1,2,...,m)]。假设类别[Ci]中的样本个数为[si],期望信息为:
其中,[Pi]是任意样本属于[Ci]的概率,并用[sis]估计。
接着,计算当前样本集合所需用的信息熵,设一个属性A具有n个不同的值[(a1,a2,...an)],利用属性A可以将集合S划分为n个子集[S1,S2,...Sn],其中[Sj]包含了S集合中属性A取[aj]值的样本数据。如果属性A被选作测试属性,设[Sij]为[Sj]中属于[Ci]类别的样本集,根据A划分计算的熵为:
然后利用属性A对当前分支结点进行相应样本集合划分计算信息增益:
最后,求信息增益率,表达式为:
C4.5算法的伪代码如下:
输入:训练样本Samples;目标属性Target—attribute;候选属性的集合Attributes
输出:一棵决策树
1)创建根节点root;
2)If Samples都在同一类C Then;
3)返回label=类C的单结点树root;
4)If Attributes为空Then;
5)返回单结点树root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each测试属性列表Attributes中的属性;
8)IF测试属性是连续的Then;
9)对测试属性进行离散化处理,找出使其信息增益比率最大的分割阈值;
10)Else;
11)计算测试属性的信息增益比率;
20)添加子树Generate Tree C4.5;
21)对已建立的决策树计算每个结点的分类错误,进行剪枝,并返回根结点Root。
3 毕业论文成绩管理系统的设计和实现
利用数据挖掘技术对学生的成绩数据进行提炼,所产生的结果和信息会对以后的教学管理工作提供有用的信息,进而获得更好的管理效益。解决问题的重点在于怎样对学生的毕业论文成绩进行全面且深度的分析,从而挖掘出成绩与其他因素之间隐藏的内在联系。本文采用决策树技术挖掘信息时,主要操作步骤如下:
1)确定挖掘来源:清晰地定义挖掘对象,明确挖掘目标是数据挖掘所有工作中重要的一步。本文中应用于挖掘的数据信息是毕业生的毕业论文成绩,旨在通过对大量成绩数据进行各层次的挖掘,全面了解具体影响学生毕业论文成绩的各方面因素,正确的针对问题拟定分析过程。
2)获取相关知识:数据是挖掘知识最原始的资料,根据确定的数据分析对象,抽象出数据分析中所需要的特征信息模型。领域问题的数据收集完成之后,与目标信息相关的属性也随之确定。这些数据有些是可以直接获得的,有些则需要对学生进行调查才能的得到。
3)数据预处理:此过程中是对已收集的大量数据进行整合与检查。因为存放在数据库中的数据一般是不完整的、不一致的,通常还含有噪声的存在。因此就需要对数据库中数据进行清理、整理和归并,以提高挖掘过程的精度和性能。
4)数据转换:对预处理后的数据建立分析模型,对于特定的任务,需要选择合适的算法来建立一个准确的适合挖掘算法的分析模型。本文采用决策树技术进行分类建模来解决相应的问题。
5)分类挖掘知识和信息:此阶段的工作目的是根据系统最终要实现的功能和任务来确定挖掘的分类模型。选择合适的数据挖掘技术及算法,并采用恰当的程序设计语言来实现该算法,对净化和转换过得数据训练集进行挖掘,获得有价值的分析信息。
6)知识表示:将数据挖掘得到的分析信息进一步的解释和评价,生成可用的、正确的、可理解的分类规则呈现给管理者,应用于实践。
7)知识应用:将分析得到的规则应用到教学管理中,教师可以利用所得到的知识针对性的开展毕业设计的教学活动,进一步指导教学工作,提高教学水平和学生的毕业论文质量。
4 结论
最终发现影响学生毕业论文成绩主要的因素不是指导教师的职称,学生的基础及感兴趣程度,而是指导教师的学历高低。根据具体分类规则的结论,学校教学管理工作应加重对教师的素质及能力培养,合理的分配每个教师的毕业论文指导工作,不仅能够有效的完成毕业课题指导工作,更有助于学生整体论文质量的提高。
在高校教学数字化的时代趋势下,利用数据挖掘技术来挖掘提取教学工作中的全面而有价值信息,可以为教育管理者的教学工作提供有效的参考信息,改进教学管理方法,提高教学质量和学生的综合素质,是高校保持良好的可持续发展的有力工具。
参考文献:
[1] 刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008.
[2] 魏萍萍,王翠茹,王保义,张振兴.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003.29(11):87-89.
[3] 刘林东. Web挖掘在考试系统中的应用[J].计算机应用研究,2005(2):150-154.
云计算是并行计算和分布计算以及网格计算的发展,是一种在海量数据大规模的集合中能动态处理各种服务器数据资源的一类计算平台,在电子商务、商业金融、科研开发等领域能得到广泛的应用。它具有大规模、虚拟化、高效率、通用性、廉价等特点,能针对不同的用户的不同需求,动态透明地提供其所需的虚拟化计算和资源储存,并能及时动态回收当前用户暂不利用的数据资源以提供给其他用户,而其廉价、通用的特点,使得一般用户实现大规模的数据操作成为可能。目前来说,云计算的平台已得到良好的发展,日益成熟,基于云计算的应用已经可以相当方便的部署和操作其数据资源。
1.2数据挖掘
数据挖掘技术是现代知识发现领域的一个重要技术,它是指一个从随机的大量而不完整的模糊的实际数据中提取其中某些隐含着的具有潜在价值的实用知识与信息的过程。其具体技术有特征化、聚类、关联和预测分析等等,涉及到的高级技术领域有统计学、机器学习、模式识别、人工智能等方面。
2基于云计算的数据挖掘平台构架
网络云的发展给数据挖掘提出了新的问题和时代的挑战,同时,也为数据挖掘提供了新的计算平台和发展机遇。基于云计算的数据挖掘系统平台的发现,解决了传统的数据挖掘技术出现的时代滞慢、效率较低、功能落后、成本高昂等问题。云计算是一种商业计算模式,是网格计算与并行计算及分布式计算在一定程度上的商业实现,其动态、可伸缩的计算基于云计算的数据挖掘平台架构及其关键技术探讨文/张瑶刘辉云计算是一种在互联网时代中应运而生的新兴的网络技术,具有高效率、高容量、动态处理的特点,在社会的商业领域和科研领域表现出了其相当高的应用价值。将云计算应用于数据挖掘平台的构架之中后,将能在很大程度上为现代社会中越来越海量的数据挖掘提供一个高效率的技术平台。本文将结合云计算和数据挖掘的基本概念和现代意义,对数据挖掘的平台构架和相应的关键技术做出简要的分析探讨。摘要能力使得进行高效的海量数据挖掘的目标不再遥远。同时,云计算SaaS功能日益被理解和标准化,使得基于云计算SaaS化的数据挖掘有了理论和技术的指导,并具有了企业化与大众化的发展趋势。
2.1数据挖掘平台构架
建立在关系型数据库之上的传统的数据挖掘技术构架在现时代数据急剧膨胀和分析需求渐增的发展下已经难以应付社会的数据处理问题。而云计算的分布式存储与计算形式则接受了当代的数据挖掘难题,促成了适应时代的云计算数据挖掘平台构架的形成。其包含了面向组件的设计理念和分层设计的思想方法。其构架自下向上总共分为3层,分别为底层的云计算支撑平台层、中间的数据挖掘能力层和上层的数据挖掘云服务层。
2.2基于云计算的数据挖掘平台构架各层意义
云计算支撑平台层:顾名思义,该平台层是云计算数据挖掘平台的基础处理平台,其主要具有的功能是对分布式文件存储与数据库提供资源存储,以及实行对数据的有关处理和计算功能。数据挖掘能力层:该平台结构层主要是提供挖掘的基础能力,是数据挖掘的核心支撑平台,并对数据挖掘云服务层提供能力支撑。该平台层包含了算法数据并行处理、调度引起和服务管理的框架,该平台层可以提供系统内部的数据挖掘处理和推荐算法库,亦支持第三方的数据挖掘算法工具的进入。数据挖掘云服务层:数据挖掘云服务层的主要功能是对外提供数据挖掘操作的云服务,同时也能提供基于结构化查询的语言语句访问,提供相关的解析引擎,以便于自动调用云服务。对外数据挖掘云服务能力封装的接口形式多样,包含了基于简单对象访问协议下的Webservice、XML、HTTP以及本地应用程序的编程接口等多种形式。另外,在必要的时候,云服务层的各个业务系统可以进行数据挖掘云服务的调用和组装。
3基于云计算的数据挖掘平台构架的关键技术探讨
基于云计算的数据挖掘平台构架的形成,离不开现代先进的科技技术,其中几项关键的技术应用将在这里进行简要的阐述:
3.1云计算技术
3.1.1分布式储存技术
通过采用分布式存储的方式来存储数据,是云计算技术保证数据处理高可靠性和经济性的重要保证。用可靠的软件来弥补硬件的不足,是分布式存储技术提供廉价而又海量的数据挖掘支持的重要途径。
3.1.2虚拟化技术
在云计算的环境下,数据挖掘能实现对大量的可用的虚拟化技术的应用、整合,发展出一套全面虚拟化的运行战略。云计算和虚拟化的共同组合,使数据挖掘实现了跨系统下的资源调度,将海量的来源数据进行IT资源汇合,动态地实现对用户的虚拟化资源的供给,从而以高效率、海量动态的特点完成服务任务。
3.1.3并行云计算技术
并行云计算技术是一种对于高效执行数据挖掘计算任务极其重要的技术,并且它对云计算的某些技术细节做出了封装,例如任务并行、任务调度、任务容错和系统容错以及数据分布等。该功能代替了用户对这些细节的考虑,使得研发效率得到了提高。
3.2数据汇集调度中心
数据汇集调度中心的功能主要是完成对不同类型的数据进行汇集。它实现了对接入该云计算数据挖掘平台的业务数据收集汇合,能够解决与不同数据的相关规约问题,并能支持多样的源数据格式。
3.3服务调度与管理技术
对于基于云计算的数据挖掘平台,为了使不同业务系统能够使用本计算平台,必须要提供相应的服务调度与管理功能。服务调度解决云服务下的并行互斥以及隔离等问题,以保证安全、可靠的平台的云服务。服务管理功能要实现统一的服务注册与服务暴露功能,并且支持接入第三方的数据挖掘,以更好地扩展平台的服务能力。
(2)计算机网络病毒传播形式的多样性。计算机网络和网络病毒相互之间存在着很紧密的联系,网络电子邮件、网络系统漏洞以及不良网页都是网络病毒进行传播的重要途径,进而对计算机网络系统造成蓄意破坏。计算机网络系统的传播形式有很多种,网络病毒在网络系统漏洞中的传播就是常见的一种病毒传播方式,计算机网络病毒程序通过对Internet远程主机系统的搜索和扫描,利用系统漏洞到达控制对方计算机的控制。同时也有一种病毒通过对文件夹的搜索扫描,进行病毒复制,以到达入侵网络系统的目的。
(3)计算机网络病毒的针对性。在计算机网络技术发展初期,计算机网络病毒主要目标就是干扰网络技术人员的程序编写,随着计算机技术的快速发展,计算机网络病毒的开发技术和功能作用也发生了很多变化,如今,计算机网络病毒的设计和开发已经开始商业化,针对性地对计算机网络系统实施破坏,如通过盗用网银账号和密码等方式以达到非法获取利益的目的。
2数据挖掘技术简析
数据挖掘技术是通过对所处一定范围之内的所有数据进行数据收集、数据分类以及数据归类,进而来判断是否存在某种潜在的关系和数据规律,主要环节有3个,准备数据;寻找数据存在的规律;表现数据规律。数据挖掘模式设置好之后,技术系统中的挖掘引擎就会以数据库中的要求为依据,对准备好的数据进行数据分析和数据归类,找出各个数据之间存在的关系和相应的数据规律,以便成为之后数据分析的有利依据,数据挖掘技术是比较全面的挖掘技术和数据应用技术,工作过程比较繁杂,工作操作步骤较多,其中存在很大部分的准备环节和规划工作,数据挖掘技术的重点工作是对数据的预处理阶段,对数据的预处理阶段是数据挖掘技术的基础,是后期进行数据分析的必要条件。
3以数据挖掘技术为基础的计算机网络病毒防御分析
3.1数据挖掘技术的构成分析
数据挖掘技术在计算机网络病毒防御中的应用过程比较复杂,步骤繁多,为了便于日常操作应用,掌握每个环节的基本特征,可以对预处理模块、决策模块、数据收集模块、数据挖掘模块以及规则库模块进行分模块分析研究。
(1)数据预处理模块分析。简化数据挖掘技术中数据挖掘和数据分析之间的处理操作可以通过数据预处理模块来实现,利用数据预处理模块可以整体上提高数据挖掘效果,提高数据辨识度和准确度。在完成数据收集后需要把数据导入到预处理模块,实现数据的分析归类和数据变换,通过这样额方式把数据转换成可以被系统识别和处理的数据内容。以目标IP地址、源IP地址、端口信息等这些据数据包当中所包括的信息内容为依据,实施数据集合、数据归纳、数据处理等流程。
(2)决策模块分析。在数据挖掘技术中的决策功能模块中,通过对数据的挖掘从而对数据库进行构建,然后对数据进行匹配,同时数据库还要和规则库密切联系起来。如果数据库有与规则库存在高度联系的信息出现,证明在决策模块里有病毒特征存在,很可能会感染到计算机病毒。如果是结果数据库的数据信息和规则库的数据不能相互匹配,那也就是说该数据包中存在有带有新型特征病的毒带,也就是出现了新型的规则类,这样的情况下就需要把该带有新型特征的病毒导入到系统的规则库当中,规则库的一种较新型的规则类别也就形成了。
(3)数据收集模块分析。实现数据挖掘的基本要求是提供充分的数据信息,只有通过数据收集才能实现数据收集模块的功能。数据收集模块通过对计算机网络中数据包的抓取和收集来实现数据信息,数据信息被收集后就会具有一定的数据结构和比较重要的功能信息。
(4)数据挖掘模块分析。数据挖掘技术的一个最关键部分就是数据挖掘模块。数据挖掘模块中的事件库和数据挖掘算法是数据挖掘模块的关键部分。数据挖掘对相关数据的收集构成了事件库,通过对事件库中数据的分类和数据整理,进而可以获取较为准确的数据结构。
(5)规则库模块分析。规则库模块是数据挖掘技术的一个重要组成部分,可以帮助优化数据挖掘信息库,给系统提供需要的病毒分析数据。如果有网络病毒在计算机系统中出现,规则库模块就可以进行数据分析和数据识别,以及实现数据挖掘。在数据挖掘的过程中,网络病毒属性会被挖掘过程中获取的规则集调整和改变,并且把这个记录继续使用在数据挖掘中,这项记录可以帮助计算机系统对一些潜在的网络病毒进行分析,进而起到防御病毒的作用。
3.2以数据挖掘技术为基础的网络病毒防御系统
(1)数据挖掘技术中的关联规则分析。数据挖掘技术的关联规则就是指在同一类别的数据中有可以被发现的知识存在,通过对两个或者超过两个的变量进行取值,如果发现数据具有一定规律的话说明这些数据和数据之间存在着某种关联性。因果关联、及时序关联以及简单关联是存在数据挖掘技术中的几种主要关联关系。要找到数据库中的关联网,就需要进行关联分析,然后结合数据和数据之间的关联性进行数据挖掘,进而得到数据和数据存在的关联规则。
2基于大数据的计算机数据挖掘技术概述
基于大数据的计算机数据挖掘技术是当代新开发的一种数据处理技术,它可以从大数据中挑选出人们需要的数据。计算机数据挖掘是一个循环往复的过程,如果没有取得预期的效果,计算机数据挖掘信息处理系统就会返回上一层重新工作,直到完成目标任务为止,这种对目标的细化过程可以满足档案数据检索的需要。
3基于大数据的计算机挖掘技术在档案管理系统中的作用
3.1提高档案信息的安全性。无论是文字档案、图片档案还是其他形式的档案,都是一种宝贵的资料。越是意义重大的档案,档案管理人员就越要想方设法将其保存起来。档案的价值随着其保存时间的不断推移而增加,价值越高的档案,被使用的频率就越高,但是如果使用过于频繁的话,就会缩短档案资料的寿命,加大保存难度。除此之外,有的档案信息是保密的,在应用时如果监管不力就会导致机密泄露。由以上可见,档案的保存与使用俨然已互为对立面了。将计算机挖掘技术应用到档案管理中则对档案资料的完整性毫无影响,并且还可以提高档案信息的安全性。3.2提高档案信息管理的效率。在档案管理工作中应用计算机数据挖掘技术,可以极大改变传统档案管理模式低效率的弊端。使用计算机数据挖掘技术,大大提高了工作人员处理档案信息的速度,同样的工作使用的时间极大减少。鉴定档案是档案管理工作中的重要组成部分,传统的鉴定方式是由管理人员根据自己的经验进行主观鉴定,有时会存在有价值的档案丢失的现象。应用计算机数据挖掘技术,档案管理人员就可以利用计算机系统分析档案使用和保存的情况,促进了档案鉴定工作的发展。3.3提高了档案信息的使用效率。大部分档案信息具有一定的机密性,所以档案的借阅并不是向全社会公开的,而是有范围限制的,但是由于档案管理人员和借阅者对档案信息不熟悉,导致双方的沟通存在一定的问题,在借阅者提出申请之后,档案管理人员会将档案资料调出来,有时调出来的资料不是借阅者所需要的,还得重新调阅,类似的过程就严重浪费了双方的时间。应用计算机数据挖掘技术可以促进档案管理人员和借阅者之间的交流,让档案管理者明确借阅者需要的具体档案信息,从而形成专门的档案提供渠道,这就大大提高了档案信息的使用效率。3.4增强档案信息的服务性。加密档案信息会严重缩小它的适用范围,受当代信息化的影响,很多档案信息自身会出现一些问题,并且只能为一小部分人服务。将计算机数据挖掘技术应用到档案信息管理中,可以具体分析档案的使用情况,通过研究发现未来使用档案信息的人群,在此基础上提高档案信息的服务性。
4基于大数据的计算机数据挖掘技术在档案管理中的实际应用
4.1在档案分类管理中的应用。档案管理的基础工作就是将档案进行分类。传统的分类方法既费时又费力,工作效率极低。计算机数据挖掘技术中有一种决策树算法,它可以在最短的时间内按照一定的规则将不同属性的档案信息进行分类和整理,大大提高了档案分类工作的效率。计算机数据挖掘技术在档案分类工作中的具体流程是:从大量不同种类的数据集中选择一些数据组合成训练集,然后应用到没有进行分类的档案管理中,这样可以帮助管理者根据借阅者对档案信息的需求来对档案进行分类,同时还可以根据借阅者的需求为其推荐其他档案信息。通过这些针对性强的数据分析,可以极大缩短借阅者获取档案信息的时间,档案数据的利用价值就能充分发挥出来。4.2在档案收集管理中的应用。计算机数据挖掘技术可以根据数据库内部的数据信息描述来构建一个相应的数据模型,然后比较计算机数据样本和数据模型之间的差异,如果这二者互相吻合,就需要档案管理人员使用测试样本模型来对档案信息进行分类处理。计算机数据挖掘技术需要全面分析档案数据信息库中的数据,建立一个对已知数据有详细描述的概念模型,并与测试样本进行对比,如果一个模型测试通过,就证明这个模型可以应用在档案收集管理中。
5结语
综上所述,在科技技术不断进步的时代背景下,在档案信息管理中应用基于大数据的计算机数据挖掘技术已成为一种必然趋势,它可以极大提高档案信息管理的工作效率,促进档案管理的高效发展。除了在档案信息存储和利用上确保基本的信息查询服务外,还需要应用计算机数据挖掘技术整合档案信息,建立众多档案管理服务数据之间的关联,这样才能为档案信息管理提供更好的服务。
作者:陈皓颖 单位:昆明理工大学津桥学院
参考文献
[1]高燕飞,陈俊杰.试析计算机数据挖掘技术在档案信息管理系统中的运用[J].内蒙古师范大学学报:哲学社会科学版,2012(4):44-46.
[2]曾雪峰.计算机数据挖掘技术开发及其在档案信息管理中的运用研究[J].科技创新与应用,2016(9):285.
[3]李国强,曹巧莲,辛正宇,等.浅谈数据处理的新技术———数据挖掘[J].科技创新与生产力,2010(6).
2、国内外文献综述
挑选中国知网数据库,以“知识管理”为主题关键词进行精确检索,共找到 31,324 篇文献,其中 2004 年至2014 年间共发表文献 24,895 篇,近十年是知识管理领域研究的高峰期。以“高校知识管理”或“大学知识管理”为主题关键字进行精确检索,得到 248 篇相关文献,可发现针对高校的知识管理研究较少。针对结果进行二次检索,增加主题关键词“数据挖掘”得到相关文献 3 篇,表明对高校知识管理与数据挖掘技术结合的研究较少,所得文献主要观点包括:1.数据挖掘技术可用于高校知识发现;2.数据挖掘对知识管理体系建设有推动作用;3. 高校知识管理成果可通过数据挖掘技术进行评价。对国外学者的研究情况进行分析,挑选 Web ofScience 数据库。以“knowledge management”为主题关键字进行检索,共得到 62,474 篇文献,以“knowledgemanagement of college”为主题关键字检索,得到 647篇文献,再结合关键词“Data mining”,共得到文献 5 篇。由此可见,国外相关研究比国内多出近一倍,并且研究的程度深、范围广。但关于高校知识管理与具体信息技术结合应用的文献仍较少,且发表日期多为 2010 年后。
3、知识管理与数据挖掘结合的软件要求
知识管理与数据挖掘技术的结合运用对高校相关设备提出了一定的要求,包括对服务器、客户端计算机的硬件要求以及对知识管理平台、数据挖掘工具的软件要求,本文中将重点叙述软件要求。
知识管理平台要求
知识管理平台是高校知识管理的实施基础,它为高校人员提供了可视化的操作界面,其应实现的基本功能包括:1.数据接口;2.工具接口;3.数据挖掘(内置或外接);4.知识仓库;5.知识索引、推荐;6.信息检索;7.组织内交流;8. 管理评价。一个知识管理平台应分为:表现层、服务层、处理层、存储层。表现层是面向用户的可视化界面,用于人机交互,接受用户的任务;服务层对任务进行调度、处理,直接执行无需数据挖掘的任务并反馈至表现层,调度需要数据挖掘的任务至处理层;处理层负责数据预处理、数据挖掘、知识发现等功能;存储层包括校方数据库及知识仓库。具体层次如图 1 所示。根据高校组织的特征,知识管理平台应在实现基本功能的前提下具有以下特点:1. 接口质量高。高校集行政、科研、社会服务等任务于一体,需要处理海量数据,应提供接口以使用专业处理工具处理复杂任务,保证数据处理的效率与深度;2. 内置数据挖掘功能。高校所含数据种类多、范围广,对结构简单、数据量小的数据可直接使用内置数据挖掘功能处理,节省时间;3. 交流功能强。高校为知识密集型组织,其学科、职能间存在交叉,优秀的交流功能保证了知识的共享及创新。4. 完善的激励体系。激励体系不仅体现在平台的评价功能中,更体现在管理人员的管理中,通过提高人员的积极性促进知识管理进程的实施。
数据挖掘工具要求
高校所含知识从相关对象分类可分为两类:1. 管理知识,指高校各部门(教学、后勤部门等)用于高校管理的知识;2. 科研知识,指各学科的专业知识。前者主要与高校行政、管理人员相关,后者则与高校学者、教授关系更大。针对不同的用户,知识管理与数据挖掘的结合运用对数据挖掘软件提出了不同的要求。高校行政、管理人员所面对的数据多来自高校各类信息系统的记录,如:校园卡消费信息、机房上机信息,具有量大、范围广、结构一致等特点。用于该类数据挖掘的挖掘工具可内置于知识管理平台中,便于数据存取,提高挖掘速度。常用功能为预测、分类、评价三项,主要方法可选用回归分析、趋势外推、特征分类、层次分析、模糊综合评价法等。结合使用者特点,该类挖掘工具应提供独立的、具有既定模式的工作界面,减少用户与算法的接触,挖掘结果应具有较强可视性,提供图、表界面,以便用户理解。高校科研知识主要来自于学者、教授的科学研究,包括:实验数据、主观推测描述等,具有专业性强、层次深、结构复杂等特点。针对挖掘要求较低的数据,可使用知识管理平台中的内置挖掘工具,而针对挖掘要求高的数据,可选用专业数据挖掘软件,如:Intelligent Miner、QUEST 等,通过知识管理平台的接口进行对接。
4、知识管理与数据挖掘结合的具体策略
知识管理的基本职能可概括为外化、内化、中介、认知四大部分,其中前三项职能对信息技术的依赖较强,可用数据挖掘技术进行辅助。数据挖掘的过程分为条件匹配、选择、激活、应用四部分,即对数据进行预处理后,选择相关数据记录,根据用户要求选择相应技术进行数据挖掘,得出并解释数据挖掘结果,最终将这些记录应用于实践中。两者的具体结合策略如下:
辅助知识管理体系建设
知识管理本质是一个周期性管理过程,在这一过程中实现组织知识共享、创新等,最终提升组织综合实力,其中知识管理体系建设是实现知识管理的宏观条件。知识管理体系建设是一个系统、全面的工程,包括组织结构调整、确定激励制度、知识管理文化培养、成效评估等任务。数据挖掘技术,可以为知识管理体系建设提供依据,保证相关决策的科学性。数据挖掘对知识管理体系建设的帮助主要体现在以知识主管为主的知识管理部门对高校的管理、决策当中。知识管理部门收集并预处理外校、本校知识管理体系建设的相关数据,完成辅助决策的数据仓库的建设。管理人员可根据要求,从数据仓库中选择数据,利用对应模型完成挖掘,通过挖掘结果对决策做出帮助。以制定激励制度为例,管理人员选择与高校人员喜好相关的数据,如至少包含“部门”、“喜好”、“性别”字段,利用关联算法对其进行计算,即可得出各部门工作人员的喜好,以此为据制定相应激励制度。
知识外化
知识外化是指组织从组织外部获取与本组织相关的知识、发现归集组织内部存在的知识并进行存储以备用的过程。完成知识外化的关键即知识发现,其较为常用的方法包括主观归纳、隐性知识外显等。目前学界中较为认可、使用较普遍的方法即数据知识发现(KnowledgeDiscovery in Database, KDD),指从数据集中识别出表明一定模式的、有效的、潜在的信息归纳为知识的过程。这是数据挖掘与知识管理结合应用的最重要部分。同时,数据挖掘技术只给定挖掘目标,不给出假设、前提,因此在使用数据挖掘的过程中可获取一些计划外的知识,为知识管理提供一个可靠的知识源。此处存在两个前提:第一,知识发现不能仅仅依靠信息技术,更需要人员对挖掘结果进行主观归纳,解释其语义以完成知识的推理;第二,挖掘对象需进行预处理,并转化成逻辑数据。利用数据挖掘技术进行知识发现有多种可用方法:利用分类和聚类分析可提供知识索引和发现特殊情况下的离群值和孤立点,知识索引可细化知识所属领域和确定挖掘范围,离群值和孤立点可为挖掘人员提供归纳的线索,若其存在一定规律则可得出模型、规则;使用模糊技术、统计方法可得出对高校决策的评测分析,判断方案的有效性,并得出模式,用于同类决策处理;使用粗糙集和主成份分析法定义知识发现中的主要特征,结合已有知识库对不确定、不精准的知识进行细化;使用关联规则发现大量数据集各字段中潜在的联系。以关联规则的使用为例,选择 Apriori 算法,挖掘目的是发现学生学习情况中的潜在知识。首先从数据仓库中选出与学生课程成绩相关的数据集,包括姓名、院系、性别、课程号、课程类别、成绩等字段,进行预处理,将字段中的取值转化为逻辑值,代表不同语义,如:性别字段,男设值 1,女设值 2。操作人员设置最小支持度、置信度,通过数据挖掘工具进行挖掘,得出关联规则并进行解释。若结果显示 XX 院系、男生、A 类别 => 成绩优秀构成管理规则,则表示XX院系的男生对于A类别科目较感兴趣,学习成绩优秀,可在归纳后存入知识仓库。
知识内化、中介
知识内化是发现特定人员知识需求,并为其提供相应知识的过程,内化的关键是对知识的聚类、对人员的兴趣挖掘。知识中介是指组织中存在一定量无法编码储存的知识,针对这些知识,通过一定手段,将知识的需求者与知识来源进行匹配,为两者提供交流的途径。数据挖掘在知识内化、中介中所起的作用主要是对高校人员特征的挖掘。在利用数据挖掘技术发现知识后,通过知识管理平台进行分类存储、添加索引,作为备选。对高校人员数据库中数据进行挖掘,可利用聚类分析、预测模型等,得出特定人员的特长领域、兴趣爱好,从而根据先前设置的知识索引为其提供信息。若定期对人员特征数据进行挖掘,并根据结果为高校人员推送相关知识、信息,即可实现个性化推送,其推送内容由人员特征数据决定。高校组织中拥有大量教授、学者,其所拥有的知识是一笔巨大财富,加强相关领域间人员的交流、沟通,可以促进知识共享、创新,提升组织综合实力,这正是知识管理中介职能的作用。通过上文中相同的挖掘方法,在对教授、学者特征进行挖掘后,对他们的研究方向进行聚类分析,由挖掘结果,为相关人员提供合适的建议、利用知识管理平台为特征相似或同一聚类中的教授、学者提供交流的途径,进而促进知识的共享。
数据挖掘技术推动图书馆管理
图书馆是高校组织中的特殊资源,含有大量精确或模糊、成型或不成型的知识,是一种实体的知识仓库。对图书馆的有效管理有助于高校知识管理的实施。目前,已有不少图书馆专家将数据挖掘技术引入图书馆管理,提出了针对图书馆的数据挖掘应用理论。图书馆数据挖掘对象主要包括三个:1.图书信息;2.读者信息 3. 读者借阅信息。通过对三者挖掘结果的综合,可为图书馆资源建设、读者服务、个性化服务提供帮助。根据挖掘结果分析,可做到客观、合理引入资源,做到让数据说话而不是让管理人员说话,减少了管理人员个体的主观影响,使高校图书馆经费发挥最大效用;提升读者服务质量,在读者进行检索时减少等待时间,改变以往被动检索的情况,通过用户数据挖掘为用户提供主动的信息推送;提供个性化服务,以挖掘结果为依据,针对不同用户提供不同服务,比如不同的图书馆系统管理界面。
充分发挥管理职能
知识管理是一个系统工程,包含平台开发、体系构建、文化培养等,其在实践中设计大量的数据操作。数据挖掘技术可在知识管理的实践过程中为各项信息处理工作提供支撑,从而为操作人员提供便利,间接缩短知识管理的周期时间。将高校知识管理与数据挖掘技术相结合可有效促进知识管理具体操作中的工作效率。两者的结合对高校人员管理具有积极作用,数据挖掘与知识管理在实践中相互影响,提升操作人员素养。数据挖掘需要专业人员进行操作,操作人员的综合素养将决定挖掘成果的质量。知识管理可有效促进数据挖掘人员对知识的认知,使操作人员对不同要求所对应的挖掘技术、模型的选择更为准确,提升挖掘成果的质量,使知识更加清晰、独立、可接受。
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2012)12-0218-02
一、背景
“数据仓库与数据挖掘”是国内外高等院校一门重要的课程,是国家基础教育较为重视的一门学科,受到不同专业学生的喜爱。其教学目标是提高学生的数据分析水平和能力,除了教授学生数据分析的常见方法之外,还将引导学生如何对实际的问题进行建模,如何对模型进行简化和求解。利用实例教学等方法,可以很好地将数据挖掘中的抽象概念、模型、公式等阐述清楚,让学生易于理解和接受。近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。因此,我们学院也把这门课程作为计算机专业及信息管理与信息系统专业的必修课。把计算机与医学结合,使得学生的培养方案全面包括了计算机与医学的知识点。由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围,此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此要实现“数据仓库与数据挖掘”课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排。
二、存在的问题
主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQL SERVER 2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。
三、目标驱动的教学框架
对于以上问题,本文提出了一个新的教学体系,设计了一套基于目标驱动的教学框架,把教师与学生紧密联系起来,从教学大纲的设置,教材的选择,理论教学,实验教学,课程设计及毕业论文,全面引导学生从初步了解到深入学习的过程。对于我们学校的实际情况,有两个专业的学生要学习这门课程。一个是计算机科学与技术专业,一个是信息管理与信息系统专业。对于两个不同的专业,我们设置不同的教学大纲。比如对于计算机专业的学生,数据仓库和数据挖掘教学总时数为72学时,其中理论为54学时,实验为36学时。
1.理论教学。对于信息管理与信息系统专业的学生,我们可以设置如下的教学计划,可分为三个主要部分。我们教材选择韩家炜的《数据挖掘概念与技术》,第一部分:第一至四章为数据挖掘的基础知识,包括数据仓库和数据挖掘的基本概念和相关知识介绍;第二部分:第五、六章介绍了数据挖掘的算法和工具;第三部分:第七章是数据挖掘的聚类分析的实际应用。本课程是信息管理与信息系统专业本科生专业必修课。通过该课程的学习,要求学生掌握数据仓库和数据挖掘的基本概念,了解基本方法和应用背景。掌握数据仓库的设计和建立,掌握数据挖掘的主要步骤和实现方法,数据挖掘的常用算法,实现数据挖掘的具体操作。理论学时的安排,第一章绪论(6学时);第二章数据仓库(4学时);第三章数据预处理(8学时);第四章数据挖掘发现知识的类型(8学时);第五章数据挖掘中常用算法(12学时);第六章数据挖掘的工具及其应用(8学时);第七章数据挖掘应用实例(8学时)。
2.实验教学。本课程配合理论教学,通过系统的实践教学锻炼,着重培养学生的独立分析问题和解决问题的能力,熟练掌握数据仓库的设计和建立以及各类数据挖掘方法,使学生具有一定的数据分析和挖掘能力,能在认识基础上,提出有效的数据挖掘方法,依据实际例子,写出解决方案。学生应在实验课前明确实验的目的和要求,然后针对相关问题写出解决方案。实验时对实际方案的运行结果应能进行分析并提出改进方法,最终写出实验报告。通过实验教学应达到以下基本要求:①理解数据仓库的工作机理及其构建过程;②掌握典型的数据仓库系统及其开发工具的使用;③理解数据挖掘技术的工作原理与流程;④掌握典型数据挖掘工具的使用;⑤掌握几种典型的数据挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解决实际问题。实验成绩包括:实验教学过程成绩、实验报告成绩,各占50%。实验过程表现成绩包括:学习态度是否认真、实验操作是否正确规范、基本技能掌握程度是否具有创新意识等方面。实验报告成绩包括:实验报告格式是否正确、原理是否论述清楚、实验结果分析讨论是否符合逻辑,报告字迹是否清楚等方面。
3.课程设计。理论课和实验课接近结束时,我们把最后三周作为本门课程的课程设计。课程设计的目的是让学生进一步深刻理解所学知识。由于本门课程很多算法不容易理解,如何让学生把所学知识结合到医学应用中是课程设计的关键。比如我们对信息管理与信息系统专业的学生课程设计,要求学生每人选择一个老师给定的题目,课程设计有详细的要求,比如题目“数据挖掘在医学诊断中的应用”要求学生能把本门课程相关的算法结合使用,最后给出详细的分析。通过课程设计,我们发现,学生对本门课程更有兴趣。
4.毕业论文。我们把课程一般开设在大三的下学期,也就是说学生学完这门课程后,就做了该门课的课程设计,使得学生对数据挖掘相关知识有了比较深刻的认识。这样,我们可以引导学生毕业论文的选择。毕业论文毕竟是反映学生大学四年所学知识,也对他们将来就业起到提前培训的作用。把理论结合实践,老师对学生的引导也十分重要。
我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。