时间:2023-02-27 11:09:27
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据挖掘技术分析论文范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
二、使用Weka进行关联挖掘
Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。
(一)数据预处理
数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。
(二)数据载入
点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。
(三)关联挖掘与结果分析
WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。
三、挖掘结果与应用
以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。
1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是国家级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有国家级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2012)12-0218-02
一、背景
“数据仓库与数据挖掘”是国内外高等院校一门重要的课程,是国家基础教育较为重视的一门学科,受到不同专业学生的喜爱。其教学目标是提高学生的数据分析水平和能力,除了教授学生数据分析的常见方法之外,还将引导学生如何对实际的问题进行建模,如何对模型进行简化和求解。利用实例教学等方法,可以很好地将数据挖掘中的抽象概念、模型、公式等阐述清楚,让学生易于理解和接受。近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。因此,我们学院也把这门课程作为计算机专业及信息管理与信息系统专业的必修课。把计算机与医学结合,使得学生的培养方案全面包括了计算机与医学的知识点。由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围,此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此要实现“数据仓库与数据挖掘”课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排。
二、存在的问题
主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQL SERVER 2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。
三、目标驱动的教学框架
对于以上问题,本文提出了一个新的教学体系,设计了一套基于目标驱动的教学框架,把教师与学生紧密联系起来,从教学大纲的设置,教材的选择,理论教学,实验教学,课程设计及毕业论文,全面引导学生从初步了解到深入学习的过程。对于我们学校的实际情况,有两个专业的学生要学习这门课程。一个是计算机科学与技术专业,一个是信息管理与信息系统专业。对于两个不同的专业,我们设置不同的教学大纲。比如对于计算机专业的学生,数据仓库和数据挖掘教学总时数为72学时,其中理论为54学时,实验为36学时。
1.理论教学。对于信息管理与信息系统专业的学生,我们可以设置如下的教学计划,可分为三个主要部分。我们教材选择韩家炜的《数据挖掘概念与技术》,第一部分:第一至四章为数据挖掘的基础知识,包括数据仓库和数据挖掘的基本概念和相关知识介绍;第二部分:第五、六章介绍了数据挖掘的算法和工具;第三部分:第七章是数据挖掘的聚类分析的实际应用。本课程是信息管理与信息系统专业本科生专业必修课。通过该课程的学习,要求学生掌握数据仓库和数据挖掘的基本概念,了解基本方法和应用背景。掌握数据仓库的设计和建立,掌握数据挖掘的主要步骤和实现方法,数据挖掘的常用算法,实现数据挖掘的具体操作。理论学时的安排,第一章绪论(6学时);第二章数据仓库(4学时);第三章数据预处理(8学时);第四章数据挖掘发现知识的类型(8学时);第五章数据挖掘中常用算法(12学时);第六章数据挖掘的工具及其应用(8学时);第七章数据挖掘应用实例(8学时)。
2.实验教学。本课程配合理论教学,通过系统的实践教学锻炼,着重培养学生的独立分析问题和解决问题的能力,熟练掌握数据仓库的设计和建立以及各类数据挖掘方法,使学生具有一定的数据分析和挖掘能力,能在认识基础上,提出有效的数据挖掘方法,依据实际例子,写出解决方案。学生应在实验课前明确实验的目的和要求,然后针对相关问题写出解决方案。实验时对实际方案的运行结果应能进行分析并提出改进方法,最终写出实验报告。通过实验教学应达到以下基本要求:①理解数据仓库的工作机理及其构建过程;②掌握典型的数据仓库系统及其开发工具的使用;③理解数据挖掘技术的工作原理与流程;④掌握典型数据挖掘工具的使用;⑤掌握几种典型的数据挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解决实际问题。实验成绩包括:实验教学过程成绩、实验报告成绩,各占50%。实验过程表现成绩包括:学习态度是否认真、实验操作是否正确规范、基本技能掌握程度是否具有创新意识等方面。实验报告成绩包括:实验报告格式是否正确、原理是否论述清楚、实验结果分析讨论是否符合逻辑,报告字迹是否清楚等方面。
3.课程设计。理论课和实验课接近结束时,我们把最后三周作为本门课程的课程设计。课程设计的目的是让学生进一步深刻理解所学知识。由于本门课程很多算法不容易理解,如何让学生把所学知识结合到医学应用中是课程设计的关键。比如我们对信息管理与信息系统专业的学生课程设计,要求学生每人选择一个老师给定的题目,课程设计有详细的要求,比如题目“数据挖掘在医学诊断中的应用”要求学生能把本门课程相关的算法结合使用,最后给出详细的分析。通过课程设计,我们发现,学生对本门课程更有兴趣。
4.毕业论文。我们把课程一般开设在大三的下学期,也就是说学生学完这门课程后,就做了该门课的课程设计,使得学生对数据挖掘相关知识有了比较深刻的认识。这样,我们可以引导学生毕业论文的选择。毕业论文毕竟是反映学生大学四年所学知识,也对他们将来就业起到提前培训的作用。把理论结合实践,老师对学生的引导也十分重要。
我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。
企业管理中客户关系的管理必不可少,并且良好的管理有利于企业发展,有利于企业获取更大的财富,有利于企业实现自己的价值,所以保障对企业客户关系的管理。数据挖掘技术就是一个可以帮助企业对客户关系进行有效的管理的工具。
一、数据挖掘和客户关系管理含义
数据挖掘技术(Data Mining可以简称为DM),简单来说,就是一种把隐藏在大型数据库或者数据仓库中所需要的有用信息提取出来的新技术,这是一个对数据库进行研究的非常有价值的领域。数据挖掘技术可以帮助用户从数据库中准确的提取出有用的商业信息,为用户在进行决策时提供重要的支持。
客户关系管理(Customer Relationship Management可以简称为CRM),也有人称之为“顾客关系管理”,关于客户关系管理的定义,目前有两种说法:一,最早的Gartner Group定义为一种商业策略,就是把客户进行分类,并依据分类情况来对企业的资源进行有效的组织,进而企业的业务流程实施以及经营活动都要以客户为核心来进行,以此来提高企业的盈利能力以及客户满意度,取得最大利润;二、是由CRMguru.com给出的定义,客户关系管理就是一个在企业的营销、销售以及服务的业务范围内,把企业现有的客户以及潜在客户,还有业务伙伴多渠道进行管理的过程,或者说技术。
二、数据挖掘在客户关系管理中的应用
随着社会经济的不断发展,市场竞争力也在逐步的增大,商家想要获得最好的利益,就必须对市场的变化迅速的做出反应,能够引起市场变化的重要因素就是客户需求的变化,也就是说,企业必须集中注意力,观察客户需求的每一变化,并把这些资料收集在一起,作为企业发展的宝贵资源进行管理。在企业管理客户信息的过程中,就需要应用到了数据挖掘技术。
数据挖掘技术在客户关系管理中的应用过程中,主要方法有:神经网络法、遗传算法、决策树法、粗糙决算法以及可视化技术、K—最近邻技术等,每个公司的客户关系不同、需求也不同,所以要用到的方法也不同。
数据挖掘技术主要应用于客户关系管理中的这几个方面:(1)挖掘新客户,数据挖掘技术可以对现有的客户信息和市场环境进行统计总结以及归纳,准确的确定潜在客户以及市场目标。因为数据挖掘技术具有统计、聚类和关联的作用,比如说,数据挖掘技术在数据库中发现了这样一个信息“某客户在购买A商品之后,过了一段时间又购买了B商品,最后还购买了C商品”那么数据挖掘技术就会通过次序关联,把这个信息形成“A—B—C”的行为模式。(2)可以保持优质客户。现在社会竞争相当激烈,企业客户更是企业发展的重要因素,优质客户对每个企业来说就更加的重要。数据挖掘技术可以对数据库中的流失客户信息进行分析,并且对流失客户的特征进行准确的描述,然后利用关联、近邻的方式对整个数据库中的消费客户信息进行分析,分析出容易流失的客户,随后就需要采取相应的措施来减少这些客户的流失,尤其是那些可能流失的优质客户,更要采取有力的措施来进行挽留。(3)可以提升客户价值。目前提升现有客户的价值的方式有两个:一是提供特色服务或者产品;二是销售新产品或者服务。想要准确的提升客户价值,就需要数据挖掘技术的帮助了,他可以把之前的客户信息研究分析,并依据新产品或者服务的特征,发现和客户的已购买产品之间的关联,因而准确的找到具有最大购买趋势的客户。
三、加强客户关系管理中数据挖掘的意义
应用数据挖掘技术对客户关系进行管理,可以有效的提高企业的核心竞争力,现代社会的激烈竞争,也就是对客户的竞争,数据挖掘技术对企业的客户关系进行详细的分析,并为企业提供有价值的商业信息,为企业的重大决策提供了重要的参考依据,进而有力的提高了企业的核心竞争力;可以有力的增强企业的执行力,利用信息技术对客户关系进行管理,降低成本,并简化执行任务,有效的实现了资源共享,大力的提高了企业的自动化水平,企业职工的执行能力也进一步得到了提高,也就是增强了企业的执行力[3];可以为企业的下一步战略发展提供帮助,数据挖掘技术对现今的市场环境进行分析,可以预测到每个业务的发展状态,以及每个业务与发生过的商业行为之间的关系,有了这些信息,可以准确的制定企业未来的发展战略,并且可以制定与市场环境相适应的营销策略。
综上所述,目前数据挖掘技术是企业进行客户关系管理的最有效的工具,准确的掌握了客户信息,就是准确的把握了市场需求,可以为企业制定完全适应于市场的发展方向。数据挖掘技术的关键作用就是找出潜在客户,保留忠诚客户,并利用企业有限的资源,对这些客户提供最好的服务,促进企业的不断发展。
参考文献:
【中图分类号】R255.2 【文献标识码】A 【文章编号】1672-3783(2012)05-0093-01
1 引言
辨证是中医学的特点与优势之一,也是中医药取得疗效的前提。中医是以传承性为主的实践医学,受生产技术水平的影响,前人在辨证的时候主要靠个人的临诊经验,掺杂了许多主观因素与模糊概念,加上众多的医学流派推崇不同的思辨方式,使证侯的外延与内涵愈加复杂而不可确定。随着计算机、生物技术的进步以及交叉学科的发展,中医证侯的研究开始了新局面,能否从病、证、症、生物学基础等不同层次中挖掘出其固有的规律性的联系,以确定不同证侯的概念范畴、使辨证更具重复性和临床可操作性,这成为大家所探求的方向。众多学者为此开展了不少研究工作,笔者就中医证侯近十年的研究概况进行论述并分析如下。
2 中医证侯近十年的研究概况
2.1 证侯研究成果检索结果与分析:利用“中医”、“证或证侯”、“文献”、“临床” 及“动物(实验)”等主题词检索CNKI数据库从2000-2008年所收录的论文,其中文献研究相关论文272篇,临床研究相关论文5323篇,动物实验相关论文238篇。统计结果如图1所示。从图中可以看出以下特点:1)临床研究是证侯研究的主要方式,这是由中医的临证性所决定的。2)中医古籍资源有限、研究成果转换周期较长,是导致文献研究数量低的主要原因。
2.2 证侯研究主要切入方向的研究成果检索结果与分析:在检索“证”或“证侯”研究论文的基础上,以“四诊规范”、“生物学”、“数据挖掘”等关键词结合手工进一步检索,获得近十年发表的论文中,与四诊规范研究相关的论文227篇,与生物学研究相关论文436篇,与数据挖掘相关论文220篇。其研究态势如图2所示。从图2中可以看出,相关研究论文均有逐年上升的趋势。就近十年而言,证侯生物学研究相关论文最多,数据挖掘类论文数量增长迅速。
2.3 证侯的具体研究概况
2.3.1 四诊的定性与定量研究:通过四诊收集到的症状(主要由患者自己叙述出来)、体征(由患者表现出来,通过望、闻、切可知的,包括舌象、脉象、面色、神志状况)等信息是证侯的构成基础。舌、脉和面色虽客观存在,但易受周围环境、自然光线及医者主观判断的影响,因此利用物理仪器、高分辨率的数码相机结合色彩、图谱分析软件力求量化已成为趋势。就舌象客观化而言,不少学者对舌色、苔色、舌苔的厚度与湿度、齿痕、纹理特征,甚至对舌体的胖瘦、歪斜,舌下络脉的长度、宽度、颜色进行了量化分析[2-5],具有一定的临床符合率。
此外,通过问诊所获取的信息在中医证候分类中起着重要的作用。如何控制和把握这些“软指标”,近年来不少学者也做了很多工作。有学者把社会学中的定性研究引入中医问诊领域[12],建议与患者进行深入交谈,对患者的语气、语言表达方式、神态、言语内容等进行综合分析,以期获取尽可能多的与病症相关的信息,这些信息可能容易被医生所忽视,但对证侯的判别起重要作用,能弥补定量研究的缺憾。
2.3.2 证侯生物学基础的研究:中医证侯的确立是依据表现型组资料得来的,对于现代生命科学而言,一个证候表现型的产生必然有从基因组层次到器官组层次的不同范围的功能异常[13]。从文献检索的结果来看,涉及细胞、基因层面的研究论文较多,技术相对成熟;蛋白、代谢组学层面的论文较少,研究技术有待完善。
就细胞层面而言,研究较多的是细胞因子、细胞外基质及细胞表面标志物在不同证侯下的特异表达。细胞因子的相关性研究趋于热化主要是因为:其介导细胞间相互影响、作用而形成复杂的人体调节网络,这可能是证的实质所在[14];其种类众多,功能各异,如白细胞介素、肿瘤坏死因子、趋化性细胞因子及其细胞膜受体和可溶性受体等,这些指标常见于诸多论文中;检测方法较为便利,且敏感性强。
2.3.3 利用数据挖掘方法的证侯研究:中医辨证的过程是医者凭借个人经验从患者的一系列症状、体征或生物学指征、外界环境等复杂的非线性现象[15]中提取出相互关联的、有内在规律的、特异的组合信息。数据挖掘[16]则是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。可以说两者在获取信息的方式与过程上有契合之处。
研究者常依据不同的研究目的及数据的特点选择不同的多元统计方式。如探讨饮食习惯、居住环境、体质因素等不同的致病因素或生物学检测指标或某一疾病下各证型的症状、体征与该证型之间的关联性多采用回归法,如进一步分析哪些症状、体征和生物学指标对区分不同的证侯有较高的贡献度,多通过逐步判别分析。
3 结语
就近年主要的研究成果来看,将宏观与微观、定性与定量的研究方式相结合是证侯研究的可行路径和发展趋势。然而如何将有一定组合规则和重叠涵盖关系的证侯要素进行合理的分解,四诊宏观信息如何定量,生物学微观指标如何定性,二者怎样结合,采用什么样的方式结合才能真正提示或反应、甚而揭示证侯的内涵,这是目前研究的困惑与癥结所在,借鉴现代计算机信息处理技术、生物学技术和多学科交叉的优势互补,可能会有所突破。
参考文献
[1] 郭蕾,王永炎,张志斌.关于证候概念的诠释.北京中医药大学学报,2002; 26(2): 5-7
[2] 卫保国,沈兰荪.舌体胖瘦的自动分析.计算机工程,2004; 30(11):25-58
[3] 卫保国,沈兰荪,蔡轶珩.舌体歪斜的自动分析.计算机工程与应用,2003; 25(10): 22-26
[2]张玉亮.突发事件网络舆情的生成原因与导控策略――基于网络舆情主体心理的分析视阈[J].情报杂志,2012,31(4):54-57.
[3]许鑫,章成志,李雯静.国内网络舆情研究的回顾与展望[J].情报理论与实践,2009,32(3):115-120.
[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.
[5]郑军.网络舆情监控的热点发现算法研究[D].哈尔滨哈尔滨工程大学,2007.
[6]陈耘可,李博,郑天翔.PDCA循环在煤炭企业质量标准化建设中的研究与应用[J].煤炭经济研究,2013,33(2):77-79.
1数据仓库概念及其体系结构
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non – Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。与其他数据库应用相比,数据仓库更像一种过程,即对分散的业务数据进行整合、加工和分析的过程,而不是一种可以购买的产品。
数据仓库包括如下几个部分,如图1所示。
(1)原数据部分,数据提取、清洗、转换和装载(ETL)部分,以及中心数据仓库部分。经过这些环节,可以完成将数据从源数据装载到数据仓库中的过程。
(2)数据集市。根据部门的需要,可以从数据仓库中形成数据集市,以满足部门及数据分析的需要。
图1 数据仓库的体系结构
(3)数据访问和分析部分。在数据访问和分析的过程中,可以采用OLAP分析及数据挖掘技术进行分析,得出有关的分析结果。
2 数据分析技术
数据分析技术是建立在一定数据基础上,进行分析的方式和方法,通常包括:OLAP、数据挖掘、统计分析、联机挖掘等技术。需要说明的是,数据分析技术并不一定需要建立在数据仓库的基础上,但有了数据仓库之后,数据分析的效率和能力将大大提高。通过与数据分析技术的结合,才能发现许多前所未有的分析结果,并为管理者提供科学的决策依据。
2.1 OLAP(联机分析处理)
OLAP分析与数据仓库的关系非常紧密。数据仓库的建立,解决了依据主题进行数据存储的问题,提高了数据的存取速度,而OLAP分析构成了数据仓库的表现层,将数据仓库中的数据通过不同的维和指标,灵活的展现出来,提高数据的展现能力,进而提高数据的分析能力。
OLAP涉及以下术语:维度(Dimension)、量度(Measure)、级别(Level)、成员(Member)、多维数据集/立方体(Cube)、时间粒度(Time granularity)、星型结构/维度(Star schema)、雪花型结构/维度(Snowflake schema)。
OLAP对不同维度进行肉眼观察,并非运用更科学的概率论或其它数学工具去测度;而肉眼观察带有主观的“有色眼镜”,故缺乏科学客观的评判手段和方法。其次,当遇到维度过多、数据量过大的实际情况时,OLAP工作效率急剧下降。再次,若自变量和自变量之间存在的线性关系或交互作用,OLAP无法分辨“混杂因子”或找出主要影响因素。因此,OLAP无法完全满足在分析信息系统中最基本、最重要和最关键的要求:面对主题(商务需求)进行分析;而在实际信息处理中,OLAP无法实现分析的主题或任务,则需要数据分析或数据挖掘更强大的分析工具、技术来实现。计算机论文
2.2 数据挖掘
数据挖掘亦称为数据开采,它首先由W. J. Frawley、G. Piatesky-Shapiro等人提出。数据挖掘是一种数据分析工具,它从大量的、不完全的、有噪声的、模糊的、随机的数据中提取人们感兴趣的数据模式、数据的普遍关系及其隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式,其目的是帮助管理者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为将起到一定的支持作用。
数据库中的数据挖掘是一个多步骤的处理过程,这些步骤有:
(1)数据定义阶段。主要了解相关领域的有关情况,熟悉背景知识,弄清楚用户决策分析对信息的要求。
(2)数据提取阶段。根据要求从数据库中提取相关的数据。
(3)数据预处理阶段。主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对缺损的数据进行填补。
(4)数据挖掘阶段。主要是运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。
(5)知识评估阶段。将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。
2.3数据仓库、0LAP和数据挖掘之间的关系
在数据仓库化的决策支持系统中,应将数据仓库、OLAP、数据挖掘进行有机结合,其所担当的角色分别为:
(1)数据仓库用于数据的存储和组织,它从事务处理系统中抽取数据,并对其进行综合、集成与转换,提供面向全局的数据视图;OLAP致力于数据的分析;数据挖掘则专注于知识的自动发现。
(2)在数据仓库和OLAP、数据仓库和数据挖掘之间存在着单向支持的关系;在数据挖掘与OLAP之间,存在双向联系,即数据挖掘为OLAP提供分析的模式,OLAP对数据挖掘的结果进行验证,并给予适当的引导。三者关系如图2所示。
图2 数据仓库、OLAP、数据挖掘的关系
3、数据仓库技术及在人力资源系统的设计
人力资源系统的数据量大,但相对分散,统计功能不足,利用率低。为了更好的发挥其数据的功能,提出人力资源数据仓库系统的设计。该系统主要由ETL系统、OLAP系统、客户端组件系统三部分组成,其整体框架如图3所示。
图3 人力资源数据仓库系统框架图
ETL系统负责定期的从OLTP系统中将业务数据库的数据导入数据仓库,在导入过程中会依据OLAP系统中模式设计的要求对数据进行清洗和转换,以符合数据仓库的结构要求。
OLAP系统由三部分组成:OLAP引擎、OLAP数据展示模块和元数据管理模块。OLAP引擎负责读入数据仓库中的数据,并根据模式定义构建多维数据集,使数据以多维格式展示。OLAP数据展示模块负责将多维数据集展现为一个联机分析处理(OLAP)页面,用户可以在页面上执行典型的联机分析处理导航操作,如上卷、下钻和旋转等。元数据管理模块负责对模式设计文件进行管理。
客户端组件系统负责访问用户的登录验证,并根据访问用户的访问权限提供对应的数据展现。
4、结束语
本文阐述了数据仓库、OLAP、数据挖掘的概念,并对OLAP和数据挖掘技术进行了探讨。并在此基础上,提出了人力资源数据仓库系统的设计方案。数据仓库已经成为现代信息领域的必不可少的基础设施之一,我们应该使用好数据仓库,使之成为迎接挑战的有力武器。
参考文献
[1] W. H. Inmon 数据仓库[M] 机械工业出版社 2003
[2] 王珊等 数据仓库技术与联机分析处理[M] 科学出版社 1998
中图分类号:TP29 文献标志码:A 文章编号:1006-8228(2017)05-37-03
Research on the characteristics of resident travel based on the taxi
GPS trajectory data mining
Lin Jiyan, Zhang Yaqiong, Zhang Hui
(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)
Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.
Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN
0 引言
在城市的上下班高峰期,道路矶率浅鞘薪煌ㄎ侍庵凶钗突出的难题,这跟城市居民出行行为密不可分,因为出行的居民是交通量的主要来源[1]。一个城市的交通系统状况跟城市居民的出行行为息息相关,居民的出行行为会对城市交通体系产生影响[2]。对居民出行特征进行研究是城市和交通规划、城市公共基础设施建设管理中的一个基础性任务,不仅可以用来对目前的交通出行情况进行评估,也可以用来对居民的出行需求进行预测,对实施合理有效的城市交通规划起着至关重要的作用[3]。
出租车因其灵活性和便利性,已日渐成为城市交通系统的重要组成部分,同时,因为它的起点和终点由乘客决定,且24小时不间断服务,所以,出租车的运营规律能够反映出乘客的出行特征[4]。由于装载在出租车上的GPS和通信设备以一定的频率向城市交通客运管理中心传送出租车的实时经纬度、运营状态、行驶方向、速度等信息,因此,管理中心会积累大量的出租车GPS轨迹数据[5],利用DBSCAN对这些进行数据进行聚类分析,可以在一定程度上挖掘乘客出行的时空特征,也能为出租车寻找最佳的载客区域提供依据,有效的降低出租车的空驶率。
1 GPS轨迹数据挖掘设计
1.1 数据预处理
本文选取榆阳区(地理坐标为东经108?58'-110?24',北纬37?49'-38?58'之间)作为研究区域,GPS轨迹数据使用榆阳区1100多辆出租车五天的运营数据,对数据进行预处理后,出租车轨迹数据由车牌ID tID、、当前位置loc、GPS时间ct、营运状态tsta、行驶方向tdir、GPS速度dspe等六个属性组成,部分属性值如表1所示。
表1中,营运状态的取值为0-3,其中0表示空载,1表示载客,2表示驻车,3表示停运;GPS方向的取值为000-360,以度为单位,即与北极方向的夹角,代表车辆的行驶方向。
1.2 利用DBSCAN算法进行聚类挖掘
居民的作息和社会活动有明显的时间规律,比如上下班高峰期的载客点分布情况和非高峰期的居民出行特征有可能完全不同,因此,可以先将GPS历史轨迹数据根据时间特征分类,再进行密度聚类分析,如此便可充分挖掘在不同时间段上居民出行特征的空间密度分布情况,给出租车提供更加合理的时空载客区域分布数据,有效地提高其巡游过程中的载客成功率。基于此,论文引入了DBBSCAN算法,该算法需要3个输入参数:历史轨迹数据对象D,空间半径ε,以及密度阈值MinPts;输出参数为聚类簇C,部分MATLAB代码如下:
data=importdata('data.xlsx');
data=data.data.Sheet1;
……
num=size(data,1);
k=floor(log(num))+1;
k=round(num/25)+1;
k_dist=zeros(num,1);
for i=1:num
temp=repmat(data(i,:),num,1);
gx0=temp(:,1); gy0=temp(:,2);
gx1=data(:,1);gy1=data(:,2);
dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);
dist_s=sort(dist0);
k_dist(i)=dist_s(k);
end
x=1:num;
figure;plot(x,k_dist,'r-');
xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');
……
x=[(1:m)' data];
[m,n]=size(x);
types=zeros(1,m);
dealed=zeros(m,1);
dis=calDistance(x(:,2:n));
number=1;
……
img=imread('map.jpg');
[Ny,Nx]=size(img);
……
figure;imagesc(x00,y00,img); colormap(gray); hold on;
for i=1:m
if class(i)==-1
plot(data(i,1),data(i,2),'.r');
else if class(i)==1
if types(i)==1
plot(data(i,1),data(i,2),'+b');
else
plot(data(i,1),data(i,2),'.b');
end
elseif class(i)==2
if types(i)==1
plot(data(i,1),data(i,2),'+g');
else
plot(data(i,1),data(i,2),'.g');
end
……
plot(x1,y1,'r*');
xlabel('度'); ylabel('纬度');
2 实验结果
聚类结果如图1和图2所示,出行热点区域在图中用圆圈标出。
以上的聚类结果显示,榆阳区的居民出行呈现一定空间和时间特征。工作日和非工作日出租车热点区域不同,且工作日的不同时间居民出行的特征不同;在工作日,出租车的载客热点数比非工作日多;而载客热点分布,工作日比非工作日分散。该聚类结果也可以给出租车司机提供历史载客热点序列,从一定程度上解决巡游方式的出租车空载率高的问题。
3 结束语
本文利用DBSCAN算法对出租车的历史GPS轨迹数据进行挖掘,从挖掘结果可以分析出居民出行的时空特征,从而用来对目前的交通出行情况进行评估,同时也可以用来对居民的出行需求进行预测;再者,可以根据挖掘结果给出租车司机提供历史载客热点序列,帮助出租车司机降低空驶率。本文仅针对工作日和周末特定时刻给出了聚类分析,没有详细地分析一天中不同时刻的居民出行特征,以后的工作中会继续研究和改进。
参考文献(References):
[1] 卫龙,高红梅.基于轨迹数据挖掘的居民出行特征研究进展[J].西部交通科技,2016.10:87-92
[2] 冯琦森.基于出租车轨迹的居民出行热点路径和区域挖掘[D].重庆大学,2016.
[3] 陈世莉,陶海燕,李旭亮,卓莉.基于潜在语义信息的城市功能区识别――广州市浮动车GPS时空数据挖掘[J].地理学报,2016.3:471-483
[4] 张俊涛,武芳,张浩.利用出租车轨迹数据挖掘城市居民出行特征[J].地理与地理信息科学,2015.6:104-108
[5] 张薇,林龙.基于数据挖掘的增城居民出行特征分析[J].科技和产业,2015.7:61-64
[6] 赵苗苗.基于出租车轨迹数据挖掘的推荐模型研究[D].首都经济贸易大学硕士学位论文,2015.
1 数据挖掘的功能
数据挖掘是从大量的数据中四栋搜索隐藏于其中的具有特殊关系性的信息过程。它是数据库知识发现KDD中的一个步骤。知识发现KDD过程由以下3个阶段组成:数据准备、数据挖掘、结果表示和解释。数据挖掘跟许多学科都交叉关联,包括数据库技术、统计学、机器学习、人工智能、云计算和可视化等。
数据挖掘的实际应用功能可分为三大类和六分项:分类和聚类属于分类去隔类;回归和时间序列属于推算预测类;关联和序列则属于序列规则类。分类常被用来根据历史经验已经分好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。聚类是将数据分群,其目的是找出群间的差异来,同时找出群内成员间相似性。回归是利用一系列的现有数值来预测一个数值的可能值。基于时间序列的预测与回归功能类似,只是它是用现有的数值来预测未来的数值。关联是要找出在某一事件与数据中会同时出现的东西。
2 降维
从降维的角度讲,整个数据挖掘的过程就是一个降维的过程。在这个过程中,需要对数据删除线性关系比较强的特征数据,再用一些算法,如信号分析算法、傅里叶转换、离散小波转换等算法,从数据中提取特征,再对数据做主成分析处理,得到最后的特征,再用数据挖掘算法来将这些特征转化为人类可读取的数据或信息。
3 分布式数据挖掘解决方案
随着分布式计算技术、云计算技术、hadoop生态圈和非结构化数据库等技术的发展,以及对大数据挖掘的需求,出现了一批分布式数据挖掘,比较典型的有Apache推出的基于Hadoop的Mahout和加利福尼亚大学伯克利分校AMP实验室推出的基于Spark的MLBase。在Mahout中主要实现3种类型的数据挖掘算法:分类、聚类(集群)和协同过滤。相比Mahout而言,MLbase更好的支持迭代计算,它把数据拆分成若干份,对每一份使用不同的算法和参数运算出结果,看哪一种搭配方式得到的结果最优。
4 大数据下的具体应用实例――生物信息学的应用
生物信息学(Bioinformatics)是生命科学、计算机科学、信息科学和数学等学科交汇融合形成的一门交叉学科。近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来,生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术。在使用计算机协助生物信息时,处理仅有计算机辅助的方式存储数据很显然是不够的,生物信息学研究的目的是运用计算机强大的计算能力来加速生物数据的分析,理解数据中所包含的生物学意义。当前生物信息学研究的热点有:
(1)由以序列分析为代表的组成分析转向功能分析。
(2)由对单个生物分子的研究转向基因调控忘了等动态信息的研究。
(3)完整基因组数据分析。
(4)综合分析。
生物信息数据具有如下特点:高通量与大数据量;种类繁多,形式多样;异构性;网络性与动态性;高维;序列数据等特点[5]。针对这样的生物数据信息,要结合当前的大数据分析方法进行分析和理解。当前数据挖掘实现对生物信息分析的支持主要有:生物数据的语义综合,数据集成;开发生物信息数据挖掘工具;序列的相似性查找和比较;聚类分析;关联分析,生物文献挖掘等方面。
参考文献
[1]许凡.大数据时代的数据挖掘技术探讨[J].电子技术与软件工程,2015(08).
[2]洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014(11).
[3]李荣.生物信息数据挖掘若干关键问题研究与应用[D].复旦大学(博士论文),2004(11).
[4]宋杰.生物信息数据挖掘中的若干方法及其应用研究[D].大连理工大学(博士论文),2005(04).
[5]孙勤红.基于梯度采样局部收敛的生物信息大数据挖掘[J].科技通报,2015(10).
作者简介
孙勤红(1979-),女,山东省人。现为三江学院计算机科学与工程学院讲师。研究方向为人工智能、数据挖掘。
数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。
一、数据挖掘技术的概念
随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。
二、数据挖掘技术在保护设备故障信息中的实现方法
1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。
2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。
三、数据挖掘技术保护设备故障信息管理的基本功能
1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。
2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。
四、结语
随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。
参考文献:
[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9
一、系统架构及技术分析
系统架构主要由数据仓库系统、模型库系统、知识库系统及可视化接口4部分构成。采用的关键技术是数据仓库技术(DW)、数据挖掘技术(DM)、在线分析处理技术(OLAP)。
(一)数据仓库的作用
电子政务的决策过程是一个从非结构化数据中抽取结构化信息,再提供非结构化决策分析结果的过程。因此,为了营造良好的电子政务决策数据环境,获得高质量的数据分析结果,建立适合政府决策的数据仓库系统是电子政务决策支持系统的关键环节,以确保政务系统中的数据能够更好地发挥分析、决策的作用。这种数据仓库系统的功能要能向两个不同方向拓展,一是广度计算,二是深度计算。广度计算是使数据仓库系统的应用范围尽量扩大,能基本涵盖市级政府决策、服务的领域;深度计算使数据仓库系统克服了以往数据库简单数据操作处理(即事务处理)的缺点,对数据处理提出了更高的要求,使其能更多地参与政府对数据分析和决策的制定等工作。
(二)模型库系统的功能
模型库系统包括模型库及其管理系统,模型库是一个包含有财务、统计、运筹和其他定量模型的软件包,存放解决行政管理问题的经验模型,是为决策提供分析能力的部件,给予决策者通过推理、比较、选择来分析、预测和解答整个问题的能力。因此,研究一些决策支持模型,建立一个政府决策的模型库系统是完成系统的关键环节之一。这种模型库系统应具有以下两个特点,一是能实现多目标决策;二是能实现多领域、多部门、多用途的决策,即按经济内容来看应具有预测类模型、综合平衡模型、结构优化模型、经济控制类模型等,按决策活动来看应有规划模型、推理模型、分析模型、预测模型、评估模型等。
(三)知识库系统的功能
知识库系统包括知识库及知识库管理系统,其功能是对知识进行系统化组织与管理,存储、增加、删除、修改和查询知识,以及对知识进行一致性和完整性校验。知识库与数据库既有区别又有联系,从知识的逻辑表示观点来看,关系数据库是一种简单的知识库,数据库中的每一个关系是一个原子公式,即一个谓词,关系中的元组即是知识中的事实,因此利用关系数据库来建造知识库,就可以充分利用关系数据库管理系统的功能,便于知识库管理系统的设计与实现。
(四)可视化接口
可视化接口包括预测、分析、查询和维护等4个子系统。通过数据分析和预测工具对数据仓库中的数据进行多维分析、汇总,结果可以用二维表、饼图、折线图和直方图表示。
二、数据挖掘的技术工具和基本过程
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘常用的技术有神经网络、决策树、遗传算法、近邻算法和规则推导等。数据挖掘常用的工具有:
第一,基于神经网络的工具。由于对非线性数据具有快速建模能力,神经网络很适合非线性数据和含噪声数据,所以在政府数据库的分析和建模方面可以应用。
第二,基于关联规则和决策树的工具。大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法。
第三,基于模糊逻辑的工具。其发现方法是应用模糊逻辑进行数据查询、排序等。
第四,综合多方法工具。不少数据挖掘工具采用了多种开采方法,这类工具一般规模较大,适用于大型数据库或者并行数据库。数据挖掘的基本过程包括数据准备、模型搜索、结果分析和生成报告。
数据准备:收集和净化来自数据源的信息并加以存储,将其放入数据仓库中。
模型搜索:利用数据挖掘工具在数据中查找模型,搜索过程可以由系统自动执行,也可以由用户参与执行。对于一个主题的搜索,可用神经网络、专家系统、统计方法等。