时间:2022-04-03 02:52:37
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据挖掘技术研究范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。
1 空间数据挖掘研究概述
空间数据挖掘(spatial data mining,简称sdm),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。
空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。
空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。
2 空间数据挖掘在gis中的应用
空间数据挖掘技术与地理信息系统(gis)的结合具有非常广泛的应用空间。数据挖掘与gis集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将gis当作一个空间数据库看待,在g is环境外部借助其它软件或计算机语言进行空间数据挖掘,与gis之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在gis中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用gis提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。
利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。
3 空间数据挖掘面临的问题
(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。
(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。
(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。
(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。
(6) 空间数据挖掘与其他系统的集成不够,忽视了gis在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。
上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。
4 空间数据挖掘的发展趋势
(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。
(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。
随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。
1 空间数据挖掘研究概述
空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。
空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。
空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。
2 空间数据挖掘在GIS中的应用
空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。
利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。
3 空间数据挖掘面临的问题
(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、 处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。
(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。
(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。
(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。
(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。
上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。
4 空间数据挖掘的发展趋势
(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。
(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。
关键词:
大数据大数据分析大数据挖掘可视分析
随着云计算、物联网和互联网等技术的快速发展,各种移动设备、传感网络、电商网站、社交网络时时刻刻都在生成各种各样类型的数据,大数据时代已经到来。大数据即数据体量巨大、数据类型多样、数据的质量低、处理速度迅速的数据。大数据分析的核心是从大量数据中获取有价值的内容,更准确、更深层次的知识,而不是对数据简单的统计和分析。
1大数据的定义与特征
大数据已经进入了我们每个人的生活,各行各业都在讨论如何发展和运用大数据,那么什么是大数据,大数据的特征是什么?大数据是指所涉及的数据规模巨大到无法通过目前主流的软件工具在合理时间内撷取、管理、处理、挖掘这些数据,并整理成为企业经营决策有用的信息。IBM提出大数据的4V特征,得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包含来自互联网的大量视频、图片、位置和日志等;第三,速度(Velocity),即处理速度快;第四,价值性(Veracity),即追求高质量的数据。大数据具有4V特征,给人们带来了新的机遇与挑战。
2大数据挖掘与分析的意义
在大数据处理的过程中,数据分析是核心,因为大数据的价值全部在数据分析过程中产生。互联网、硬件等技术迅猛发展,加深了人们对数据分析的需求。如果大数据是一种产业,赚钱的重点在于如何提高数据的分析能力,通过分析发现数据的更多潜在的价值。在大数据时代,数据分析是数据价值发现的最重要环节,也是决策的决定性元素。传统的数据分析主要针对结构化数据,且已经形成一整套非常有效果的分析体系。但是在大数据时代,半结构化和非结构化数据量的快速增长,给传统的分析技术带来了巨大的挑战和冲击。大数据分析于传统数据分析有哪些区别呢?
3大数据挖掘与分析的关键技术
大数据挖掘与分析的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据实时处理、大数据可视化和应用等。
3.1大数据采集技术大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层重点攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层重点攻克提供大数据服务平台所需的虚拟服务器、数据库及物联网络资源等处理技术。
3.2大数据预处理大数据预处理是指在大数据挖掘前期对大数据进行的一些提前处理。预处理包括数据清理、数据集成、数据变换和数据归约等几种方法(表1)。大数据的特点是数据量大,但并没有增加数据价值,相反增多了数据噪音,有很多数据放在存储器里就没再用过。数据量的突然增加,各种媒体数据被任意碎片化。在应对处理大数据的技术挑战中,大数据的降噪与清洗技术值得高度重视。早期主要是结构化数据的挖掘,可从数据库中发现时序知识、关联知识和分类知识等。在大数据时代,数据库已经不能满足人们的需求了。大数据中数据类型繁多,我们进入了一个非结构化数据挖掘时代。因此,非结构化数据模型是大数据预处理的重要研究方向。
3.3大数据管理大数据不断地从复杂的应用系统中产生,并且将会以更多、更复杂、更多样化的方式持续增长。多样化的物联网传感设备不断地感知着海量的具有不同格式的数据。物联网系统中大数据的复杂化和格式多样化,决定了物联网系统中针对大数据的应用场景和服务类型的多样化,从而要求物联网大数据管理系统必须采用特定技术来处理各种格式的大数据,而现在针对特定数据类型和业务的系统已经无法满足多样化需求,因此,设计新的具有可扩展性的系统架构已经成为大数据管理的研究热点。
3.4大数据实时处理根据大数据速度快的特点,时间越长,数据的价值也在不断衰减,因此很多领域需要对数据进行实时处理。大数据时代,伴随着各种应用场景的数据分析从离线转向了在线,实时处理的需求不断提高。大数据的实时处理面临着一些新的挑战,主要体现在数据处理模式和算法的选择及改进。
3.5大数据可视分析大数据可视分析是指在大数据自动挖掘的同时,融合计算机的计算能力和人的认知能力,利用人机交互技术和可视化界面,获得大规模复杂数据集的分析能力。在大数据时代,大数据可视化是必须尽快解决的关键问题,为大数据服务的研究指明了方向。
4结语
传统数据处理方法已经不能满足大数据挖掘与分析的需求。近年来,大数据挖掘与分析领域已经出现了很多新技术,并成为大数据采集、存储、处理和呈现的坚实基础。但是对大数据分析的价值尚缺少深入的理解,大数据分析中的很多重要技术还不成熟,还有很多其他关键技术难题需要去继续研究。
参考文献
[1]韩晶.大数据服务若干关键技术研究[D].北京邮电大学博士学位论文,2013.
[2]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
[3]任磊,杜一,马帅等.大数据可视分析综述[J].软件学报,2014,25(09):1909-1936.
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)09-0016-02
Abstract: Web based data mining is a hot research direction of Webpage mining resources using the technology of data mining, this paper analyses the Webpage the concept of data mining, classification, mining principle and related technology
Key words: data mining; web data mining; classification; mining technology
互联网的不断得到发展,网页中数据量迅速增加,如何从这么多的网页信息中获取有用的数据已经成功数据挖掘领域的一个热门的研究方向,数据挖掘是近几年来迅速发展的进行信息获取的一个重要渠道, 尤其大量运用与社会和科学的方方面面。一般来说数据挖掘主要利用计算机和相关的信息技术,把有用的数据从海量的网页数据中挖掘出来,为我们从事其他方面的运用。基于网页的数据挖掘是一门技术的综合研究方向,它的思想是从Internet中提取网页中的大量数据,也就是从网页的数据结构中发现隐含的模式[1]。
1 数据挖掘的特点
1)数据挖掘的特点之一就是半结构化,这个特别算是网页数据挖掘的最大特点[2],因为网页上的数据分布没有规律,非常复杂,没有任何固定的模式能够很好的描述它的特点。因此称它为半结构化。
2)数据挖掘的特点之二是网页中的数据比较分散,这些网页数据存在世界各地的很多服务器上,因此是一种数据源分散的结构。
3) 数据挖掘的特点之三是数据库的结构存在不同,因为互联网上的一个网站可以存为一个数据源,它们的结构互不相关,异构性特点比较强,由它们构成的数据库自然而然也属于一种异构的形式。
4) 数据挖掘的特点之四是动态性强,网站上的数据资源是不断更新变化的,找不到固定的形式,网站与网站的直接访问的链接是形式变化的。
2 数据挖掘过程
基于Web的数据挖掘与传统的数据仓库相比,网页上的信息是半结构化的或非结构化、不容易识别、变化的,正因为它这些特点,要想在网页上开展直接数据挖掘,可谓很费功夫,就要借助一些方法来预处理数据,才能方便挖掘。通常进行网页数据挖掘可分为的如图1所示的四个步奏。
1)数据源的获取,在网站的各个页面中获取数据信息,组成目标数据信息源,再从这些信息源中找到相关有用的数据。这个过程的目的就是从像网页文档、email、网页记录、新闻信息、各种网站数据库中挖掘出有用的数据。
2)把获取的数据进行加工处理,网页数据挖掘的好坏直接与数据源的好坏相关,如果获取的数据源有大量的垃圾数据,对数据挖掘过程有很大的影响,因此挖掘之前需要对数据源进行筛选,消除那些杂音数据,保证数据源的纯正,然后将这些已经过滤的数据再次装入数据库中进行下一步的分析。
3)对数据经过提纯处理后,进入模式寻找阶段,这需要各种挖掘算法分析、挖掘大量的、隐藏的、潜在的、可被利用的数据模式。在挖掘的过程中,经常会使用到一些相关的方法,例如聚类分析法、关联规则发等挖掘方法。
4)在对数据模式发现后,需要对这些模式进行挖掘,也就是知识的转换过程,把提取到的模式再进行信息转化,转化为我们能够理解,识别的知识,为我们的决策需要提供有用的参考源。
3 数据挖掘分类
在进行数据挖掘的时候,针对不同的数据结构,会采用不同的挖掘方法,这样才能有效、合理挖掘到有用的数据,不能笼统采用一种方法,这样挖掘的数据相应的杂音数据就比较多。大体上,我们把数据挖掘分为三种类型,即:网页使用挖掘、网页结构挖掘、网页内容挖 [3],如图2所示。
4 数据挖掘相关技术
互联网的发展促进网页数据挖掘得到越来越多的应用,于是针对网页挖掘的各种方法和技术不断出现,就这些相关的技术[4],下面分别一一介绍。
4.1 网页内容挖掘
4.1.1 网页文档挖掘
网页文档挖掘就是分析网站上存在的数量很多的网页文档采用聚类、分类、关联处理等多种方法进行分析,然后根据网页文档进行预测。在Internet的文档数据一般都是以html格式的网页文档出现,要采集这些网页文档数据,然后把这些文档数据变成记录的形式存贮进数据库,把这些记录用来表示文档内容特征,为后续的分析提供保障。表示文档的特征形式通常使用文档特征向量形式, 由于文档的特征表示中存在一些缺陷,文档的特征向量的维数非常高,对数据分析不利,因此一个好特征表示主要集中在特征集的选取方面,特征集需求好,对数据进行分析的时间就相对少,如果选取不好,将要花很长时间去等待。因此特征集选取好坏成为数据分析额关键。一旦特征集选择好后,就可以采用聚类、分类、数据关联等方法来进行提取信息,然后对这些提取的信息进行评价分析,找到有用的信息,为后续的决策工作提供指导。
4.1.2 挖掘网页多媒体
在进行网页多媒体挖掘主要关注的是特征提取,这点网页内容挖掘不一样。在网页多媒体挖掘中提取的多媒体特征主要关注视频或者图片的颜色特征、键值、形式以及它们的URL,最后根据这些特征进行数据挖掘。
4.2挖掘网页结构
挖掘网站空间中的知识,不仅关注包含在各个网页内容中的信息数据,同时也关注网站与网站之间的网页结构和超级链接结构,这也是非常重要的。进行网页结构挖掘主要分析网页结构之间的特征,利用聚类和分类来分析页面结构特征,找到特征模式。
4.3 网页使用挖掘
网页使用挖掘也是挖掘网页记录,实际就是挖掘用户在网页上留下的相关的记录信息,网页使用挖掘就是分析用户留言记录的相关信息,通过这些信息时报未来需要发展的用户; 网页使用挖掘通常使用扩展有向树模型分析用户的各种浏览行为习惯,挖掘出用户的日志信息,以及用户关心、关注的兴趣领域,把这些信息存放在知识库中,未下一步的分析工作提供数据, 对网页使用日志挖掘可分为三个步骤:日志预分析、分析方法处理、 模式分析阶段。在网页使用分析中,关注网页服务器记录的相关信息,这些信息主要包括用户访问的时间、URL、IP、使用方法、、返回结构、传输数据等相关信息虽然信息比较多,但是还存在无用的数据,需要进行提纯处理。一旦数据处理后,就能采用关联分析、如路径分析等模式发现技术来分析日志,获取有用的信息。
5 结束语
本文介绍了网页数据挖掘的相关概念、挖掘过程、分类方法以及相关技术。在Internet发展的今天, 网页数据挖掘的研究方面更加宽,人们不断关注如何对这些网页数据的处理。网页数据挖掘在各个方面,特别在结合语言问题、查询半结构化、数据库方面会得到不断发展。
参考文献:
[1] ITUCT Recommen dation H.263.Video Coding for Low Bit Rate Communication Transmission of non - Telephone Signal s. 1996.
1.前言
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术,数据挖掘是一个包含多个处理步骤的知识发现过程,其主要内容包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表达输出等。
把数据挖掘技术应用到电子商务系统中,开发出基于数据挖掘技术的电子商务系统能够加深和加强对电子商务系统数据的分析功能,为电子商务企业管理人员提供电子商务的预期信息,从而能很好的保证电子商务网站的运行效果。
现在电子商务系统主要形式B2C,涉及的数据不仅包括客户在电子商务网站上的交易数据,还包括客户的注册信息数据和商品信息等数据。电子商务系统的数据有如下特点:
(1)数据量大;
(2)数据质量差;
(3)数据种类多。
2.电子商务系统功能模块结构设计
根据B2C电子商务系统设计的目标,管理业务流程,将这个B2C电子商务系统分为:会员注册管理、会员帐户管理、商品购买管理、会员管理、商品类别管理、商品管理、优惠券管理、订单管理、留言板管理、商品评论管理、库存管理、网站管理和数据挖掘管理等功能模块(如图1所示)。
3.数据挖掘管理模块的设计
B2C电子商务数据挖掘管理模块主要通过对电子商务企业当前的和历史的交易数据进行分析。挖掘出其中隐含的知识和从中发现隐含的趋势和规律。它主要包括数据预处理模块、数据挖掘模块和数据挖掘结果显示模块。B2C电子商务数据挖掘系统从电子商务运行商品数据库、客户信息数据库和交易数据库中获取数据,根据数据挖掘算法的需要进行数据预处理,并建立数据挖掘模型,供电子商务企业的用户挖掘时使用。用户只需要输入简单的一些参数,系统就会自动的根据已建立的模型输出预测结果。电子商务挖掘系统体系结构如图2所示。
3.1 数据预处理模块
数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上面进行挖掘,需要做数据预处理工作,其一般包括数据的选择、数据清理、数据集成和转换。数据预处理是否做好将影响数据挖掘的效率和准确度以及最终模式的有效性。这些处理技术在数据挖掘之前使用可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。原始数据通过数据选择、清理、集成和转换后生成数据挖掘库,为下一步的数据挖掘做好准备。
3.2 数据挖掘模块
数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界的模型。数据挖掘的本质就是数学建模。在数据挖掘中,可以使用许多不同的模型,如分类模型、回归模型、时间序列模型、聚类模型和关联规则模型。针对同一模型,可以使用不同的算法进行数据挖掘。算法的目的就是找到适合于数据的模型。数据挖掘涉及到多步骤、各系统间的交互、特殊解决方案及各步骤间的反复过程。
B2C电子商务网站中商品介绍页面的摆放就好比商店里的货架,商品介绍的摆放位置也会影响客户对商品的购买率。而商品之间的关联性一般不是很容易看出来的,一般人很难联想到商品之间的关联性,只有实际上通过对大量的交易历史数据的分析,才可以挖掘出它们之间的关联性。在数据挖掘过程中对关联产品和服务进行深入挖掘,可以发现其中的关联规则,利用关联规则模型进行数据挖掘可以了解客户的购买行为,这对于改进B2C电子商务商业活动的决策很有帮助。例如,可以通过改进商品介绍位置的摆放(把顾客经常同时买的商品摆放在一起),帮助如何规划市场(互相搭配进货)等。而作为B2C电子商务网站。可以针对不同客户特点动态调整网站结构,使客户访问的有关联的网页文件的链接更加直接,让客户更容易访问到自己想要的东西。这样的网站更能吸引客户,提高客户的忠诚度,提高网站的效益。
B2C电子商务网站网页主要为顾客展示商品名称或图片,为顾客推荐与当前感兴趣商品更详细或相关的网页是个性化推荐的关键。根据客户的注册信息和订单信息,通过回归模型挖掘可以为不同的用户提供个性化服务,例如系统可以向客户显示那些可能引起客户感兴趣的新商品。
随着“以客户为中心”的经营理念不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。通过对B2C电子商务系统收集的客户的交易数据进行聚类模型挖掘,可以确定不同类万方数据型客户的行为模式,电子商务企业便可以采取相应的营销措施,促使企业利润的最大化。
3.3 数据挖掘结果显示模块
数据挖掘结果的显示模块是将数据挖掘后得到的知识和结果用可视化形式表示出来,例如采用图形化界面把挖掘结果显示给电子商务企业的管理人员。在建立好相关数学模型后,把实际数据作为输入信息,通过挖掘模型的计算获得预测结果。B2C电子商务企业要根据不同的挖掘结果做出不同的反应。采取不同的措施,给顾客提供不同的服务,在为顾客服务的同时也为自己的B2C电子商务企业获取更多的利润。
4.结论
本文讨论了把数据挖掘技术应用于B2C电子商务系统中,并采用J2EE的B/S架构将其实现,系统采用客户端、中间服务器和后台数据库三层架构。利用数据挖掘技术可以提高B2C电子商务企业现代化管理水平方面发挥着积极的作用,它能够提高B2C电子商务企业对客户管理和商品管理方面信息的准确性和及时性,可以帮助B2C电子商务企业网站的开发人员及时、全面了解B2C电子商务企业网站运营情况和合理安排网页的页面布局,为不同浏览习惯的顾客提供个性化服务,为各项具体工作提供技术、信息支持;有效地减少各种失误并保证B2C电子商务企业网站的各项任务保质保量、按计划完成,从而提高电子商务企业网站的运作效率。
参考文献
[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版杜(第2版),2008.
[2]寰方,王煜,等.PaoloGiudici.实用数据挖掘[M].北京:电子工业出版,2004.
要让数据电子化,首先要搭建适用的网络平台,网络平台的搭建分为2个过程。如果需要收集数据,则需要搭建一个面向对象的网络平台。在对大学生社会体系和人际关系的研究中,采用的是在WEB上自动收集量表数据,首先将量表转换为汇编语言编写的网页,再采用将量表转换后的电子版网页与数据库中的表相连接,这样,只要被试登录指定网站,就可以在网上完成量表的填写,数据则直接存入数据库中。数据库管理系统使用的是SQLServer2000,在网络成瘾和注意关系偏向的研究中,也采用了同样的方法。如果对现有的数据进行分析,则可以略过数据收集这个步骤,直接将数据输入数据处理软件中。在对于青少年同伴关系的研究中,创建了一个数据仓库来存放现有数据,选用SQLServer2000作为数据仓库的构建平台。由于青少年同伴关系的研究中的维度不是太多,维度层次也不复杂,出于对查询效率和使用者是否容易理解的角度考虑,决定使用星型结构来创建数据仓库,青少年同伴关系研究的星型结构。最后一种方法是直接将数据输入SPSS中,这种方法这样需要大量人力物力,而且效率难以提高,存在误录的可能。
1.2数据挖掘分析
将数据转换为需要的电子文本格式以后,进行简单的数据处理。在剔除了部分缺失或者明显错误的数据后,就可以进行数据挖掘工作了。数据挖掘的常用算法为关联规则挖掘、决策树算法和聚类挖掘算法。在此选用关联规则挖掘算法做详细说明,在大学生社会网络和人际关系研究中,选取被试人际关系满意度为例进行关联规则挖掘。表1被试人际关系满意度关联规则挖掘关联规则挖掘的步骤如下:
①选择数据根据关联规则挖掘的目标,选择如上表所示的属性,通过下面的sql语句选择数据,并将jibenxinxi表和zongjie表通过学号连接起来。select性别,是否独生子女,你对自己的人际关系满意吗,你对自己与父母的关系满意吗,你对自己与同伴的关系满意吗,你对自己与老师的关系满意吗,你认为比较了解你的人会对你的人际关系给出一个怎样的评价,你对自己人际关系的关注程度fromjibenxinxia,zongjiebwherea.学号=b.学号;
②保存选择的数据:首先将第一步选择的数据插入到一张表中,sql语句如下:insertintoguanlianguize1select性别,是否独生子女,你对自己的人际关系满意吗,你对自己与父母的关系满意吗,你对自己与同伴的关系满意吗,你对自己与老师的关系满意吗,你认为比较了解你的人会对你的人际关系给出一个怎样的评价,你对自己人际关系的关注程度fromjibenxinxia,zongjiebwherea.学号=b.学号;
③构造满足关联规则挖掘的事务数据库在guanlianguize1表中增加一个属性item,通过下面的sql语句给item赋值。注意各属性的数据挖掘映射代码如上表所示。新建表social_guanlian_1作为数据挖掘的事务数据库,导入item。Insertintosocial_guanlian_1(item)selectitemfromguanlianguize1以上关联规则挖掘的结果,结果表明:对自己图人际关系评价较高的大学生,同时对自己人际关系的满意度也较高。对自己人际关系评价较低的大学生,同时对自己人际关系的满意度也较低。对人际关系关注程度较低的同学,人际关系满意度也较低。这些数据之间是互相有关联的,因此呼吁大学生多关注人际关系和人际交往的法则,有利于他们及早的认识到自己在人际交往方面的不足,为以后步入社会,创造更大的社会价值打好基础。除此以外,对于教育学中的很多课题,例如青少年同伴关系的研究,网络成瘾与注意偏向关系的研究,学生成绩的分析等等都可以用数据挖掘来进行科学的数据分析,数据挖掘技术在教育学领域正发挥着越来越大的作用。
中图分类号:TP391 文献标识码:A 文章编号:1671-7597(2013)14-0064-01
并行计算技术、软件技术以及网络技术等多元技术发展后,出现了云计算技术。云计算商业价值以及科研价值都获得了肯定,IBM、Google等公司都非常重视云计算技术。随着云计算的快速兴起与发展,在数据存储与商业化应用方面将得到显著提升,这也是云计算技术的一大重要价值所在。Web数据挖掘凸显出极大的应用价值。本文分析了云计算框架下的Web数据挖掘算法。
1 云计算的关键技术
与一般计算不同的是,作为一种超级计算,云计算的核心信息是数据,且属于密集型。在数据存储、数据管理以及编程模式等多方面凸显出个性化的特点。本章所介绍的有关云计算的数据存储技术、虚拟化技术、数据管理技术以及编程模式。
1.1 大量分布式存储技术
在云计算技术中,其关键的分布式存储具有诸多优点:有精确性、高效率以及实用性等。采用冗余存储的方式能够保证数据存储的精确性。而硬件上所存在的缺陷可通过适当的软件来完善,因此拥有了大量的分布式存储技术,经济性与实用性等特性比较地突出。
1.2 数据管理技术
云计算系统含有数项服务内容,诸如分析大数据集的特点并及时地采取相应的处理和分析的方式,从而凸显出运行的高效性优点。因而,全面高效地管理大数据集是云计算数据管理技术中不可或缺的一项重要内容。在数据管理下,还可以迅捷地搜索到预定的数据。
1.3 虚拟化技术
作为一类分配计算资源的途径,虚拟化技术也是云计算中的重要技术。该技术把不同级别的应用系统,诸如硬件、软件、数据、网络以及存储等系统独立化,肢解数据中心、服务器、存储、网络、数据以及应用物理设施内部的分工状态,达到动态构建体系结构的目的,完成集中管理以及共时使用的物理资源以及虚拟资源的任务。虚拟化技术强化了结构体系的弹性以及灵活性,减少了开支,完善服务,尽可能都规避管理风险。
1.4 并行编程模式
云计算的编程模型的确立必须要关注到后台的保障性作用,在具体的执行过程中要确保其合理的进度。这样才能够使得云计算资源得到最大限度地使用,用户也能够更为便捷地使用该项资源。
云计算所采用的模式是Map-Reduce编程。最初的一个任务会形成“树枝状”的结构,其下的子任务会通过Map以及Reduce等流程来加以执行,从而保证任务能够及时准确地完成。
2 Web数据挖掘
Web数据挖掘是由Web、数据挖掘、计算机语言学以及信息学等数个学科构建而成。数据挖掘技术以及Web通过一定的途径得到了有机的统一整合之后,显现出综合性的特性。在对挖掘对象展开比较全面分析的基础上,Web数据挖掘又被细化成包括内容、结构以及使用等方面的挖掘方面。其中,内容挖掘的内涵界定为:经由人工化的组建模式,在Web环境下从相关的文件夹中提取使用者所需信息;结构挖掘的内涵界定为:经由人工化方式下,针对多项结构进行挖掘,通过多种途径方式从中提取出使用者所需信息;使用挖掘的内涵界定为:将挖掘的对象聚焦于日志文件以及内在所包含的数据内容作为突破口,发掘本站点的浏览人及其用户数量。
3 基于云计算的数据挖掘技术
当下的数据挖掘技术已广泛地运用于网络安全、搜索引擎、电子商务以及信息通信等诸多方面,效果也让人满意。其中,下面的几类程序应用的范围更为广泛:基础设施也就是服务(IaaS)型的计算密集型并行处理应用程序、平台也就是服务(PaaS)型的网络业务以及软件应用即服务(SaaS)型的Web2.0应用程序。与以前数据挖掘技术相同的是,基于云计算的数据挖掘也要做好有关数据的预处理、挖掘以及评估结果模式等多项工作。点击流决定了大多数的网站数据格式,因此,基于云计算的数据挖掘技术方式和以往的数据库格式相异。
3.1 数据的收集和处理
该环节要采用决策树区工具来区分用户访问数据以及Web机器人访问数据。同时,在该环境下,基于网络的大规模数据的展开过滤、转换与整合等工作内容都将得到解决,且还能将对应的数据转换为半结构化XML文件,然后将其保存至分布式文件体系内。
Google 公司最近推出了Map-Reduce新型并行编程。它把并行化、容错、数据布局、负载均衡等多项功能集中于库中,并把系统操作数据的流程总结成2个阶段:Map 阶段以及Reduce 阶段。运用Map-Reduce途径来搜集数据比较地广泛,但开发工具Hadoop本身并不完备,通过窗口技术可以把数据加以分离,且将满足条件的动态数据进行连续性的静态状况呈现于窗口内,因此,抽样、直方图以及小波变换或哈希等途径可以及时地保存数据结构及其数据信息内容。系统本身并不具备保存扫描、搜集数据的功能,却算法也并不复杂,同时,应用程序又牵涉到利用历史数据的功能,从而弱化了整个系统的功能。目前有数个研究机构构建相关系统项目,包括STREAM,TelegraphCQ以及Aurora等,但影响并不明显。
3.2 数据存储
基于云技术进行数据挖掘,要关注到搜集、处理数据时的高效性,同时还要注意如果节点失效,还应该注意迁移计算以及存储的数据内容。因此,还要借助于冗余存储的方法来确保数据储存的稳定性与可靠性。
在云计算数据存储应用领域中,非开源系统最为著名的当属Google公司旗下的GFS,开源系统最为著名的则是Hadoop开发的HDFS,这两大系统现已得到极为广泛的发展与应用。随着技术的深化,今后在多个领域中的应用也将得到进一步提升,尤其在对数据存储和计算的迁移工作中,将打破当前效率低下的困境,使得数据处理效率得到显著提升,并促进其商业化应用。
4 结束语
在云计算背景下的WEB数据挖掘已然成为当前国内外计算机领域的热门课题,其研究成果的应用范围极其广泛,具有很高的现实价值。
参考文献
[1]王鹏.走进云计算[M].北京:人民邮电出版社,2009(6):182.
[2]陈修宽.Web数据挖掘综述[J].山东轻工业学院学报,2009,23(3):23-8.
中图分类号:TP311 文献标识码:A文章编号:1007-9599 (2011) 08-0000-01
Research of Intrusion Detection Technology Based on Data Mining
Zhao Nan,Feng Jianlin
(College of Computer and Information Engineering,Lishui University,Lishui323000,China)
Abstract:Based on the characteristics of intrusion detection system(IDS)and the IDS data mining technology,the design of data mining-based IDS model,is to overcome high rate of a general intrusion detection system false alarm.First of all,the model training data extract from the rules,and then use these rules to detect new incursions.The experimental results show that the use of data mining to intrusion detection system is effective,rules updating and system updating faster and cheaper,detection rate higher.
Keywords:Network security;Intrusion detection;Data mining
目前大部分入侵检测采用特征检测的方法,它们由安全专家预先定义出一系列特征模式(此处的特征模
式含义比较窄,如表达式、字节匹配或“特征字符串”,与后面提到的规则不同),用来识别入侵,同时,入侵检测系统需要不断更新自己的模式库以跟上入侵技术发展的步伐,仅仅采用这种入侵检测方法将会带来很多缺陷。
基于数据挖掘的入侵检测技术可以自动地从训练数据中提取出可用于入侵检测的知识和模式经过综合地分析比较,基于数据挖掘的入侵检测系统有以下几点优势:智能性好、检测效率高、自适应能力强和误警率低。
一、入侵检测技术简介
入侵检测是对网络系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性。入侵检测系统是从多种计算机系统及网络中搜集信息,再从这些信息中分析入侵及误用特征。入侵是由系统外部发起的攻击。误用是由系统内部发起的攻击。所有的IDS的本质都是基于分析一系列离散的、按先后顺序发生的事件,这些事件用于误用模式进行匹配,入侵检测源都是连续的纪录,他们反映了特定的操作,间接反映了运转状态。IDS一般包括三部分:信息的搜集和预处理、入侵检测分析引擎以及响应和恢复系统[1]。
绝大多数入侵检测系统的处理效率低下,不能满足大规模和高带宽网络的安全防护要求。目前使用的主要检测方法是将审计事件同特征库中的特征匹配,但现在的特征库组织简单。导致的漏报率和误报率较高,很难实现对分布式、协同式攻击等复杂攻击手段的准确检测;此外,预测能力严重受限于攻击特征库,缺乏对未知入侵的预测能力。
二、数据挖掘技术简介
数据挖掘是从海量的数据中提取或“挖掘”知识,这些数据可以存放在数据库、数据仓库或其他信息存储中[2]。于数据挖掘是一门受到来自各种不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。数据挖掘是针对特定应用的数据分析处理过程,如何选择输入数据、变换数据集对应的挖掘算法,取决于具体的数据挖掘目标,即期望从数据中发掘出什么知识。数据挖掘可粗略地理解为三步:数据准备、数据挖掘,以及结果的解释评估。
三、基于数据挖掘的入侵检测系统
数据挖掘是从海量数据中提取隐含的、以前不知道的、有潜在作用的信息。它利用统计与可视化技术以易于理解的形式发现并表现信息。在入侵检测中,数据挖掘被定义为处理大量在中央位置收集得到的数据,从而察看其规则模式。基于数据挖掘的入侵检测系统(DMIDS)是从训练数据中得到规则模式,用于实时的入侵检测系统中的入侵检测。
基于数据挖掘的入侵检测技术可以自动地从训练数据中提取出可用于入侵检测的知识和模式经过综合地分析比较,基于数据挖掘的入侵检测系统有以下几点优势:智能性好、检测效率高、自适应能力强、误警率低[3]。
基于数据挖掘的入侵检测系统原理,DMIDS总体分为两部分:
第一部分是数据挖掘部分,主要采用数据挖掘技术来得出规则库,为后续的检测提供依据;其中包括:训练数据,数据挖掘模块和规则库,
第二部分为入侵检测部分,实时采集数据,处理数据,然后和规则库进行比较,判断当前用户的操作是否合法,并相应的作为响应或恢复机制。该部分主要拥有以下模块:
数据挖掘模块。数据挖掘技术是一种决策支持过程,它主要基于AI,机器学习统计等技术,它能高度自动化地分析原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测出客户的行为。
数据挖掘模块的主要作用就是从训练数据中挖掘正常和异常行为规则,构建规则库,对于不同性质的数据源,这里要求采用不同的数据挖掘算法来发现其中的隐含规律。
DM的技术基础是人工智能,它利用了人工智能的一些已经成熟的算法和技术,例如:人工神经网络、遗传算法。决策树、邻近搜索算法、规则推理、模糊逻辑等DM系统问题利用的技术越多,得出的结果精确性就越高。这主要取决于问题的类型以及数据的类型和规模。
四、结论
由于入侵检测系统本身应用的特殊性,要求它具有准确性、全局性、可扩展性、可伸缩性以及环境适应性和本身的健壮性。本文对基于数据挖掘的入侵检测系统的信息提取技术作了较全面的研究和介绍,重点研究了启发式的聚类数据挖掘算法,并对其中涉及到的概化分层和聚类算法和关联算法,分类算法等进行了介绍。
参考文献:
中图分类号: TN711?34; TP393.08 文献标识码: A 文章编号: 1004?373X(2017)12?0059?04
Abstract: Various softwares and equipments in large?scale computer networks have security holes, which lead to the previously?proposed abnormal data mining methods in large?scale computer networks can′t make reasonable mining. Therefore, a new abnormal data mining method in large?scale computer network is put forward. The method can mine the abnormal data in large?scale computer network by data washing, data format conversion and pattern mining operation. The data mining system designed with the proposed method is composed of data mining processor, analysis module and database. The database provides the processing and mining schemes for data mining processor and analysis module. The data mining processor is used to monitor the abnormal situation in large?scale computer network in real time, and carry out data processing. The analysis module is used to analyze the processed data by means of "secondary activation" mode, and dig up the abnormal data. The experimental results show that the proposed method has good convergence, and the system designed with the method has strong scalability.
Keywords: large?scale computer network; abnormal data; data mining technology; reasonable mining
0 引 言
随着电子信息技术的普及和不断发展,大型计算机网络随之产生,越来越多的网民能够更为便捷地享受各种信息资源,现如今,网络已成为人们生活中不可缺少的一部分。大型计算机网络在为人们提供便利的同时,也造成了一定的困扰,网络入侵事件时有发生[1]。若想有效维护大型计算机网络安全,需要将其中的非正常数据准确、高效地挖掘出来,相关组织已开始着手进行大型计算机网络中非正常数据挖掘技术的研究工作[2]。
1 非正常数据挖掘技术
数据挖掘技术是指依据特定任务,将重要的隐含知识从具有一定干扰存在下的随机数据集群中提炼出来[3]。数据挖掘技术是一项交汇科目,经其挖掘出来的数据具有一定的辅助决策作用。将这种技术用于进行大型计算机网络非正常数据的挖掘工作中,能够自动控制大量初始数据,为用户提供更多的便利[4]。
所提大型计算机网络中非正常数据挖掘方法的挖掘流程如图1所示。
由图1可知,所提方法先对大型计算机网络中的初始数据集群进行统一处理,处理过程包括数据洗涤和格式变换。数据洗涤的目的是将初始数据集群中的噪音、重叠参数和缺失重要特征的数据除去,再经由格式变换,使洗涤后的数据集群特征更加明显,提高对非正常数据的挖掘准确性。
当数据处理完毕,所提方法随即开始进行模式挖掘。所谓模式挖掘,是指通过对比分析方式获取大型计算机网络中数据之间共有特征的过程,所获取到的共有特征即为数据挖掘技术中的“知识”[5]。
将模式挖掘定义成向的映射,和均是大型计算机网络中初始数据集群的一部分,并且,。在中随机定义一个数据集群,此时可以将和在中出现的几率设为向映射的知识,用表示,则有:
设置和的取值范围可使所提大型计算机网络中非正常稻萃诰蚍椒具有收敛性。若无特殊规定,可将二者的取值范围均设置在0~100%之间。如果用户需要对某一特定的非正常数据进行精准挖掘,也可随时变更取值范围。
取值范围设定成功后,本文将式(1)和式(2)中的重叠部分输出,用来表示大型计算机网络中非正常数据的挖掘结果。
2 非正常数据挖掘系统设计
2.1 系统总体设计
现使用所提大型计算机网络中非正常数据挖掘方法设计数据挖掘系统,以实现对大型计算机网络安全的有效维护。
所设计的系统由数据挖掘器、分析模块和数据库组成,如图2所示。数据挖掘器被安放在大型计算机网络的特定节点上,用来实时监控网络工作的非正常情况,并进行数据处理。分析模块负责对数据挖掘器处理过的数据进行分析,进而挖掘出大型计算机网络中的非正常数据。数据库为数据挖掘器和分析模块提供数据的处理和挖掘方案。
2.2 系统具体设计
在所设计的大型计算机网络非正常数据挖掘系统中,数据挖掘器可看作是大型计算机网络初始数据集群的接收端,用于获取数据挖掘技术中的“知识”,其工作流程如图3所示。
由图3可知,在数据挖掘器开始工作前,数据库会事先根据大型计算机网络初始数据集群的特征制定数据挖掘器的具体挖掘方案,并对其实施驱动。数据挖掘器根据挖掘方案对数据进行洗涤和格式转换等处理。处理结果将被存储。
值得一提的是,数据挖掘器具有自检功能,如果处理结果不符合用户所设定的置信度,那么该结果将会被保留到数据挖掘器的缓存器中。一旦缓存器中有新鲜数据进入,数据库便会重新驱动数据挖掘器,直至处理结果成功通过自检。随后,所设计大型计算机网络中非正常数据挖掘系统的分析模块将对数据挖掘器的处理结果进行分析。为了增强系统的可扩展性,应充分利用系统计算节点的性能,并缩减节点失效率,为此,给分析模块设计出一种“二次激活”方式[6],以延长系统计算节点的使用寿命,如图4所示。二次激活是指当系统计算节点出现疲劳状态时,分析模块将自动放出替补节点,使疲劳节点拥有足够的时间去休整。休整后的计算节点将替换下替补节点,继续进行数据挖掘工作。
在分析模块中,每个计算节点均有多个替补节点,如果节点即将失效并且未能寻找到下一个合适的计算节点,将采取替补节点与性能相似节点同时工作的分析方式,以保证所设计大型计算机网络中非正常数据挖掘系统的可扩展性,并使挖掘结果更加准确。
3 实验验证
3.1 方法收敛性验证
在大型计算机网络中,只有具有较好收敛性的非正常数据挖掘方法才能有效保证挖掘结果的准确性。为了验证本文所提方法收敛性的优劣,需要进行一次实验。本次实验在某大型计算机网络实验室中进行。用于进行数据挖掘的主机配置为:3 GB内存、四核i7处理器、500 GB硬盘。实验中,于主机写入本文方法,并向大型计算机网络中加入两种类型的大数据集群,两集群中的数据节点[7?8]分别为4万个和80万个。当数据节点中的数据不出现波动时,表示本文方法已进入收敛状态,此时主机便不会再向下一节点传递数据。实验结果如图5所示。
从图5可明确看出,本文方法具有收敛性,并且大数据集群中的数据节点越多,方法的收敛时间就越短。在两种大数据集群中,本文方法的收敛时间分别为1.2 s和4.3 s。据统计,其他方法的收敛时间大多在10.8 s左右,这显示出本文方法具有较好的收敛性。
3.2 系统可扩展性验证
为了验证经本文方法设计出的数据挖掘系统是否能够合理应对大型计算机网络中非正常数据的更新,需要对本文系统的可扩展性进行验证。实验选出的对比系统有基于Hadoop的数据挖掘系统和基于并行图算法的数据挖掘系统。
在第3.1节实验的基础上,只保留大数据集群2,并分别以横向和纵向方式向集群的数据节点中随机写入30 000个非正常数据。使用三种系统对大型计算机网络中的非正常数据进行挖掘,所得实验结果如图6~图8所示。
由图6~图8可知,三个系统在纵向写入下的可扩展性均低于横向写入。与其他两个系统相比,本文系统参与进行非正常数据挖掘的节点数量更多,并且节点失效率最少,证明使用本文方法设计出的数据挖掘系统具有较强的可扩展性。
4 结 论
本文提出一种新型的大型计算机网络中非正常数据挖掘方法,并使用该方法设计数据挖掘系统。数据挖掘技术是指依据特定任务,将重要的隐含知识从具有一定干扰存在下的随机数据集群中挖掘出来。将数据挖掘技术用于进行大型计算机网络非正常数据挖掘工作中,能够对大量数据进行自动控制,为用户提供更多便利。实验结果表明,本文方法具有较好的收敛性,使用本文方法设计出的数据挖掘系统也具有较强的可扩展性,可将大型计算机网络中的非正常数据准确、高效地挖掘出来。
参考文献
[1] 吴嘉瑞,唐仕欢,郭位先,等.基于稻萃诰虻拿老中医经验传承研究述评[J].中国中药杂志,2014,39(4):614?617.
[2] 李善青,赵辉,宋立荣.基于大数据挖掘的科技项目模型研究[J].图书馆论坛,2014,34(2):78?83.
[3] 丁骋骋,邱瑾.性别与信用:非法集资主角的微观个体特征―基于网络数据挖掘的分析[J].财贸经济,2016,37(3):78?94.
[4] 杨丹丹.搜索引擎及网络数据挖掘相关技术研究[J].数字化用户,2014,20(11):126.
[5] 王元卓,贾岩涛,刘大伟,等.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(2):456?474.
物联网其实就是指物和物之间相互联系的互联网,随着社会科学技术的不断发展和进步,促进了互联网的快速发展,也让社会经济得到了很好的发展。云计算主要就是指对相关的信息进行虚拟化的计算和存储,对各种信息在互联网上进行规范和整理,这样就能够有效的形成很多个计算中心和数据。
一、基于云计算的物联网
物联网其实就是一个比较大而且分布也非常广泛的物和物的互联网,主要作用就是对生活中的各种事物进行监控,随着物联网的不断发展,现在也接入了很多的应用终端,其中就包括了湖泊、建筑物以及交通设施等。一般来说,云计算物联网数据挖掘就是指通过对云计算来解决物联网数据挖掘存在的问题。首先建立一个能够全面捕捉物联网数据的分布式时空数据库,然后在云计算的平台上,全面的对物联网系统的数据进行挖掘。云计算中的数据挖掘主要就是通过对相关的数据进行分析研究,从而知道通过这种方式进行数据挖掘,物联网进行数据挖掘的相关工作将能够被完美的执行与完成。
二、基于云计算的数据挖掘平台
在工作中,能够提供高可用性和更多的动态资源池的计算机平台,将能够很好的实现云计算的数据挖掘。在对那些可用性比较高的应用程序进行开发的时候就可以选择使用基于云计算的数据挖掘平台,在利用云计算对数据进行挖掘的时候也可以采用基于云计算的数据挖掘平台。一般情况下,可以通过软件分层的理念,对物联网的基于云计算的数据挖掘平台系统进行一定的分层处理。云计算的数据挖掘系统从下而上可以分为算法层、任务层和用户层三层。各层系统的相关工作,都需要相互配合才能够完成。软件中的下层可以向它的上层提供相关的服务内容,而上层在对下层的服务进行调用的时候主要就是通过上层层间的开发接口来完成的,这样就能够有效的保证基于云计算的数据挖掘平台系统当中的各个层之间的功能能够比较的独立。采用这样的一种设计模式主要就是为了在对系统进行二次开发的时候能够比较的方便。
在构建基于云计算数据挖掘模式的时候主要就是通过积极的应用云计算的服务模式,那么在这样的一种情况下建立起来的基于云计算数据挖掘平台它们当中的每一个部分在实际提供服务的过程当中都能够比较独立的去完成。操作人员在使用基于云计算数据挖掘平台的时候主要就是经过互联网来连接数据挖掘平台,在监控使用账户的管理系统时,主要就是在SaaS、PaaS以及DaaS这三个系统当中来完成的。在数据挖掘平台当中的任何环节都是在云计算服务的模式中。在数据挖掘平台当中的账户管理系统主要就是指管理使用者的实际服务情况的一个系统,它对使用者的账户信息有一个比较全面的记录,它主要就是把用户在平台当中使用设备的情况以及服务的情况比较详细的记录下来形成一个账目,这样就能够为使用者提供一个比较全面的数据使用的资源。在数据挖掘平台当中的数据管理子系统主要是指管理用户的数据资源。这个数据管理子系统主要就是在云计算中的DaaS服务模式下进行工作的,用户在购买数据等相关活动的时候就是通过这个系统来完成的。数据管理子系统能够对使用者的隐私起到很好的保护作用,而且使用者在处理了数据之后还能够进行再次的出售。在数据挖掘平台当中的子挖掘系统主要的作用就是发现用户数据当中的知识,让数据挖掘目标能够有效的实现,在在数据挖掘平台中子挖掘系统是最主要的部分,它的专业性比较的强。
三、基于云计算的物联网数据挖掘模式
物联网的整个环境决定了物联网数据挖掘的模式,因为物联网当中的数据类型比较复杂,而且物和物之间的关联以及相关的特性也不一样,那么这些情况可能就会使得在构建物联网数据挖掘模式的时候就会和传统的数据挖掘模式不相同。
在使用物联网的过程中,常常会出现一些问题,如在发送与接收数据的时候可能出现部分或者是全部信息出错甚至是丢失。出现这些现象的原因,可能是物联网系统的原因,也可能是其他什么原因。那么基于云计算物联网数据挖掘模式就应该要考虑到这种情况,在构建物联网数据挖掘应用模型的时候,必须考虑对物与物之间的关系的表达,这样才能有效的解决数据的错误与丢失。如果物与物存在间接的关系的时候,可以采用SVD模型或者是拉普拉斯变换模型进行推导。如果物与物之间存在非常重要的直接关系时,物联网数据挖掘模式应该要具有表达出物和物之间直接关系的能力,这样在对物和物的间接关系进行推导的时候才会比较的方便。物联网数据挖掘模型当中的一种就是基于超图的物联网数据模型,在超图当中的每一个变都能够和很多的点进行联接,对于物联网当中数据之间比较复杂的关系可以通过超边来进行标示。物联网数据挖掘模型当中的另外一种就是基于马尔科夫链的数据挖掘模型。在基于马尔科夫链的数据挖掘模型中,对于进行预测未来可能会出现的现象的概率时,不需要根据以前的信息或知识,只需要根据现在的信息或知识就能够完成。在物联网的数据实际应用当中,这一类问题最常见的。
稳定的可外推参数模型是物联网数据挖掘模型中的另外一种数据挖掘模型。在物联网数据的实际应用当中,在进行物理建模的时候应该要先要了解到物和物之间的关系,然后建立起数据模型来描述数量上面的相互关系,但是因为物联网数据的类型比较复杂,有可能会出现错误或者丢失的情况,所以采用传统的方法进行物理建模会有很多的困难。
参考文献
[1]刘茂华,史文崇. 物联网数据处理之浅论[J]. 计算机与信息技术,2011,06:52-53.
[2]丁静,杨善林,罗贺,丁帅. 云计算环境下的数据挖掘服务模式[J]. 计算机科学,2012,S1:217-219+237.