时间:2023-03-23 15:05:43
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇大数据技术范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
大数据(Big Data)是目前最重要的科学、技术和社会话题。借用IDC数据公司的定义:“大数据是一种新一代的技术和架构,具备高效率的捕捉、发现和分析能力,能够经济地从类型繁杂、数量庞大的数据中挖掘出色价值。”
大数据定义有着如下的基本前提和含义。
① 大量的数据:大数据概念源于数据的爆炸性增长。用世界著名的咨询公司高德纳(Gartner)研究报告的描述:“同一类型的数据量快速增长;数据增长速度的加快;数据多样性、新数据来源和新数据种类的不断增加。”
② 多种类型数据积累:新的数据存储和数据采集的技术发展使巨量数据的采集、收集、存储成为可能。网络技术、移动设备、数字传感器、数码摄影/摄像、监控影像、卫星定位系统、遥感技术、气候和环境监测技术等等,每时每刻都在各种形式、各种类型的大量数据。
③ 计算技术的进步与发展:现代计算技术、网络技术、多媒体技术和数据库处理技术等可以处理各种形式的海量数据,产生出大量的高附加值的数据、结果、状态和知识。
④ 数据处理能力成为战略能力:数据量的激增、数据类型的多样、技术平台对数据的综合处理,造成了知识边界扩展、知识价值提升、知识衍生能力加快,它极大地影响到了企业、个人、社会和政府的决策,极大地促进了社会生产力的发展,使掌握大数据技术者获得了竞争优势和难于模仿的核心竞争力。因此,大数据技术也成为了国家的核心战略资源。
大数据的含义广博、技术领域广泛、技术平台多样、作用效果巨大、影响意义深远。理解大数据的理论、方法和架构,适应大数据的变革与发展,分享大数据所带来的种种便利和收益,便能够在大数据时代占领先机。
1.2 大数据对数据库技术的影响
大数据的宗旨是处理数据,数据库技术自然占据核心地位。而大数据环境下的数据库技术也具有明显的特殊性。
1.2.1 大数据环境下数据处理技术面临的新特点
数据量宏大。对数据库技术影响最大、最直接的方面莫过于数据的爆炸性增长。即使先不考虑数据类型的变化,需要处理的数据从MB扩展到GB,现在再扩展到TB,不远的将来数据库将经常面对PB量级的数据,这必然对数据库的硬件架构、数据库系统结构和数据库应用产生重大的影响。
数据形式多样。另外一个对数据库技术产生重要影响的因子是数据的多样化,传统数字、图像、照片、影像、声音等多种数据资源需要进行处理,并且和传统关系式数据不同的,许多数据格式中的有价值数据并不多,例如多张图片定对象的变化,连续视频影像中对特殊对象的跟踪等等,其数据抽取方式、过滤方法和存储、计算方式均有别于传统数据库。
单机或小型局域网的数据库处理无法满足。当前,数据量爆炸式增长,数据类型日趋多样,传统关系数据库的处理能力已难于满足,需要新的数据库处理技术。
传统的并行数据库的灵活性具有局限性。并行数据库系统取得了辉煌的成绩,但是它的灵活性不佳,弹性受限,系统规模的收缩或扩展成本非常高。这样的系统适合于“相对固定结构”的计算结构,例如机银行业务管理系统或城市交通管理系统等。
结构化、半结构化与非结构化形式并存。让数据库有能力处理这些半结构化和非结构化(有时不作区分)数据变成了新型数据库技术的一项迫切要求。
对结果要求的模糊化。在大数据的时代,计算技术不仅限于回答“是/非”问题,而是需要更多的模糊化结果。例如,流感有很可能在一周后流行、近期可能发生5级左右地震、近一周国际往返机票将上涨……这些答案并不精确,但足以指导人们的活动。非结构化数据的处理结果常常是给出模糊化的答案。
新数据库技术的出现与挑战。新需求的出现,促使了新技术的产生,为处理非结构化数据,Apache、Google、Amazon等公司分别开发了适应各自需要的新型数据库系统,相关的专家经过分析和总结提出了NoSQL的设计理念,并创建了许多成功的产品。
1.2.2 新型数据库技术的特点
与传统数据库技术相比较,新型数据库技术具有一些明显的特点,具体如下:
可处理的数据总量和数据类型增加。不再为数据结构化或数据代表性而人为地选取部分数据或进行数据抽样;不再靠样本规模的大小来控制结果的置信区间和置信度。新的数据库处理技术试图利用“全部数据”,完成对结果的计算和推断。
使用更多的非结构化数据,而不是片面地强调全部使用结构化数据。在非结构化的高复杂度、高数据量、多种数据类型的情况下,允许结论和结果的“不精确”,允许追求“次优解”。体现大数据技术“以概率说话”的特点。
不再试图避免或降低数据的混杂性,而是把“使用全部数据”作为追求“次优解”的途径。即在复杂、混乱、无结构化与确定、规整、结构化数据之间做出平衡。
在遇到“使用全部数据,得出模糊化结果”与“实用部分数据,得出准确结论”的选择时,新型数据库技术一般会选择前者,从一个更全面的角度利用更多的数据资源去寻找答案。
科学地在因果关系与相关关系中做出抉择。如果数据总体支持因果关系的判别和断言,则像传统数据库那样提供因果关系断语;如果数据计算量宏大、成本高昂或条件不具备,则把关注点由“因果关系”调整为“相关关系”——将追求“最优解”变为追求“次优解”或“模糊解”。自然地,这种相关关系的选择不能是随机的,而是预先设计和规划好的。
不同的数据库开发理念,不同的应用目标,不同的技术方案,早就了新型数据库丰富多彩、特点各异的局面。
1.3 从传统关系数据库到非关系数据
在计算机系统结构刚刚趋于稳定的1970年,IBM公司的Edgar Codd(科德)首先提出了关系数据库的概念和规则,这是数据库技术的一个重要的里程碑。科德定义的关系数据库具有结构化程度高、数据冗余量低、数据关系明确、一致性好的优点。关系数据库模型把数据库操作抽象成选择、映射、连接、集合的并差交除操作、数据的增删改查操作等。而1976年Boyce和Chamberlin提出的SQL结构化查询语言则把关系数据库及其操作模式完整地固定下来,其理论和做法延续至今,被作为数据库技术的重要基石。关系数据库中定义的关系模型的实质是二维表格模型,关系数据库就是通过关系连接的多个二维表格之间的数据集合。当前流行的数据库软件Oracal、DB2、SQL Server、MySQL和Access等均属于关系数据库。
到二十世纪八十年代后期,IBM的研究员提出了数据仓库(Data Warehouse)的概念,4年后Bill Inmon给出了被大家广泛接受的数据仓库定义:“数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。”数据仓库的进步在于,它把决策支持定为数据库中数据组织和管理的目标,从而把智能性和决策能力融入到数据库中。Inmon之后,Ralph Kimball建立了更加方便、实用的“自底向上”数据仓库架构并称之为“数据集市”(Data Mart),这种技术受到企业及厂家的欢迎并采纳实施。虽然数据集市被归并为数据仓库,但是它的出现诱发了商务智能和联机分析技术的流行。
一、分布集群数据库在大数据中的应用
目前,许多数据增长率很高的大型数据库系统正被用于改善全球人类活动,如通信、社交网络、交易、银行等,分布集群数据库已成为提高数据访问速度的解决方案之一。为多种类型的用户在多个存储中组织数据访问,分布集群数据库的问题不仅在于如何管理大量的数据,而且在于如何组织分布式存储中的数据模式。智能数据组织是提高检索速度、减少磁盘I/O数量、缩短查询响应时间的最佳方法之一。基于规则的聚类是提供数据库自动聚类和数据存储模式解释的解决方案之一,基于规则的集群通过分析属性和记录上的数据库结构,将数据模式表示为规则。使用不同规则池分区的每个集群,每个规则与内部集群中的规则相似,与外部集群中的规则不同。分布集群数据库是一种有向图结构的进化优化技术,用于数据分类,在紧凑的程序中具有显著的表示能力,这源于节点的可重用性,而节点本身就是图形结构的功能。为了实现基于规则的集群,分布集群数据库可以通过分析记录来处理数据集的规则提取。分布集群数据库的图形结构由三种节点组成:起始节点、判断节点和处理节点。开始节点表示节点转换的开始位置;判断节点表示要在数据库中检查的属性。分布集群数据库规则提取的节点准备包括两个阶段:节点定义和节点排列。节点定义的目的是准备创建规则,节点排列是选择重要的节点,以便高效地提取大量规则。节点排列由以下两个顺序过程执行,第一个过程是查找模板规则,第二个过程是结合第一个过程中创建的模板生成规则。提取模板以获得数据集中经常发生的属性组合。在模板提取过程中,分布集群数据库规则提取中只使用了少数几个属性,它旨在增加获得高支持模板的可能性。与没有模板规则的方法相比,该节点排列方法具有更好的聚类结果,这两个过程中的规则生成都是通过图结构的演化来实现。
二、在线规则更新系统的应用
在线规则更新系统用于通过分析所有记录从数据集中提取规则,在大数据应用中,每个节点都有自己的节点号,描述每个节点号的节点信息。程序大小取决于节点的数量,这会影响程序创建的规则的数量。起始节点表示根据连接顺序执行的判断节点序列的起始点,开始节点的多个位置将允许一个人提取各种规则。判断节点表示数据集的属性,显示属性索引。在大数据应用环节,从每个起始节点开始的节点序列用虚线a、b和c表示,节点序列流动,直到支持判断节点的下一个组合不满足阈值。在节点序列中,如果具有已出现在上一个节点序列,将跳过这些节点。在更新每个集群中的规则时,重要的是要找到与最新数据不匹配的属性。因此,规则更新中要考虑的属性由以下过程确定。当计算集群中每个属性和数据之间的轮廓值时,阈值设置为0.85,只有轮廓值低于0.85的属性。将为规则更新过程中的判断节点的属性选择。一些数据的库存值和权重值低于0.85,因此这些值不包括在国民生产总值的规则更新中。在线规则更新系统中包含用于更新规则的属性,每个集群都具有属性的主要值,这些属性是集群质量的锚定点,进而影响轮廓值。在线规则更新系统应用中,完成主要的规则提取过程,这是一个标准的规则提取,在线规则更新系统考虑到数据集中的所有属性。执行该过程,对初始数据集进行初始集群;改善规则更新过程,仅对轮廓值低于阈值的数据执行。
三、大规模并行处理技术的应用
中图分类号:TP311.13
关于数据方面的新名词是层出不穷,云计算、物联网的概念还没有完全理解,大数据的概念又频频出现在媒体中,特别是今年“两会”期间,在央视报道中,多次使用大数据进行实时分析。大数据的概念从计算机业界也迅速传播到各行各业,与我们的日常生活也密切的联系在一起。不但中国如此,2012年3月,奥巴马宣布美国政府五大部门投资两亿美元启动“大数据研究与开发计划”,【1】大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力,美国政府以及把“大数据”技术上升到国家安全战略的高度。其他国家也纷纷加大对大数据研究的资金投入,同时,许多大公司企业也将此技术视作创新前沿。
1 大数据概念与特征
但是,到目前为止,业界关于大数据的概念尚未有统一的定义。最早将大数据应用于IT环境的是著名的咨询公司麦肯锡,它关于大数据的定义是这样的:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。另外,被引用较多得到大家认可的还有维基百科的定义:大数据指数量巨大、类型复杂的数据集合,现有的数据库管理工具或传统的数据处理应用难以对其进行处理。这些挑战包括如捕获、收集、存储、搜索、共享、传递、分析与可视化等。【2】
当前,较为统一的认识是大数据有四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。【3】
首先,数据量庞大是大数据的最主要的特征,大数据的数据规模是以PB、EB、ZB量级为存储单位的,数据量非常庞大。同时,此类数据还在不断的加速产生,因此,传统的数据库管理技术无法在短时间内完成对数据的处理。第二,数据种类多。与传统的数据相比,大数据的数据类型种类繁多,包括了结构化数据、半结构化数据和非结构化数据等多种数据类型。传统的数据库技术采取关系型数据库较多,结构单一,而大数据重点关注的是包含大量细节信息的非结构化数据,因此传统数据库技术不能适应新的大数据的要求,传统的数据处理方式也面临着巨大的挑战。第三,大数据的产生与存储是动态的,有的处理结果时效性要求很高,这就要求对数据能够快速处理,数据处理速度快也是大数据区别数据仓库的主要因素。数据产生的速度以及快速变化形成的数据流,超越了传统的信息系统的承载能力。最后,数据价值密度低是大数据关注的非结构化数据的重要属性。大数据分析是采用原始数据的分析,保留了数据的全貌,因此一个事件的全部数据都会被保存,产生的数据量激增,而有用的信息可能非常少,因此价值密度偏低。
2 大数据可用性的面临的技术与问题
大数据并不仅仅指其数据量之大,更代表着其潜在的数据价值之大。有研究证明,有效地管理、使用大数据能够给企业提供更多增强企业生产能力和竞争能力的机会,能够给企业带来巨大的潜在商业价值。【4】但不可否认的是,大数据目前也面临很多负面影响。低质量低密度的数据也可能对决策造成致命性的错误。如何把大数据从理论研究到企业应用的转变,还面临很多问题与挑战。
(1)可用性理论体系的建立。大数据的可用性需要完整的理论做支撑,才能解决诸如如何形式化的表示数据可用性、如何评估数据可用性、数据错误自动发现和修复依据什么理论、如何管理数据和数据融合、数据安全性采取何种策略和理论等一系列问题。因此,要建立完整可用性理论体系,构建统一的模型,为大数据的进一步应用提供坚实的理论基础。
(2)高质量数据的获取的能力。大数据技术最基础的对象就是数据,是一切应用和分析决策的前提。因此,获取高质量数据是确保信息可用性的重要因素之一。随着互联网的数据不断增大,物联网的兴起以及复杂物理信息系统的应用,大数据的来源也多种多样,数据模型千差万别,质量也参差不齐,这就为加工整合数据带来非常大的困难。
大数据是对事物最原始的全貌记录,数据量规模很大,但是其中有用的信息非常少,因此,对于处理数据来说,数据并不是越多越好。如何提高数据中的有效数据是非常关键的。大量的数据中如果仅仅包含了少量的错误数据,对分析结果可能不会造成很大的影响。但是如果对错误数据没有有效控制的话,大量错误数据的涌入很可能会得到完全错误的结果。
因此,获取高质量数据的能力是大数据能否进行实用的关键因素,否则只会在浪费人力物力后获得完全无效甚至错误的结果。但是目前还缺乏系统的研究,对于出现的问题还没有很好的解决方案,在获取数据方面的工作任重而道远。
目前,业界已经从对大数据重要性的认识阶段,发展到实践大数据必要性的战略实施阶段。中国市场在大数据概念产生的初期便已经步入大数据认知和探索阶段,并逐步成为全球市场最具行动力的市场之一。据IDC预测,2013年中国大数据市场将达到1.8亿美元。而赛迪顾问数据显示,到2016年,中国有望成为世界最大的大数据市场,市场份额达到8.03亿美元(约50亿人民币)。
数据改变世界
在感知化、物联化和智能化的交会下,世界的面貌即将改变。
2013年7月11日,IBM 2013技术峰会(IBM Tech Summit 2013)在京举行。牛津大学教授、大数据权威专家、《大数据时代》作者维克托·迈尔-舍恩伯格博士在会上表示:“大数据开启了一次重大的时代转型,正在变革我们的生活、工作和思维。中国是世界上最复杂的大数据国家,面临着充满变化的局面和无限的可能性,但是她同时也拥有最大的发展机会。因为在大数据环境下,充分的数据样本能够帮助企业揭示规律,更好的洞察和预测未来;另外,中国人凭借在数学和统计方面的优势,成为全球瞩目的大数据人才据点。我很高兴看到,在IBM和牛津大学年初的大数据调研中,中国市场有四分之一的企业已经步入大数据实践阶段。这表明中国不仅快速把握了创新的趋势,更有可能成为全球大数据领域的先驱。”
在大数据和分析领域,IBM已充分展现了在该市场的领先优势。近期,IBM被IT分析机构capioIT评为2013年亚太区商业智能和分析解决方案供应商行业第一名 。作为目前业界唯一能够集咨询、服务、软硬件综合实力,提供端到端全面整合解决方案的厂商,IBM相关产品和服务覆盖了“大数据”相关领域的各个阶段和各个领域。
IBM软件集团大中华区战略及市场总监吴立东认为:在大数据时代,企业既可以基于数据更好地做到以客户为中心,也可以利用大数据帮助企业整合后端业务,从而更好地为客户服务。
同时,IBM在全球的大数据实践已经深入到包括中国在内的全球市场的各个行业。包括电信、金融、医疗、零售、制造等全球30000家客户已在IBM大数据平台及大数据分析等技术和理念支持下获得收益。
前不久,IBM更是推出了大数据方面的多款产品和技术,大力提升了其分析产品的加速性能,简化了开发和运营,并推出了企业级别的开源Hadoop系统,同时推出了企业移动业务解决方案MessageSight,以及升级DB2 10.5等系列产品。在认知计算领域,更推出第一款面向消费者的Waston应用。其中,业内首创的分析加速技术BLU Acceleration,延续了传统的内存管理系统功能,能够帮助用户更快速地抓取关键信息,并将数据分析速度提高25倍。全新的“大数据专家”PureData for Hadoop系统能够大幅提升企业部署Hadoop的速度,同时降低部署难度。新版本企业级Hadoop产品InfoSphere BigInsights可以利用现有的SQL技术,更便捷地开发应用组件。
技术维新助力再现代化
随着IT技术的进一步发展,技术正在彰显着前所未有的特殊作用,人们对技术的追求也越来越迫切。
IBM全球副总裁兼大中华区软件集团总经理胡世忠表示:“最新的IBM全球CEO调研显示全球企业领导者将技术列为最重要的外部力量,而‘科技是第一生产力’一直被广大中国的企业家和技术人们奉为至理名言。IBM认为,在由新一代技术组成的智慧计算时代,中国的企业家们需要更为战略地思考信息科技的定位,将其运用到自身的变革转型之中。作为智慧地球的推进者,IBM正在引领商业和科技的创新,通过业务前线化实现以客户为中心的业务转型,通过企业内部全面整合大幅优化流程和运营,充分发挥最新的科技能力,携手合作伙伴帮助中国企业、组织和政府共同打造‘再现代化’发展的全新方式。”
显然,这三大经典的技术信条在大数据时代面临动摇,
技术信徒的思维模式也即将发生颠覆。
那么,大数据对技术信徒意味着什么?
他们又将如何面对这一颠覆性的变革?
“技术汇成一条大河,一波推动另外一波。”IBM中国开发中心首席技术官兼新技术研发中心总经理毛新生带着对技术的满腔痴迷这样形容道。
一波未平一波又起,移动、社交商务、云计算、大数据等先后涌现的新趋势正在融合成一股巨大的潮流,将所有的行业IT化,进而推动商业和社会的演进。这也就意味着“科技是第一生产力”在当下有了更深层次的涵义——“IBM认为,在由新一代技术组成的智慧运算时代,中国的企业家们需要更为战略地思考信息科技的定位,将其运用到自身的变革转型之中。” IBM全球副总裁兼大中华区软件集团总经理胡世忠为企业新发展出谋献策。
由2012年的“软件技术峰会”改名为2013年的“技术峰会”,在这么一个盛会上,IBM试图展示的内容涵盖范围更为广泛——移动应用、大数据、云计算、DevOps软件持续交付、应用整合、社交商务、专家集成系统等热议话题,上百场技术主题演讲、28场分论坛、22场动手实验室和80个未来产品的现场演示,再加上被誉为“大数据时代的预言家”的《大数据时代》作者维克托·迈尔-舍恩伯格以及数十位来自IBM的院士、杰出工程师、相关领域的全球首席技术官和首席架构师的现场分享,IBM 2013技术峰会再次成为技术精英们关注的焦点。 大数据的新信条
《大数据时代》作者、牛津大学网络学院互联网治理与监管专业教授维克托·迈尔-舍恩伯格的出现着实让场内数以万计的技术信徒激动了一把。作为深刻洞察大数据给人类生活、工作和思维带来的大变革的第一人,维克托以价格预测网站的例子作为开场白,论证了大数据已经悄然在大众的身边出现并给他们的生活带来改变。
“全体性、混杂性和相关性是大数据的三个主要特点,而且这三个特点是互相加强的。”维克托归纳出了大数据对应的思维变革。收集和分析更多的数据才能获取足够的数据隐含的细节,这些细节恰恰是随机抽样所错失的。“干净”的、高质量的数据不再是标的,大数据需要我们摒弃对宏观上精确性的追求,转而获得微观上的准确性,即接受混杂的数据。最重要的是,人们不再沉迷于追寻数据之间的因果关系,即不再纠结于为什么,而是直接获得“是什么”的答案,并通过应用相关关系,更好地捕捉现在和预测未来——抽样因错失细节得不偿失,盲目追求精确性已经过时,执着于因果关系丧失机遇。
如何在大数据时代生存?维克托指出了两个关键点:一是意识到技术或者规模并不是成功的充分条件。遗忘规模经济,因为它的效益会逐渐淡化。20年前,一个公司只有拥有上十万台的服务器才能提供搜索服务,但在大数据时代,由于云计算的便利性,不拥有实体服务器的公司,如前文提到的,它只有30个员工,但它有能力为其上10亿的用户提供数据分析。二是为了在大数据时代获得胜利,大数据的思维模式不可或缺,工具的力量不容小视,分析能力是必要的。蓝色被谷歌选为搜索窗口的色彩,但蓝色实际上有51种,而且这51种蓝色人依靠裸眼无法明确区分,却能在心理层面给人带来不同的感受。经过大数据分析,谷歌发现原本由人工选出来的蓝色会导致谷歌损失200亿~300亿美元的收入,因为这一种蓝色并不最具备诱惑力,无法激起人们点击的欲望。
大数据的力量需要具备大数据的思维模式,并有效利用大数据的工具去发掘。IBM杰出工程师、InfoSphere Stream高级开发经理James R Giles阐述了IBM对大数据的看法:“我们正一步步走到了一个新纪元——大数据时代。如同对待自然资源一样,我们需要开掘、转变、销售、保护大数据资源;不同的是,大数据资源是无穷无尽的,我们不能任由大数据淹没自己,而应该在获得洞察需求的驱使下获得价值。”
大数据的类型广义而言有移动数据和静态数据,还有结构性数据和非结构性数据,这对应着不同的处理方式。“技术人员的责任是,能够去管理这些数据,能够理解这些从不同的数据源而来、不同类型的数据,能够分析这些数据,得出结论,让其提供决策支持,为企业拥抱新的大数据时代提供技术支撑,以保证管理、安全、商业的持续性。” James R Giles号召技术人员积极行动,以大数据的思维模式展现技术的价值和魅力。
找到内在联系
技术的趋势总是融合,也只有有机融合才能形成合力,发挥更大的威力,而实现这一合力的前提是明确各个趋势之间的内在联系。
“实际上,社交商务、移动、大数据、云计算是一体化的。”毛新生建议技术人员用一个全面的、融合的范式来沉着看待和应对纷繁的热点技术,理解这些热点会如何影响整个IT的走向,进而明晰IT如何可以很好地支持各行各业的业务转型和创新,“让每个行业都可以从新的技术转型当中获得足够的原动力”。
从贴近最终用户的角度来看,移动技术、社交技术改变了商业机构与其雇员、客户进行互动的方式。“就我个人的经历而言,航空公司的移动应用可以提供更好的客户交互。我是西北航空公司的粉丝,因为它家的移动应用服务很贴心,比如查询航班信息、根据我的喜好预留位置、定制化地进行社交推荐等。”毛新生以一个普通消费者的感受证明了企业通过移动应用收集并利用用户行为数据所带来的服务质量的提升。
移动催生了“一种崭新的服务交付端点”,即为用户提供了更多样化的服务体验点,让用户随时随地可以利用碎片化的时间去获得业务服务,也为企业带来了全新的服务交付渠道。移动这个渠道提供了更为丰富的全样性数据,在此基础上,大数据分析就更可信。“移动所具备的碎片化特点会带来更大量的用户行为信息。当把所有的人的行为结合在一起,就可以做群体的社会性分析。社会性分析会得到比较准确的群体特征。而群体特征足以获得很好的交叉销售与线上销售机会。”毛新生认为移动与大数据结合给企业提供了新的商业机会。
移动的设备无处不在。人、汽车,甚至建筑物、道路、桥梁,它们无时无刻不在提供数据,这就是新的数据源,是它们引领我们来到维克托所描述的更为广阔的大数据世界。
移动和社交商务的便捷性使得企业的整个业务流程变得非常自动化,用户可以享受自助服务,对应到企业端就意味着业务流程对前端的需求要反应得更为迅速,也意味着各个业务系统之间无缝连接,否则没有办法支撑以最终用户为中心的服务体验,但跨部门和跨应用的整合实属不易。进一步延伸开来,对用户体验的追求是无止境的,合作伙伴的API和服务可以作为补充,这即是“跨企业边界”的行为。这种行为必然导致大规模的用户访问。这些整合和外部拓展都需要云计算提供灵活有效的基础。没有云计算,移动前端的体验、大数据分析的效果都会大打折扣。“云的基础设施使大规模互动、大规模数据处理、大规模应用可以更好地服务我们。”毛新生指出。
环境变化加速,竞争更加激烈,要求企业的反应速度越来越快,应用以及端到端解决方案快速改变。毛新生饶有兴致地介绍道:“这个改变有多快呢?我们有的客户尝试以天为周期去改变,这意味着应用和业务流程的设计、开发、部署、测试、维护的整个过程要大大加快,也就是所谓的DevOps。只有把敏捷的开发和运维结合起来,生命周期变得以天为周期,才能响应新的商业环境。”
“移动、云计算、大数据、社交商务之间的紧密联系让我们应该以整体的眼光来审视它们。”胡世忠坚信,它们的组合可以创造可持续的竞争优势,可以迸发变革的力量。
至于一个企业应该从哪里下手来实现这一幅宏伟蓝图?毛新生给出的答案是:“每一个企业,因为它所处的行业或者特定的情况而拥有不同的切入点,有一些企业需要从移动开始,有一些企业需要从云计算开始,有一些企业需要从大数据开始,但是它们是不可分割的整体,只有综合地运用它们,找到适合自己的切入点,一步一步脚踏实地,才能掌握先机,打造竞争力。在这个过程中,要拥有正确的思维,改变既有思维,理解趋势,制定策略。”
例如,银行、保险、零售业这一类和最终消费者打交道的服务业在很大概率上需要先从移动、社交商务入手,从而使其有机会改善和用户交互的过程。而以数据为生的行业会琢磨如何将自己的内容和资源数据增值,而传统的运营基础设施的重资产企业,会追求将资产数字化,得到数据并进行分析,以优化资产的生命周期管理来预防性地降低维护成本,这些企业是以大数据作为切入点的。还有一些企业希望跨行业整合进行业务创新,背后牵扯到它们自身现有的业务模式和新业务模式的整合,这种情况下需要以云的方式构建新的应用、服务、商业流程。
毛新生认为切入点不同只是表象,每一种场景到最后都是综合性的运用,要把这几个技术综合运用起来。从前端开始,首先是利用移动,并借助社交渠道交流,很快这些渠道会得到新的数据,这些新的数据和原有的交易数据和积累的数据结合起来做进一步的数据分析,这就是大数据分析。大数据分析以后可以做社交推荐、关联推荐了。随后,能不能跨界再实现更广泛的销售?跟别的价值链上的合作伙伴合作,那么引入云是解决之道。数据量增大,用户数增多,云的基础设施可以让成本更合理。“所以说,到最后都是综合性的应用,尽管起点不一样”,毛新生说。
对技术人员而言,IT就是交付业务流程的基础,是信息化的工具。它的目标无非是优化业务流程或者创新业务流程。创新到达一定程度后,业务流程的量变会导致质变。“这就解释了为何全球越来越多的CEO将技术视为驱动企业发展的首要因素。” IBM软件集团大中华区中间件集团总经理李红焰强调,技术人员有能力,也有责任将“看不见的技术转变为看得见的享受”。
移动开发的转变
在大数据的带领下我们进入移动时代,企业有了新机遇,技术人员却有了新挑战。为什么移动开发和之前不一样呢?有什么不一样呢?这成为了萦绕在技术人员脑子里最主要的两个问题。
IBM杰出工程师及IBM移动平台首席架构师Greg Truty解答了这两个疑问。他认为,很多企业现在所做的事情与在移动的状态下做的事情是不一样的,移动状态下的任务和规划更具有战略性。移动应用是在不稳定的网络上运行的,所占用的资源更少。用户在移动设备上和非移动设备上的体验是完全不一样的,他们会希望在不稳定的网络上仍然能够获得良好的体验。企业现在需要思考的是,怎么样把大量数据、大量体验变成一些有意义的体验。同时,移动管理的需求也不一样了,开发的特性也不一样了。比如对一个企业来说,移动开发周期更短,有更多设备需要支持,有更多开发方法可供选择,也有更多的工具和库可供选择,这时候企业就需要仔细斟酌,哪些开发方法和工具是自己需要的。
自然而然,对于设备的管理也有了变化,因为应用变化了。“一直以来,客户端服务器的应用架构是企业在使用的。你需要协调在服务器端的服务以及在客户端的服务,挑战非常大。你不可能强迫客户运行你的应用,而必须能协调和兼容原有的系统。这是非常关键的一点。” Greg Truty强调了设备管理的重要性。
1.1什么是大数据
大数据概念可以从四个维度去解,即三个V和一个C。三个V分别指的是数据量大(Volume)、数据种类多(Variety)和数据增长速度快(Velocity),最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多(Complexity)。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像Map-Reduce一样的并行计算框架将复杂的计算任务分配到“云”中成百上千的节点。
1.2大数据与云计算
大数据本身就是一个问题集,云计算技术是目前解决大数据问题集最重要最有效的手段。云计算提供了基础的架构平台,大数据应用在这个平台上运行。目前公认为分析大数据集最有效手段的分布式处理技术,也是云计算思想的一种具体体现。
云计算是分布式处理、并行处理和网格计算的发展,或者说是这些计算机科学概念的商业实现。云计算将网络上分布的计算、存储、服务构件、网络软件等资源集中起来,基于资源虚拟化的方式,为用户提供方便快捷的服务, 实现了资源和计算的分布式共享和并行处理,能够很好地应对当前互联网数据量高速增长的势头。
1.3大数据与Hadoop
Hadoop是一个Apache的开源项目,主要面向存储和处理成百上千TB直至PB级别的结构化、半结构化或非结构化的大数据。Hadoop提供的Map-Reduce能将大数据问题分解成多个子问题,并将它们分配到成百上千个处理节点之上,再将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。
Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、Map Reduce编程模型,以及Hadoop Common。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据的存储和计算任务。这些特点让Hadoop被公认为是新一代的大数据处理平台。 Hadoop同样具备出色的大数据集处理能力,在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。Hadoop经常在构建大数据解决方案时被用作基础构架软件。
二、大数据技术综述
大数据处理不仅仅是Hadoop,许多特定的数据应用场景是需要实时分析和互动反馈的,这时候就需要利用包括内存检索、流处理和实时计算等其他技术。而云计算的分布式存储和计算架构开启了大数据技术研究的大门,打造健全的大数据生态环境,所有这些技术结合在一起,才是一个完整的大数据处理系统。
2.1分布式计算框架
MapReduce是Google开发的一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算,使云计算环境下的编程变得十分简单。
MapReduce将数据处理任务抽象为一系列的Map(映射)和Reduce(化简)操作对。Map主要完成数据的分解操作,Reduce主要完成数据的聚集操作.输入输出数据均以〈key,value〉格式存储.用户在使用该编程模型时,只需按照自己熟悉的语言实现Map函数和Reduce函数即可,MapReduce算法框架会自动对任务进行划分以做到并行执行。
Pregel是Google 提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WEB 搜索等相关领域。
2.2分布式文件系统
为保证高可用、高可靠和经济性,基于云计算的大数据处理系统采用分布式存储的方式来保存数据,用冗余存储的方式保证数据的可靠性。目前广泛使用的分布式文件系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。
GFS即Google文件系统,是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的,运行成本低廉,并提供容错功能。
HDFS即Hadoop分布式文件系统,受到GFS很大启发,具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用,并且提供了数据读写的高吞吐率。HDFS是一个master/slave的结构,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。HDFS支持传统的层次文件组织结构,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制,Datanode用来存放数据块。
2.3大数据管理技术
互联网数据已超出关系型数据库的管理范畴,电子邮件、超文本、博客、标签(Tag)以及图片、音视频等各种非结构化数据逐渐成为大数据的重要组成部分,而面向结构化数据存储的关系型数据库已经不能满足数据快速访问、大规模数据分析的需求,随之而来,一系列新型的大数据管理技术和工具应运而生。
2.3.1 非关系型数据库
NoSQL,也有人理解为Not Only SQL,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据、列存储等。而比较流行的,不得不提到Google的Bigtable,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据,数据量可达PB级。而HBase是Hadoop团队基于Bigtable的开源实现,使用HDFS作为其文件存储系统。同时,Cassandra(K/V型数据库)、MongoDB(文档数据库)和Redis等一系列优秀的非关系型数据库产品如雨后春笋般问世。
2.3.2 数据查询工具
Hive是Facebook提出的基于Hadoop的大型数据仓库,其目标是简化Hadoop上的数据聚集、即席查询及大数据集的分析等操作,以减轻程序员的负担.它借鉴关系数据库的模式管理、SQL接口等技术,把结构化的数据文件映射为数据库表,提供类似于SQL的描述性语言HiveQL供程序员使用,可自动将HiveQL语句解析成一优化的MapReduce任务执行序列.此外,它也支持用户自定义的MapReduce函数。
PigLatin是Yahoo!提出的类似于Hive的大数据集分析平台.两者的区别主要在于语言接口.Hive提供了类似SQL的接口,PigLatin提供的是一种基于操作符的数据流式的接口.可以说Pig利用操作符来对Hadoop进行封装,Hive利用SQL进行封装。
Google Dremel是个可扩展的、交互式的即时查询系统,用于完成大规模查询结构化数据集(如日志和事件文件)。它支持类SQL语法,区别在于它只能查询,不支持修改或者创建功能,也没有表索引。数据被列式存储,这样有助于提升查询的速度。Google将Dremel作为MapReduce的一种补充,被用于分析MapReduce的结果或者是作为大规模计算的测试。
2.4实时流处理技术
伴随着互联网业务发展的步调,以及业务流程的复杂化,企业的注意力越来越集中在“数据流”而非“数据集”上面,他们需要的是能够处理随时发生的数据流的架构,现有的分布式计算架构并不适合数据流处理。流计算强调的是数据流的形式和实时性。MapReduce系统主要解决的是对静态数据的批量处理,当MapReduce任务启动时,一般数据已经到位了(比如保存到了分布式文件系统上),而流式计算系统在启动时,一般数据并没有完全到位,而是经由外部数据源源不断地流入,重视的是对数据处理的低延迟,希望进入的数据越快处理越好。数据越快被处理,结果就越有价值,这也是实时处理的价值所在。
流计算的数据本身就是数据流,不需要数据准备的时间,有数据流入就开始计算,解决了数据准备和延迟的两个问题。现有的解决方案中,Twitter的Storm和雅虎的S4框架更适合数据流计算的场景。Storm是开源的分布式实时计算系统,可以可靠的处理流式数据并进行实时计算,单机性能可达到百万记录每秒,开发语言为Clojure和Java,并具备容错特性。S4是面向流式数据和实时处理的,所以针对实时性较高的业务,可以很好地对数据做出高效的分析处理,而且系统一旦上线,很少需要人工干预,源源不断的数据流会被自动路由并分析。对于海量数据,它和MapReduce都可以应对,但它能比后者更快地处理数据。
三、思考与展望
以云计算为基础的信息存储、分享和挖掘手段为知识生产提供了工具,通过对大数据分析、预测会使得决策更为精准,这对媒体融合具有重要意义。
21世纪是信息化的时代,也是数据时代,随着世界范围内数据挖掘技术的不断深入研究,大数据时代的到来给数据挖掘技术带来了机遇的同时,也带来了挑战。面对浩瀚的数据库海洋,如何在茫茫海洋中寻找针对特点人群有用的数据是数据挖掘技术在大数据时代背景下的意义。通过数据挖掘技术的充分应用分类技术,挖掘大数据时代中的数据删选,同时通过大数据时代背景下数据挖掘技术的应用技术探讨了数据挖掘技术在大数据时代背景下的应用。
1 大数据时代背景下数据挖掘的意义
在信息时代的背景下,数字化技术和信息化技术在各行各业的应用,随着互联网技术、信息技术、物联网技术、云计算技术等数字信息技术的高速发展,结合当前高速发展的移动互联网技术以及数字地球技术的发展与应用,全世界范围内数据呈爆炸式增长,据统计2012年世界范围内产生的数据总量约1.86万亿GB。国际互联网数据统计中心根据近十年来来的数据增长速度计算,2020年全球范围内数据总量预计达到100万亿GB。信息化技术的发展给企业带来的冲击是巨大的,信息化技术彻底改变了传统的社会信息传输方式,带来全新的信息传播途径。对于社会来说,信息化是社会未来发展方向。信息化要求社会重视信息的形成、信息运用,社会用信息化的工具整合业务、共享信息构建企业“信息化网络体系”才能使企业在当今信息爆炸,高效率的社会背景下,是企业高效运转,才能综合企业的人力、物力、财力和管理能力是企业的各种资源通过信息化网络凝聚在一起,共同为企业的高效发展和全球化的进程的目标凝聚力量。企业信息化作为国民经济发展的重要组成部分,同时也是我国社会迈向信息化进程的重要前提。
企业信息化要求企业将大量的信息资源进行整合和电子化处理,从而提高信息的交互与传输效率,并希望藉此提高企业的生产经营管理方式和管理效率,从而达到利用现代信息技术提高企业生产力、提高企业生产效率和利润的根本目的。云计算作为现代信息化产业发展的新技术,给社会的信息化建设带来了巨大的改变,降低了社会在信息化建设中的投入,随着近年来云计算技术的不断成熟,云计算构建的信息化平台使社会的信息化、生产与办公效率前所未有地提高毫无疑问,当前的信息时代的发展已经达到了大数据时代的阶段,大数据时代的来临意味着人们在应用和利用数字信息技术时不得不花费更多的人力、物力、财力去筛选、存储和利用庞大的数据库。例如对于一个银行系统来说,每天数以万计的银行和ATM终端都发生庞大的交易和数据交换,这些庞大的数据交换信息构成了庞大的数据,如何在庞大的数据中筛选、分类和提取有价值的数据是数据挖掘技术在当前大数据时代存在的意义。
2 大数据时代背景下数据挖掘技术的分类应用
数据挖掘技术在当代数据爆炸的现代社会的重要性越来越强,随着社会信息化程度的不断提升,数据挖掘技术也逐渐发展成为一门独立的学科,数据挖掘技术为了满足用户在庞大的数据库中筛选有用的数据的需要,通过分类技术对数据进行分类挖掘,是当前大数据时代背景下大数据技术应用最为广泛的手段之一。
通过数据库类型分类技术是数据挖掘技术在大数据时代的应用之一。数据库的自动存储系统在数据存储过程中按照数据的类型、场景进行基础分类,数据挖掘技术在数据存储的基础分类的基础上进行数据库类型细分,通过数据模型的导入和数据类型包括关系型、对象型、时间型、空间型的分类进行数据挖掘的分类。其次通过数据知识类型分类技术是数据挖掘的重要分类方法之一。知识类型分类包括知识相关性、知识预测型和样本偏离分析法等知识类型分类方法。数据的抽象性和数据的粒度是数据知识类型分类的层次之一。通过挖掘数据分类中的抽象层和价值层找出数据的模式和规则性。数据的规则性通过不同的方法挖掘,通过数据概念的描述和数据预测等方法实现大数据精细化分类。
3 大数据时代背景下数据挖掘的应用技术
大数据时代背景下数据挖掘技术的应用技术主要包括神经网络算法、数据遗传、数据决策树、数据粗糙集等算法。数据神经算法通过对庞大的数据库进行分类,对符合优先条件的有用数据进行分类,能够在规模庞大的数据中迅速定位和精选有用数据。例如网络构架的基础传输通道光缆发生故障时,通过神经网络算法能够及时诊断网络中的损坏数据点,能够迅速定位故障点,并排除。神经网络算法针对网状结构的数据库利用效率较高。遗传数据挖掘技术是仿生学和遗传学中发展而来的数据算法。遗传数据挖掘技术针对全局数据进行优化计算,能够较好的兼容性和隐含并行性,因此在数据挖掘中与其它算法进行联合应用范围较广,应用较为普遍。决策树算法是在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。粗糙集算法是大数据时代背景下数据挖掘技术应用的典范,粗糙集算法通过数据划分将模糊知识和精确知识进行合并分析,并最终获得有效数据,应用范围十分广泛,应用效果较好。
4 结论
总之,在大数据时代背景下,数据挖掘技术是人们面对浩瀚的数据库所必备的技能,也是提高数据利用的有效方式数据挖掘技术在大数据时代背景下面临着挑战也面临着机遇。
参考文献
[1]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(1):146-149.
[2]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学,2012:16-17.
[3]陈明奇,姜禾,张娟等.大数据时代的美国信息网络安全新战略分析[J].信息网络安全,2012,(08):32-35.
[4]王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.
作者简介
1.大数据技术现状
当前许多企业都已基本实现了信息化建设,企业积累了海量数据。同时企业间的竞争日益加剧,企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式,帮助企业更加迅速、科学、准确地进行决策和预测。
1.1大数据技术现状
广大企业的迫切需求反之也促进了大数据技术的飞速发展,涌现出了诸如Hadoop、Spark等实用的架构平台。其中,目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群,允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算。因此,Hadoop实现了高可靠性、高可拓展性、高容错性和高效性,可以轻松应对PB级别的数据处理。
1.2大数据技术对烟草数据中心建设的影响
当前,烟草企业基于多年的信息化建设已经积累了海量数据,同时每天还不断有新的各种数据产生。在高并发、大体量的情况下,需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式,这就不可避免地需要采用大数据技术。同时,除了购进单、卷烟交易数据、货源投放数据等结构化数据外,还产生越来越多的非结构化数据,利用大数据技术,对非结构化数据进行预处理,可为人工判断和机器学缩减范围。对海量数据以及非结构化的信息进行分析统计,仅仅依靠传统的技术手段很难实现,只有引入大数据技术才能充分的将所有的数据资源利用起来,成为企业决策的助力。
2.江苏烟草数据中心应用现状
2.1江苏烟草数据中心体系架构
目前江苏烟草数据中心以一体化数据中心、一体化数据管理和一体化数据分析三个部分为核心,构建了一套完整的数据中心架构。一体化数据中心是整个数据中心最核心的部分。通过数据仓库模型、数据存储、ETL工具等组成部分,构建了业务数据的收集、加工、存储、分发的总体架构。建立了按ODS(SODS、UODS)、DW、DM三层结构设计建设的数据仓库。一体化数据管理通过主数据管理、信息代码管理、ESB平台构建了企业主数据收集、标准化、同步分发过程。结合指标管理,全面管控企业的公用基础信息。通过数据质量管理,全面有效管控数据质量。通过数据服务管理,有效提升数据中心的对外服务能力与水平。通过元数据管理来管理数据中心元数据。一体化数据分析通过构建移动信息、业务分析、数据挖掘三大模块,针对性解决当前不同人员的决策、管理以及操作需求,发挥数据中心的数据、技术、平台优势。通过移动信息模块为各级领导提供决策支持;通过业务分析模块为业务人员的日常工作提供支撑;通过数据挖掘模块,发掘数据所蕴含的隐性价值。基于上述一整套架构的支撑,目前数据中心构建了全省范围的数据集成、交换体系,一方面提升了全省基础数据、业务数据的规范化程度和数据质量,另一方面为在建业务系统的实施、已有系统的改造提供了标准化的高质量数据保障。
2.2大数据技术的应用场景分析
随着江苏数据中心的不断运行,一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有:一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢;二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的,面对灵活的非传统的统计查询需求难以支撑,需要进行额外的加工处理。江苏烟草数据中心结合互联网大数据技术特性,引入Hadoop平台以及Impala等工具,搭建基于大数据的自定义数据查询平台,以补充基于传统技术架构的功能不足,并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。
3.基于大数据的自定义数据查询平台实现
3.1设计思路及架构
基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上,以数据中心的数据存储为基础,以Hadoop、Hive、Impala等大数据技术工具为手段,以简单灵活、快速高效的查询展现为目标,建立的数据查询分析支持平台。
3.2技术方案
自定义数据查询平台的建设主要涉及数据存储架构、后台数据加工准备、前端展现三块内容。自定义数据查询平台的数据存储分为两部分。一部分为KETTLE、Impala等工具以及自定义查询相关的元数据存储,另一部分则是查询所需的各种统计数据的存储。元数据的存储根据元数据库的不同主要分为两部分。第一部分为基于Mysql数据库的元数据存储。这部分元数据主要包括有ETL工具KETTLE的元数据,以及前端自定义查询需要定义的权限、数据源、表、列和表列关系等信息。第二部分为基于Hive的元数据存储。这部分存储的是前端查询需要使用的Impala工具的元数据。统计数据的存储则是使用Hadoop的HDFS实现的。根据Hadoop平台架构,自定义数据查询平台的HDFS建立在6台虚拟主机构建的集群上的。其中:2台虚拟主机作为NameNode,一台为主节点,另一台为备份节点;其余4台虚拟主机都作为DataNode用于存储数据。所有数据将会统一分块自动分配存储到4个DataNode上。自定义数据查询平台的数据加工,是通过开源ETL工具KETTLE实现的。通过KETTLE从数据中心现有数据仓库及数据集市中读取需要的数据,根据自定义数据查询平台的数据模型定义对数据进行处理,最终加载到Hadoop的HDFS文件系统中。自定义数据查询平台的前端展现功能,主要是基于JSP技术实现页面开发,通过JDBC或者ODBC对后台Mysql数据库进行访问。使用者在查询页面中组织定义查询的内容,查询服务自动根据获取的元数据信息将定义的查询内容拼接转换成为查询SQL,之后通过Impala执行查询SQL对HDFS文件系统中的统计数据进行查询。
3.3系统实现效果
利用大数据技术,自定义数据查询平台较好地解决了目前数据中心所面对的问题,满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求,自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。使用者可以自由的根据实际需求选择分析所需的维度及统计指标,同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式,并指定其展现形式。在大数据量查询效率方面,自定义查询平台相比传统架构的查询功能有了较大提升。
4.结束语
大数据技术的发展方兴未艾,应用前景无比广阔,对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景,更需要明确地认识到大数据平台的建设并非一朝一夕,需要有明确而长远的规划,不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。
参考文献
[1]陈鹏.大数据时代下的信息安全问题研究[J].电子制,2015,18:48
一、大数据
1.大数据产生的背景
大数据(Big Data),也称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的资讯,通常被认为是PB或EB或更高数量级的数据。
互联网络从上世纪90年代开始,发展迅速,加快了信息传播和共享的速度,尤其是一些社交网站的兴起,数据量更是以前所未有的速度暴增,文字资料、声音、视频、图像等多媒体数据铺天盖地。据资料显示,上世纪90年代,互联网资源不是很丰富的时代,网民月平均流量1MB左右,之后则快速增长,2000年后,逐渐发展为每月10MB、100MB、1GB,据估计2014年可能会达到10GB。淘宝网每日几千万笔交易,单日数据量达几十TB,数据存储量几十PB,百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。
随着技术发展,大数据广泛存在,如企业数据、统计数据、科学数据、医疗数据、互联网数据、移动数据、物联网数据等等。总之,大数据存在于各行各业,一个大数据的时代已经到来。
2.大数据时代的挑战
大数据特点是容量在增长、种类在增长、速度也在增长,面临如此庞大的数据量,数据的存储和检索面临着巨大挑战。比如2007年时,Facebook使用数据仓库存储15个TB的数据,但到了2010年,每天压缩过的数据比过去总和还多,那时商业并行数据库很少有超过100个节点以上的,而现在雅虎的Hadoop集群超过4000个节点,Facebook仓库节点超过2700个。大量的数据现在已经开始影响我们整个的工作、生活、甚至经济,如何存储和高效利用这些数据是需要我们解决的。
二、关系数据库
1.关系数据库概述
关系型数据库是支持关系模型的数据库系统,他是目前各类数据库中最重要,也是使用最广泛的数据库系统。关系型数据库从上世纪70年代诞生到现在经过几十年的发展,已经非常成熟,目前市场上主流的数据库都为关系型数据库,比较知名的有Oracle数据库、DB2、Sybase、SQL Server等等。
2.关系数据库优势
关系数据库相比其他模型的数据库而言,有着以下优点:
模型容易理解:关系模型中的二维表结构非常贴近逻辑世界,相对于网状、层次等其他模型来说更容易理解。
使用方便:通用的SQL语言使得操作关系型数据库非常方便,只需使用SQL语言在逻辑层面操作数据库,而完全不必理解其底层实现。
易于维护:丰富的完整性大大降低了数据冗余和数据不一致的概率。
3.关系数据库存在问题
传统的关系数据库具有不错的性能,稳定性高,历经多年发展已日臻成熟,而且使用简单,功能强大,也积累了大量的成功案例。上世纪90年代的互联网领域,网站基本都是静态网页,主要以文字为主,访问量也不大,当时用单个数据库完全可以应对。可近几年,动态网站随处可见,各种论坛、博克、微博异常火爆,在大幅度提升交流方式的同时,用户数据量迅速增长,处理事务性的数据关系数据库得心应手,可面对互联网的高并发、大数据量关系数据库显得力不从心,暴露了很多难以克服的问题:
数据库高并发读写:高并发的动态网站数据库并发负载非常高,往往要达到每秒上万次甚至百万次、千万次的读写请求。关系数据库应付上万次SQL查询没问题,但是应付上百万、千万次SQL数据请求,硬盘IO就已经无法承受了。
海量数据的高效率访问:一般大型数据库在百万级的数据库表中检索数据可达到秒级,但面对数亿条记录的数据库表,检索速度效率是极其低下,难以忍受的。
数据库可扩展性和高可用性:基于web的架构当中,数据库无法通过添加更多的硬件和服务节点来扩展性能和负载能力,对于很多需要提供24小时不间断服务的网站来说,数据库系统升级和扩展却只能通过停机来实现,这无疑是一个艰难的决定。
三、NOSQL数据库
1.NOSQL数据库理论基础
NOSQL作为新兴数据库系统概念,由于其具备处理海量数据的能力,近年来受到各大IT公司的追捧。Amazon、Google等大型网商已纷纷斥资进行研究并开发了适用的产品。谈及NOSQL数据库,首先应该了解支持NOSQL的理论:CAP理论、BASE思想和最终一致性。
(1)CAP理论
CAP理论由Eric Brewer在ACM PODC会议上的主题报告中提出,这个理论是NOSQL数据管理系统构建的基础,CAP解释为一致性(Consistency)、可用性(Availability)以及分区容忍性(Partition Tolerance)。具体描述如下:
强一致性(Consistency):系统在执行过某项操作后仍然处于一致的状态。在分布式数据库系统中,数据变更后所有的用户都应该读取到最新的值,这样的系统被认为具有强一致性。
可用性(Availability):每一个操作都能够在一定的时间内返回结果。“一定时间内”是指系统的结果必须在给定时间内返回,如果超时则被认为不可用,“返回结果”同样非常重要,必须能提供成功或失败的信息。
分区容错性(Partition Tolerance):分区容错性可以理解为系统在存在网络分区的情况下仍然可以接受请求。
CAP是在分布式环境中设计和部署系统时所要考虑的三个重要的系统需求。根据CAP理论,数据共享系统只能满足这三个特性中的两个,不能同时满足三个条件。因此系统设计者必须在这三个特性之间做出权衡。例如Amazon的Dynamo具有高可用性和分区容错性但不支持强一致性,也就是说用户不能立即看到其他用户更新的内容。
(2)BASE思想
BASE(Basically Availble),基本可用,强调数据库的最终一致(Eventually consistent最终一致,最终数据一致就可以,而不是时时高一致),不同于传统关系数据库基于的ACID模型。
ACID特性与高性能是不兼容的。比如,在网店买东西,每个客户买东西时都会通过锁来同步数据操作,操作完成每个客户都可以看到一致的数据。也就是说,不允许多个客户同时买的情况。很明显对于大多数网上商城,尤其是大型网商来说,这个方法并不适用。
BASE思想实际上是CAP理论中AP的衍伸。通过牺牲高一致性,保证高可用性和分区容忍性。BASE思想的组成有以下3个部分:基本可用、软状态、最终一致性。BASE模式指的是一个应用在任意时间首先应该能完成最基本化的工作(即基本可用),并不需要总是一致(即软状态),但最终应该是一致(即最终一致性)的。
(3)最终一致性
数据一致性可分别从使用者和提供者角度看:从使用者的角度,如何观察数据更新;从提供者的角度,也就是服务器端,更新如何在系统中实现。
一致性可分为强一致性和弱一致性两种:强一致性要求更新过的数据能被后续的访问都看到,根据CAP理论,强一致性无法和可用性、分区容忍性同时实现;弱一致性,指读取操作能够见到变化的数据,但不是所有变化的数据。
最终一致性属于弱一致性的一种,即存储系统保证如果没有新的更新提交,最终所有的访问都将获得最后的更新。如果没有故障发生,不一致性取决于通信时延、系统负载以及复制策略中涉及的副本数。
2.NOSQL数据库产品
NOSQL(Not Only SQL)数据库是指那些非关系型的数据库。NOSQL数据库分为Key-Value、Key-Document和Key-Column这3类。典型的NOSQL产品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。
NOSQL数据库遵循CAP理论和BASE原则,大部分Key-Value数据库系统都会根据自己的设计目的进行相应的选择,如Cassandra、Dynamo满足AP,BigTable、MongoDB满足CP。
四、结束语
本文首先介绍了大数据概念,分析了关系数据库在存储大数据量方面的不足,并介绍了当前NOSQL数据库的基本理论和当前产品分类。大数据时代的来临,我们忙于如何存储和处理这些数据,但随着计算机互联网、移动互联网、物联网等网络的快速发展,数据量会持续大幅增长,如何长期保存这些数据以及如何处理更大级别的数据量,都需要我们思考并解决。
参考文献
[1]王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011(34).
[2]黄贤立.NOSQL非关系型数据库的发展及应用初探[J].福建电脑,2010(7):30.
1.图书馆的大数据应用特征
大数据是一场革命,将改变人们的生活、工作和思维方式。大数据至今并无统一定义,通常以“4v”特征或对大数据进行描述性解释:规模(Volume)指数据的数量规模大;类型(Variety)指数据类型多样复杂,混合结构化与非结构化多种类型;实时(Velocity)一方面是数据增长速度快,另一方面要求在合理的时间内处理数据;价值(Value)反映了大数据隐含着价值转化。大数据发展的最终目标是分析挖掘数据的价值,其重点在于数据的分析和应用,“大”不过是信息技术不断发展所产生的海量数据的表象而己。
社会进步和信息技术不断改变着图书馆的服务内容与模式,网络环境下要求将这些信息资源组合成整体并延伸至更大的范围。随着数字图书馆的兴起,图书馆数字化文献信息、数据库的数量种类不断增加,各地市级图书馆都已具有海量信息规模,比如上海图书馆提供的数据库已多达400余个。这些数据包括类型多样的文本、图片、音频与视频各类非结构化数据,满足大数据的基本特征。然而,这些数据资源价值远未得到有效体现与利用。一个重要的原因是缺乏有效的数据挖掘技术方法。通过人工从大量结构繁杂的数据中发现价值,是难以实现的。随着大数据技术的发展与应用,必然要求图书馆重点利用数据挖掘技术从大量的信息中发掘数据价值,以此推出知识化产品化的服务应用。同时,通过大数据处理分析对信息资源进行深度、动态、广泛的知识挖掘,便于揭示信息内容中各个要素及其相互之间的联系,促进信息交流,实现信息资源共享,提高文献信息的利用效率,从而实现图书馆信息增值服务并提高信息服务的竞争力。因此,探索数据挖掘方法技术提高图书馆的服务水平是亟须思考和解决的问题。
2.大数据时代图书馆数据挖掘面临的挑战
大数据时代的到来,极大地促进了数据科学的兴起。数据科学包括用科学的方法研究数据与用数据的方法研究科学,后者主要的实现方式就是数据挖掘方法与技术。数据挖掘是指从数据源中发现知识的过程。实现数据价值的关键环节在于数据的挖掘方法技术。所以,如何充分有效地利用数据挖掘方法对图书馆大数据进行开发处理,是开展图书馆知识服务的重要研究方向,也是服务创新的关键途径与支撑服务技术。大数据时代图书馆的数据数量大、类型多,对数据挖掘提出新的需求与挑战,主要有以下方面。
2.1大规模数据量
数字馆藏数据规模与数据类型在不断增长,对于数据挖掘算法的能力要求也在不断提高。传统对于大规模数据的分析一般采用随机取样,以较少数据获得最多的信息,其准确性会随着随机性增加而提高。这是在计算机性能较低特别是无法收集全部数据的情况下的选择。然而,大数据环境数据价值隐匿于海量数据中,单靠取样是无法捕捉到这些细节的,需要采用全集数据进行处理分析。如此大量的数据分析仅靠单机是无法完成的,分析挖掘模型必然要借助分布式计算框架,比如,Map Reduce或者当前流行的Spark,将分析模型迁移至集群计算环境。大数据应用具有实时性,如智能推荐、文献关联等,需要在合理的时间完成分析过程,采用集群计算环境也是提高计算效率的选择。另外,数据量增加的同时,噪音数据也会增加。因此,在数据分析之前必须进行数据清洗等预处理工作。
2.2数据的高维特征
图书馆数据的多样性能够提供更多维度的客观对象描述属性。数据从过去的一维、多维逐渐发展为巨量维度。虽然能够建立丰富的多维数据模型与方法,但在构建的大数据特征空间中,往往会超出传统方法的处理能力。可以考虑引入维度规约技术,比如主成分分析、奇异值分解来降低数据维度。同时,数据属性可能过于稀疏,也会极大影响数据模型的有效性。
2.3数据关系广泛
图书馆服务应用过程中的信息、用户对象之间存在多种行为与内容关联,从而组成多关系网络。大数据的多源性、多样性正是构建这种复杂关系的基础。比如,用户的查询词、借阅记录、浏览记录、图书馆文献信息内容之间形成的多关系网络。特别是社交网络数据的应用,更使其趋于多元化。许多图书馆实践中,比如基于用户的信息推荐就是利用这种关系作为分析依据。过多关系的简单链接应用,反而会削弱关键特征的作用和导致语义缺失。如何广泛利用大数据提供的各类数据类型与数据关系,成为实际应用中的一个重点。实际中,需要重视运用关系选择、组合及判断函数,提高分析的正确性有效性。
2.4数据保护要求不断增长
数据是图书馆信息服务的核心和基础,数据的安全性就显得尤为重要。用户在享受精准个性化推荐带来的便捷的同时,也在深深担心个人隐私安全问题。一些敏感信息以明文存储也会有安全风险。这些会导致数据挖掘方或者任何可以接近数据集的人,能够辨别特定的用户个体或内容信息,存在利益侵犯的可能性。数据挖掘在发现数据价值的同时,也对隐私安全和数据安全带来了威胁。这就需利用数据修改、数据模糊、数据加密、加密检索等隐私保护技术提高数据的安全性和可控性。
2.5自然语言理解程度较低
当前,在信息检索、自动摘要等常见的数据挖掘任务中,仍无法有效识别同义词、近义词以及词语间的语义关联,特别是一些短文本处理中,无法有效识别词语语义,造成处理效果不理想。虽然一些图书馆建设了知识库,但仅限于研究层面,距离实用在规模上有相当差距,在应用方法上也没有大的突破。同时,图书馆存在大量图片、音频、视频数据,这些数据的加工处理也没有引入有效的自动图像、音频识别技术,图书馆难以基于数据挖掘提供全方位的信息服务。
3.大数据时代图书馆数据挖掘的关键技术方法
3.1数据存储
图书馆数据类型众多,需要引入非结构化数据存储技术。比如典型的HDFS,No SOL(Not Only SOL),已广泛用于非结构化数据的分布式存储。传统关系型数据库适合结构化数据存储。需要注意的是,要区分结构化与非结构化数据,针对数据特点使用相应的存储技术。在实际中,难以使用一种数据存储方式存储管理所有的数据,即使谷歌也是将结构化数据存储在关系型数据库中。同时,需要运用高效存储技术,比如数据压缩、自动精简配置、自动分层存储、存储虚拟化等解决或缓解数据量过大、存储利用率、存储效率低等难题。
3.2数据集成
目前,相当数量图书馆的一个重要问题是数据资源分散化、碎片化,数据存储在不能相互访问的数据库与系统中,形成数据孤岛。孤立的数据是难以发挥出数据价值的,如何连接这些数据,实现资源交互共享,是数据价值最大化的关键。数据集成将不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,经过关联和聚合之后采用统一定义的标准来存储数据,从而应对大数据数量众多、类型广泛等问题给数据管理服务所带来的挑战。数据的集成连接涉及异构数据的统一语义描述、多维特征关联。同时,要保证数据质量,需要对数据进行清洗。但清洗的粒度过细,容易过滤有效数据;反之,无法达清洗效果。所以,在质与量之间需要做出一定权衡。
3.3数据处理加工
语义处理技术能够为深层的数据分析提供支持,提高各种数据挖掘算法的语义化程度与性能,提高机器可理解数据的能力。语义知识库是语义处理的基础支撑,典型的知识库有WordNet、中文知网,但其构建存在人工成本高、更新慢的问题。实践中,可以从维基百科、互动百科等结构化程度较高的海量数据中抽取词语关系,以低成本方式自动构建语义知识库获取语义知识,也可以利用大规模语料构建概念词语矩阵或利用Word2 Vector工具,提高数据挖掘的语义化处理程度。图书馆需要采用图像、音视频内容检索技术,提高多媒体数据的处理能力。比如利用语音识别技术,将音频数据处理为文本并记录声音信号在音频中的时间位置,以此提高用户获取音频数据的快速性与准确性。通过语义标注从图书馆数据中识别概念本体,实现信息之间的关联,形成知识网络,为个性化、语义化服务应用提供支撑,进而可通过分类、聚类等数据挖掘加工处理从多维度满足用户的信息需求。另外,可借助微博、微信等社会化网络提供的API接口,获得更广泛的用户数据,展开用户需求与图书馆信息之间的深层处理分析,利用APP等多种方式为图书馆与用户之间搭建有效的服务桥梁。
3.4数据可视化