时间:2023-05-24 16:47:57
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇大数据开发的过程范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
自上个世纪90年代初,信息高速公路在美国提出以来,历经近30年的发展演进,信息技术发展突飞猛进,信息化领域的新技术、新词语层出不穷,诸如IT技术、互联网技术、大数据技术、区块链技术、人工智能等。并且对人们的生产、生活方式产生了深刻的影响,认为现在进入了大数据时代、万物互联时代、智能化时代等。笔者认为,一直以来,其中除了硬件的发展,还有两个关键因素同样值得关注,一是数据,其是基础和目的;二是软件,其是方法和工具。唯如此,才能实现在软件生命周期即设计、开发、运行、优化,实现与大数据生命周期即获取、清洗、集成、分析、呈现等的互动。[1]换言之,现在来说,就是大数据和软件工程,二者助推了信息技术的发展,同时也是信息化的产物,在大数据时代背景下,研究软件工程技术的应用,对于经济社会的发展有着十分重要的意义。
1大数据和软件工程简述
1.1大数据简述
沃尔玛的“啤酒与尿布”是众所周知的大数据经典案例,大数据已经是当今信息社会炙手可热、耳熟能详的词汇,而且已形成共识,即人类已经进入大数据时代。上个世纪80年代初,《第三次浪潮》一书风行全世界。该书作者美国社会思想家阿尔文托夫勒就在文中将人类社会发展划分为三次浪潮,即以“农业文明”为主导的第一次浪潮,以“工业文明”为主导的第二次浪潮,以“信息化”为主导第三次浪潮。[2]其中首次提出了“大数据”(BigData)一词,并且,以“第三次浪潮的华彩乐章”这样的用词对其进行热情的讴歌。[3]全球著名咨询公司麦肯锡于2011年5月了《大数据:创新、竞争和生产力的下一个前沿》报告,公认此报告宣告了大数据时代的到来。由于大数据概念的提出源于不断的发展实践,其本身并没有严格、权威的定义。通常认为,大数据的大即大数据集的规模一般应达到10TB左右,现在已经达到了PB级的数据量。维基百科称“大数据”是这样一个术语,即其是用以描述用传统的数据处理应用软件无法完好处理的庞大的或者复杂的数据集。但“大数据”这一概念并不仅仅指数据规模的庞大,还包括对这些数据对象的处理以及应用活动。IBM提出大数据通常具有“5V”特征:Volume(数据体量大)、Variety(数据类别多样)、Velocity(处理速度快)、Veracity(数据真实性高)、Volume(数据价值高)。[4]大数据技术分类并分平行关系,而是呈纵向、层级状结构,详见图1所示。
1.2软件工程简述
软件工程本身并没有严格、权威的定义。并且,也是直到20世纪60年代初才出现了“软件”一词,于此之前,更多的是程序的概念,后来人们认识到与程序相关的文档也有着相当重要的作用,才有了“软件”一词的出现。软件发展至今天,已经远远不是程序个体或者程序员合作的方式能够完成的,即使能够完成,也会是效率低下、程序运行可靠性差,或者说根本就无法完成。于是,在1968年召开的大西洋公约学术会议上提出了软件工程的概念,简单理解,就是以工程的方法来进行软件系统设计、开发、运行、维护、优化等技术的总和,进一步言之,就是用“计算机科学、数学管理科学等原理,以工程化方法制作软件的工程”,属于一门交叉学科。[5]通常认为其包含有四个要素:(1)软件工程目标;(2)软件工程范型;(3)软件工程过程;(4)软件工程原则。
2大数据与软件工程的结合方式
宏观上讲,软件工程是比大数据更为宽泛的概念,大数据的技术与应用被软件工程所涵摄。如图1所示意,虽然大数据的各项技术与应用属于垂直领域,而软件工程牵涉的是横向领域,更加关注软件产品及软件系统工程上的实现及其管理。但是,大数据无论是其产品还是其系统的完成与落地,都离不开软件工程方法论的支持。换言之,软件工程的方法与技术贯穿于大数据的开发与应用,大数据也只是在软件工程发展过程中出现的概念。软件工程开发具有综合性,其应用渗透于各个学科和领域,大数据的技术与应用当然是软件工程所关注和研究的对象,或者说大数据技术的每一环节都离不开软件工程的支持。大数据应用的基础是要依赖数据链条的完整性,采用相应的算法于海量的数据中进行规律分析,算法要依据相应的实际环境进行相应的升级,遵循开发的基本原理,充分调整数据分布,从而在研究过程中将大数据技术与软件工程方法结合起来。并在开放的环境中通过网络与通信技术实现数据的共享,在此过程中,软件技术和水平亦能得到进一步的提高。在二者相互作用渗透的过程,软件效率得到提高,软件效益得以提升,从而实现客户需求的最大化。在软件开发过程中,还需要有必备的硬件和软件的支撑,来支持相应的数据流,随着数据流的增长,对于硬件和软件就会有更高的要求。工程技术人员在对数据流进行分析研究的同时,专家学者还会对在线服务进行研究。但是,数据流是重点,包括对数据流的使用方法的研究,对支撑数据流的软件和硬件的研究。另外,从软件工程开发角度看,无论是在服务端还是在用户端,软件的运行当然会产生大量的数据流,都将产生大量的数据信息,这些数据流对于软硬件的使用寿命有着决定性的影响。因此,在软件工程的开发中,对于海量数据产生的环境下,更有必要做好数据流的管理,要高度重视数据流的分析研究,并且对于原始数据进行深入的研究也应该引起重视,以期延长软件的使用周期。[6]
3大数据时代的软件服务工程
软件服务工程即所谓的面向服务的软件工程,强调的是其相对于传统软件工程的扩展。近些年来得到了很快的发展,已经成为当今时代的主流社会需求之一,服务功能已经是软件开发的基本原则。另一方面,也可以将其直观理解为“软件(Software)+服务(Service)+工程(Engineering)”三个方面的交叉融合,或者软件工程与服务工程两者的融合等。其内涵可以理解为研究面向服务的软件工程原则、软件工程方法以及软件工程技术,同时利用相应的软件服务设施和平台,开发较高水平的软件服务系统。[7]软件开发者根据需求变化,在社会实际实用中,以面向服务作为主要建设目标。在开发的初期就要首先搭建好软件的框架,充分利用编程语言、构思好编程思路,确保开发软件能够提供可靠的服务应用,保障软件运行时的稳定与可靠。在实际的服务过程中,要求开发者运用分布式应用程序,以虚拟操作的方式提供用户相应的服务。在应用中,融合大数据技术,能够实现对数据进行编程,达到软件互操作的效果,并提高对数据的主动协调。软件工程开发工程师可以对数据信息共享,实现各种学习交流,对软件进行协同开发,并结合用户的反馈,对软件系统进行优化处理,提高软件的性价比。近年来,开源软件是较为成功的软件习作模式,但是,其采用常规的研究方法,应用价值还不是很高。与开源软件相比,群体软件工程属于一种分布式软件开发模型,能够依靠网络进行任务分配,并能实现创造性的查询,通过众包形式的开发,解决开发过程中的难题。并且,在整个开发过程中,众包开发可以贯穿其全过程。所谓众包,一如其字面含义,是一种分布式的生产开发模式和问题解决方案。通过该种方式,开源软件和商业软件均可通过网络进行任务和责任分配。[8]随着我国计算机科学技术的不断发展进步,软件工程技术也取得了长足发展,软件服务工程也支持得到拓展和延伸。在大数据时代背景下,我们应当加快大数据技术和软件工程技术的融合与创新,提升对海量网络数据进行编程处理的能力,提高软件的安全和效能,增强其稳定性和可操作性,进一步整合软件工程系统的集成度。
4数据密集型科研第四范式
1大数据技术和软件工程技术
大数据技术事实上是将人类日常生活中产生的各种数字信息,将这些信息收集起来之后分类处理,设定不同类别的存储空间,按照类别存储。大数据技术从功能的角度出发可以划分为多个类别,诸如分析技术、机器学习技术、遗传算法技术、自然语音处理技术等。应用大数据技术分析,就是基于当前的科学技术发展起来的一种分析技术。它主要依靠现代科技手段发挥技术的作用,特别网络技术发挥着基础性的作用。整理基础数据,对数据信息进行分类整理,应用相应的计算机算法,将相似特性的数据划分为一类,最终得到大量的数据,应用大数据技术对这些数据进行分析。大数据分析应用于互联网行业中,所发挥的优势是有目共睹的,而且还不断地引入新技术,在软件工程技术中应用,对该技术的发展起到了促进作用[1]。大数据时代,社会各个领域都已经实现了信息化发展,人们对软件工程的概念越来越熟悉。事实上,软件工程的历史始于20世纪的中期,其研究重点是软件技术和工程管理。将相关工程内容引入其中,使得工程系统化运行,其中所涵盖的研究内容包括软件的生命周期、软件工程设计、软件的技术维护等方面。因此,在软件设计的过程中,要控制好技术开发成本,保证工程质量,使其生命周期不断延长,不同项目的技术需求和用户的各种技术需求都能够得到满足。
2大数据背景下的软件工程基础
处于大数据时代环境中,软件工程的发展中关乎到不同的领域,需要高度重视。大数据技术具有专业性的特点,还具有很强的实用性价值。在软件工程技术的研究中,要从应用需求出发不断创新软件技术,对于传统的技术要不断摒弃,对软件工程的发展创造良好的客观条件。大数据技术环境下,软件工程基础是基于互联网技术建立起来的,对各种数据信息系统化管理,根据需要进行处理,对工业的发展非常有利[2]。在软件工程技术中,大数据的安全性问题是需要高度重视的,否则,就会对软件工程技术造成不良影响,引起严重的后果。
2.1软件服务工程
在软件工程的研究范畴中,软件服务工程的数量不断增多。软件工程服务化方向发展,就是发挥服务的作用,使其成为软件开发的基本原则,按照服务项目内容为用户展开服务。由于软件工程发展的主题有所,服务内容也要做出相应的调整,同城是对软件工程的进行技术维护。在具体的服务工作中,需要软件开发人员使用分布式应用程序,在管理工作中采用虚拟操作的方法为用户2019.08提供服务[3]。软件工程技术应用中,结合使用大数据技术,可以对网络数据进行编程,使得软件具有互操作性,对于数据主动协调,使其符合动态场景的变化节奏,软件系统的集成度有所提高。
2.2软件开源
软件开源更为注重用户对软件技术的体验。在对软件开源进行研究的过程中,采用常规的方法,虽然获得一定的成果,但是应用价值不是很高。一些研究人员在研究软件工程技术的时候,就是将软件开源作为突破口,将开发项目划分为多个模块,将每个模块分给指定的研究人员进行开发。
2.3群体软件工程
群体软件工程是通过网络的方式进行软件开发,具体的实施中采用工程众包的形式,使得软件开发技术发挥作用。群体软件工程是一个分布式软件开发模型,这个工程项目的运行中,可以通过网络实现,对各项任务进行分配,也可以进行创造性的查询,通过众包解决软件开发过程中遇到的一些困难和重要问题。同时,在软件工程开发过程中,软件工程可以在任何阶段通过众包进行开发[4]。
3大数据与软件工程技术的未来发展方向
3.1大数据与软件工程技术开放式的发展
大数据技术的主要前提是大量的数据流,需要技术不断地升级和创新,寻求开发的研究途径是非常必要的。计算机网络的发展意味着计算机可以在开放的环境中相互通信,共享数据资源,软件等信息的有效利用能力也会有所提升。通过网络运行可以增加利润,使得用户的各种需求得到满足,提高资源的利用率。
3.2大数据与软件工程技术融合到其他领域
软件工程技术在当今许多科学领域有着广泛的应用。由于软件工程技术给予各个领域非常大的帮助,从航空到生活中都发挥着软件工程技术的作用[5]。应用程序的运行,可以使用数据平台对信息进行收集并分析。比如,用户在进行股票交易的过程中应用大数据技术,可以使用软件工程技术构建数据模型,通过对数据模型的分析,预测股票的变化趋势。
4众包软件服务工程中的大数据技术
在软件开发过程中,必须有足够的硬件和软件基础来支持数据流,随着数据流的量逐渐增多,对硬件和软件就有了新的要求。专家学者在分析数据流的时候,还对在线服务进行了研究。数据流是重点内容,主要是对数据流的使用方法进行研究,对支撑数据流的软件和硬件进行研究[6]。从软件工程开发的角度而言,软件运行中都会产生大量的数据流,包括服务端、用户端等,都会有很多的数据信息产生,这些数据流对软件和硬件的使用寿命起到了决定性的作用。软件工程的开发中,要做好数据流的管理工作。有必要对原始数据进行深入的研究,为提高软件的使用寿命创造条件,对数据流的分析要高度重视[7]。
5密集型数据科研第四范式
第四种科学研究范式是指根据实际情况建立独立的科学研究方法,探索第四种范式的理论基础,以及大型数据存储设备在发展中的重要性。软件工程中,采用传统的大数据研究方法,大数据的有效分析是不可能的,大数据的研究还没有取得突破性的成果。因此,目前大多数软件不能在短时间内同时实现数据信息的存储、数据信息的传输和有效识别。在探索第四范式理论和研究方法的过程中,首先需要对集成大数据的软件服务价值进行估计,抛弃传统的大数据统计方法,建立新的大数据信息统计方法和分析方法[8]。此外,有必要从多个方面研究大数据的处理,对大数据信息进行管理并深入分析,讨论大数据的价值以及存在的可变性,这对软件工程的发展起着重要的作用。在研究软件工程技术的时候,必须更新传统的软件开发理念,重视软件处理和分析大数据能力的发展,使得软件产业呈现出新的发展面貌。
6结语
二、大数据对高等教育的重要性
1.大数据便于分析学习行为
在教育活动中,教育数据是对教育成效、创新思维、创新能力、科研活动、学习主动性、学习积极性和教学活动进行分析的重要依据,它为教育教学和科研活动提供重要的科学依据和可行性论证的材料。教育数据可以通过面授的方法即面对面的教育互动获取,如一问一答、讲座交流、分组讨论、课题合作、兴趣小组等,教育数据也可以通过网络课程平台或慕课等多媒体课程获取,以这种方式获取的数据样本大、效率高、存储方便。教育大数据可以呈现学生学习的即时效果以及学生参与课堂教学和科研活动的情况,这是智慧教育的客观分析的依据和比较研究的素材。教育大数据以其便利性和可操作性为学生学习行为的研究和分析提供了便利条件。首先,教育大数据便于对学生学习行为进行分析。教育大数据便于留存,方便调阅,有助于评价和分析学生的学习行为,进而有针对性地解决问题。其次,教育大数据便于教师从全局把控学生的学习情况。利用数据的关联性和演绎规律,可以从中获取课堂上学生互动、课堂接受程度和专注度等教学反馈信息,有利于挖掘个体学生的学习特点,推进个性化教学,或从整体上评估学习行为,对学生进行科学指导。最后,便于教育管理者更好地组织教育资源。教育管理者可以从教育大数据中挖掘有价值的信息,制定教育改革的方向和措施,并采取和风细雨、滋润心田的管理方式。
2.大数据促进教育科学化发展
首先,大数据提供智能学习平台。将众多的高校信息收集起来,资源共享,信息互通,让世界高校变成地球村,这给教育智能化发展创造了极好的条件。芝加哥大学等多所世界名校达成共识,联合建设在线教育公共课程,通过网络平台免费开放课程,供全球几十万人同时收听或观看同一知名教授的课程,共享学术精髓。这是教育资源的高效利用,也是高教发展的必然。同时,还可以在网络平台上通过MOOC等多种形式进行学术讨论和交流。智能化学习平台让学习和交流变得更便捷。其次,大数据构建全新教学模式。大数据的应用给高等教育带来了革命性变革,面对面的课堂讲授形式面临建立在教育大数据基础上的在线、视频、多维度、全视角的立体化教育模式的挑战。教育大数据时代的教学模式,其知识传授途径已从课堂走向网络,从线下走到线上;其知识传授不受时空限制,可以随时随地上网学习在线课程,接受世界名师的网络课程教育;其教学方式也更灵活。通过观察或记录鼠标对某一知识点的点击量、在一张幻灯片上停留的时间的长短、回答问题后有针对性的关注的有无等情况,可以判断不同的人对不同知识点的关注和接受程度,从而使得视情况而定的详解或弱讲,或个性化、差异化教学得以实现。教育大数据时代的教学模式还有效地延伸了教学资源和师资。在线上接受世界名师授课,这是高等教育全方位、全时空的重大突破。最后,大数据促进教育科技创新。高等教育大数据通过提供科技创新所需要的信息资源、科研知识和科技问题交流的平台以及科技信息的实时交流,促进了产学研协同创新,促进了成果的转化和创新。高等教育大数据之所以能够发挥这样的作用,是因为它积聚了科研、教学、工程信息、管理科学、音乐艺术等海量信息,而且这些集音频、视频、文字、图形于一体的立体化信息是可以即时查询或交流的。高等教育大数据的双向性和交互性,对于提高科研效率、促成科研成果转化有很大帮助,间接地促进了高校的进一步发展。
三、高等教育大数据的建设途径
1.搭建数据平台,开发大数据处理技术
建立高校大数据应用平台,在整合原有信息系统的基础上,升级、建设数据釆集设备、数据传输网络、数据储存和分析系统,并通过对数据和应用的高度集成将复杂的大数据处理程序交给专业人员处理,为一线教师减轻负担。高校大数据应用平台拥有强大的数据收集和分析能力,可以有效地提高数据管理质量和效率,促进资源共享,为高校管理决策提供支撑,推动高校资源配置的优化。大数据应用可以在人才培养、科学研究、社会服务和文化传承创新等多个方面全面推动高等教育的发展。
海量数据包含了许多冗余和杂质,这样的数据不便使用,甚至不能使用。要发挥大数据的功用,提高其价值密度,就必须开发大数据的相关技术。首先,开发大数据集成技术。对数据进行有效的集成和整合,以剔除无关信息而不使有用的信息流失。完成这种除冗降噪过程的,是大数据技术中的数据采集和算法技术。不同来源的数据存在结构化、半结构化和非结构化三种结构形式,数据之间的差异给数据的集成带来了巨大的困难。这需要开发比Hadoop分布式处理软件更先进的系统进行集成。其次,改进大数据存储技术。存储设备容量不可能跟上数据规模的扩张,而大数据存储技术又与数据成本、计算和分析速度直接相关,这就要求开发一种既能够存贮多元异构数据又满足数据格式统一、标准统一要求的存储技术。再次,开发高效的实时分析技术。传统的分析技术可以对大数据中结构化静态数据进行分析,但数据的一致性、可用性和容错性不可兼得。大数据的可扩展性和可用性不能得到满足,影响它的使用。只有开发一种横向扩展能力强、能大规模处理非结构性数据的分析技术,才能满足高效地进行动态分析的要求。最后,开发可移植处理模型。目前的大数据处理框架大多是针对各行业、各领域的情况开发的,不具有广适性和可移植性,限制了大数据的应用。在高等教育领域,大数据专业人员应同各领域专家合作,开发可移植处理模型。
中图分类号:TP393 文章编号:1009-2374(2016)34-0093-02 DOI:10.13535/ki.11-4406/n.2016.34.046
1 概述
随着互联网技术的快速发展,网络上产生海量大规模的数据,这些海量数据在金融、农业、医疗、商业等领域都有极其重要的应用。因此,通过对大数据研究从互联网的海量数据中挖掘出有价值的信息资源。虽然大数据有极其重要的研究价值,但是海量数据处理给软件设计带来了巨大挑战。大数据时代的到来,使传统的软件工程面临新的机遇与挑战。众所周知,传统的软件生产模式一般以正向工程开始,然后进行软件维护、逆向工程与再工程等,而大数据时代的软件生产模式则以逆向工程开始。由于软件资源的大量积累以及大规模软件重用技术的发展与应用,软件数据挖掘与软件集约化生产会变得越来越重要,传统意义下一切从头开始的软件项目会变得越来越少。
互联网的数据正以指数级速度增长,2010年,全球产生的数据超过1ZB;截至2015年,平均每年产生9ZB的数据;数据的产生主要来源于传感器、移动终端和电脑终端;所有这些数据在涉及人类基因组学、医疗保健、石油和天然气、搜索、监控、金融等诸多领域提供了大量潜在的研究价值。IDC认为能够使用大数据解决方案将蓬勃发展实时业务决策,而那些无法接受和利用这种转变的,在市场竞争中处于劣势,且将越来越多地发现自己面对潜在的故障组织。大数据技术描述新一代的技术和架构,通过对大数据进行科学组织、分析其中的数据价值。
大数据是涉及数据存储、可变复杂的大型数据及数据的进一步可视化处理过程;大数据架构需要具备同时处理数据存储要求和分析海量数据的大型服务器的处理能力。其中挖掘潜在模式和隐秘关系的过程称之为大数据分析。挖掘的潜在信息对公司来说能够帮助获得更丰富、更深刻的见解,并能够帮助公司在竞争中占有绝对的优势。这也是大数据的价值所在,更加精确地执行和分析数据中的潜在价值。本文将讨论大数据时代软件生产模式的变化、特征及其发展趋势。除新的概念外,还将重点介绍一些软件管理方法以及工业实践经验。我们正处于一个软件工业大变革的前夜。随着软件资源的大量积累与有效利用,软件生产的集约化与自动化程度都将迅速提高,软件生产质量与效率的大幅度改进将成为可能。
2 软件服务产生的大数据
互联网应用在各行业的广泛推广和使用,使得互联网应用服务产生海量的数据,主要包括流式密集数据和历史密集数据。比如,国内最大的电子商务阿里巴巴数据中心目前已经积累超过100PB的数据;中国移动通信公司目前建立包含办公自动化、企业标准化等超过1万业务流程。传统的软件工程中程序设计思想是“程序=数据结构+算法”,主要考虑程序的效率和正确性,忽视了程序中产生的数据,这将大大缩短程序的生命周期。在软件理论漫长的发展过程中,众多学者一致认为软件就是健壮的程序和详细的文档,其中核心部分就是完备的文档,包括需求文档、工程数据、通用规范等,整个软件设计过程更加关注文档质量和标准化开发模式。因此,在这一共同协议下,促使软件设计更加规范和标志,进而从整体上提升软件质量。
随着系统业务的扩容和用户的使用,要求软件能够处理大规模数据的能力。许多大型互联网企业越来越重视软件服务中流式数据和密集型数据,数据主要来源于用户体验。如图1所示,行业对数据的处理要求越来精细,技术很具有挑战性,其中如何将大数据基础设施作为服务、大数据平台作为服务、数据价值作为服务以及大数据分析作为服务,已经是大数据环境软件工程的研究主要难题。
从软件发展创新模式来分析,服务消费者、服务提供方及PaaS平台三方产生海量线上流式数据和离线密集型数据。比如,TB级的用户交流数据和PB级的用户行为操作数据、TB级的系统日志数据等,这些海量数据对软件开发、维护、管理有着至关重要的作用,同时这些数据对软件服务周期也有决定性的作用。本实质上来说,这些数据只是在规模和量上来衡量,对其的研究缺乏标识,尤其缺少语义化的处理。因此,对如此海量数据的处理,需要从不同的研究方式和创新思维对数据进行组织和处理,形成面向领域内的智能知识主体。以知识为中心,数据为驱动,提供一系列数据服务平台,从而体现出现代软件工程是以大数据为中心开展的。
3 大数据时代软件工程管理模式
根据大数据时代背景下,软件工程的发展从经典的CS模式发展到BS模式以及现在的以面向服务的软件工程,简称为软件服务工程。该设计模式中以服务为基础的单位,能够快速构建应用和共享服务,能够按需分配,同时也能很好地适应分布式程序开发。这种模式特点是将资源虚拟化、应用服务化,向外提供统一服务接口,能够很好地解决大数据环境下动态、分布变化的情况和异构系统数据以及系统整合问题。这种面向服务的软件设计模式在大数据、移动互联网等新兴领域得到广泛的使用。
项目管理是在一定的费用、品质及进度约束下,为达到客户和其他利益相关者的需求、目的和目标所要进行的大量活动的规划、监督和指导。项目管理有两个重要的研究领域:系统工程与项目控制。从图1中看出,两个领域有重叠部分,系统工程为重叠部分提供技术层面的输入,项目控制主要提供规划、费用及进度方面的输入。工程的管理主要是通过文档来体现的,其中主要包括系统文档树和系统工程管理计划(SEMP)。
系统文档树就是以一种树形结构化形式描述项目所需的,面向系统工程的一系列文档以及在自定向下的结构化形式中各个系统工程文件之间的相互关系。系统文档树是由系统工程师在提案阶段基于工作说明书(SOW)和合同数据需求清单(CDRL)准备,以便后续的成本和进度确定所需的文本化的任务。系统文档树由项目经理批准并在项目生命周期内维护更新。系统工程管理计划(SEMP)是描述项目在系统工程方面的任务与进度需求以及这些系统工程任务如何被管理与实现的文档。项目管理计划(SEMP)是由系统工程师基于工作说明书(SOW)和合同数据需求清单(CDRL)在提案过程中描述系统工程过程以及系统工程需求如何被计划、组织、集成、监测、控制和测量。SEMP应该由项目经理批准并在项目生命周期内维护更新。系统工程管理计划基于SOW及合同数据编制,包括三类关键要素:开发项目规划与控制、系统工程过程以及工程专业集成。
第一,开发项目规划与控制。开发项目规划与控制描述在管理开发项目中必须实现的系统工程任务,包括:SOW(工作说明书);组织;进度计划;程序、设计和测试准备评审;技术性能测量;风险管理。
第二,软件系统工程过程。系统工程过程描述用于系统开发的系统工程过程,包括:运行需求;功能分析;系统分析与权衡策略;系统测试与评估策略。
第三,软件工程专业集成:工程专业集成描述多个专业工程领域如何被继承到主系统设计与开发中,包括:可靠性工程、可维护性工程、可用性(RMA)工程;可生产性工程;安全性工程;人因工程。
4 结语
互联网的快速发展使得软件的更新迭代更加频繁,大数据时代的到来更是对软件的性能和安全的重要考验。如何在大数据环境下,构建一个高效、安全、健壮的软件,除了需要技术的支持,更多地需要一套科学工程理论、技术标准、软件管理方法的融合。由于软件资源的大量积累以及大规模软件重用技术的发展与应用,软件数据挖掘与软件集约化生产会变得越来越重要,传统软件无法满足当前的需求,大数据环境下提出一般软件工程的管理模式对时下的软件工程开发是非常有帮
助的。
参考文献
[1] 王符伟.大数据时代下软件工程关键技术分析[J].电子技术与软件工程,2015,(23).
[2] 朱怀英,展之桂.大数据应用的现状与展望[J].工业c,2016,(17).
[3] 孟雪井,李宏飞,杨亚飞.大数据背景下统计软件在数据分析中的应用[J].现代经济信息,2016,(8).
[4] 于兴文.基于大数据的创新型“归一”软件设计思路[J].科教导刊(旬刊),2015,(11).
随着互联网运用的逐渐广泛化,社会中的各个行业都具有了自己的数据种类,这就致使大量的数据在互联网的服务中产生。软件服务工程会产生密集型数据,其中包括流式密集型的数据以及历史密集型的数据。如世界最大的电信数据仓库中心目前已经建立超过1200TB的数据;中国移动通信的业务流程超过8190个,实现了办公自动化和标准化的业务流程。“程序=数据结构+算法”的程序设计思想为传统软件工程的管理思想模式,集程序的运行过程就是数据结构的组织与算法的问题,这种模式将程序运行过程中的数据忽视,而将重点放在了程序的正确性和效率性,在很大程度上把程序的生命周期缩短。纵观软件理论的漫长发展史,诸多学者一致认为详细的文档和完整的程序构成了软件,其中完善的文档信息为软件的核心部分,包括工程数据、文档以及通用规范等等,把整个软件的设计重点放在了文档是否质量合格以及开发模式是否具备标准化上面。由此,推动了软件设计的标准化,从整体上把软件的质量有效提升[1]。
随着系统业务的扩容和用户的使用,对软件进行大规模的数据处理提出了更为严格的要求。越来越多的大型互联网企业更加重视软件服务中的历史密集型数据和流式密集型数据,将大数据分析作为服务,更加注重从用户的体验上进行数据的收集。大数据背景下,行业逐渐加大了数据的处理难度,使得处理数据更具精细化,对技术的标准要求也更为严格。当前大数据时代下软件工程的研究课题为,如何更好的把大数据平台作为服务,把大数据的分析作为服务、把数据的价值作为服务[2]。要从软件发展创新模式来进行海量数据的处理,PaaS服务平台、服务提供方以及服务消费者三方,会产生海量离线密集型数据和线上流式数据。各项级别的用户在进行交流或者进行操作以及各项系统日志数据等,其通常对软件的有效开发、运行、管理等各方面都有着重要影响,另外,大数据还对软件服务的具体周期具有决定性作用。
从根本上讲,只是在规模和量上来进行数据的衡量,对其的研究没有标识,尤其是比较缺乏语义化的处理。因此,要对研究思维及方法进行不断创新,以此对相关数据实施组织与处理,并形成具有领域性的智能主体。通过对大数据的有效创新,将知识作为载体,可以提供相应的数据平台,从而确保以大数据为中心来进行现代软件工程管理的创新[3]。
2、大数据时代背景下软件工程管理模式
软件工程的发展经历了三个阶段,经典的CS模式-BS模式-软件服务工程。其中产生于大数据背景下的面向服务的软件工程,以服务为基础,能够以较快的速度进行应用和共享服务的构建,对于分布式程序的开发具有很好的适应性。这种模式的不同之处在于能够把应用服务化,资源虚拟化,将外界服务接口统一化,有效解决大数据环境背景下的一系列问题。这种软件服务工程设计模式广泛应用于移动互联网、大数据等新兴领域。项目管理是受到进度、费用以及品质的影响,满足客户的需求而进行的活动规划、指导和监督。其中项目控制与系统工程为项目管理两个至关重要的研究领域,二者有交叉重叠部分,项目控制主要负责输入进度、规划和费用,而系统工程蛀牙负责技术层面的输入。通过文档的形式来体现工程的管理,其中包括系统工程管理计划和系统文档树[4]。
系统文档树通过树形结构来描述项目所需要的,以系统工程为对象的各个系统工程文件之间的相互关系。在提案阶段,由系统工程师根据合同数据需求清单和工作说明书来进行系统文档树的准备,从而为根据后续的进度和成本来进行文本化任务的确定提供便利的条件。由项目经理进行系统文档树的批准,并更新维护项目管理的全生命周期。而系统工程管理计划主要用于描述系统工程的进度与任务的,在提案过程中,由系统工程师根据合同数据需求清单和工作说明书来进行系统工程过程的描述,以及如何有效计划、组织、集成、测量系统工程需求。项目管理计划同样由项目经理进行批准,并更新维护项目管理的全生命周期。系统工程管理计划主要由软件系统工程过程、开发项目规划与控制,以及软件工程专业集成三类关键要素构成,其中开发项目规划与控制为必须要实现的系统工程任务[5]。
3、总结
综上所述,面临着互联网的进一步发展,其促使软件的更新速度相应加快,大数据背景下通常对软件的自身安全及性能具有更高的要求。因此,要想打造一个健壮、高效且安全的软件工程,不仅仅要加大技术的支持力度,还需要不断创新软件工程管理办法,形成一套科学的配套理论以及技术标准。当前规模较大的软件重用技术不断发展,并实现了应用,再加上大量积累的软件资源,未来软件的集约化生产以及软件数据的挖掘将会变的至关重要。传统化的软件工程的管理方式已无法满足当前生活的相关需要,大数据环境背景下探究新型的软件工程管理方法具有十分重要的现实意义。
【软件工程硕士论文参考文献】
[1]张宇航.大数据系统中的软件工程管理方法探究[J].中国高新技术企业,2016,(23):93-94.
[2]杨淼.面向商业模式的大数据信息管理方法研究[D].天津大学,2014.
[3]梁峰.基于数据仓库技术的电力公司营销数据分析梳理平台的设计与实现[D].电子科技大学,2015.
全国乃至全球范围内,政府部门将大数据运用作为顺应经济发展规律、提升政府治理能力、增强地区竞争优势的新动力、新机遇、新途径。加强对数据的分析和应用,有助于政府部门通过数据来合理制定产业政策、引导企业投资经营、培育新模式和新业态,推动实体经济与虚拟经济的融合发展;有助于政府部门提升经济数据分析的能力,推动社会事业数据的共享,创新行业管理服务的模式,加快建设法治服务型政府;有助于储备基础战略资源,带动科技创新,释放经济潜能,创造区域经济发展的潜在空间。
大数据在政府行业统计监测中应用的基本情况
目前,大数据在政府行业统计监测中的应用主要包括两个方面,一是成为政府统计数据来源的补充渠道,实现原有的统计直报方式和大数据方式相结合,尤其是网络交易数据的重要获取来源,如利用信息技术手段整理第三方电子商务平台交易数据以测算地区网络零售额;二是成为政府统计数据质量的评估依据,将获取的大数据作为传统统计方式获得数据的质量评估参考,如国家统计局利用中国银联跨行银行卡消费数据评估社会消费品零售总额数据质量等。
大数据对政府行业统计监测带来的机遇和挑战
大数据在政府行业统计监测中机遇与挑战并存,机遇大于挑战。其中,机遇主要表现在数据获取方式更加便利,先进技术逐步取代人工劳动使得统计效率更高、成本更低;数据获取频率更加密集,可以实现全天候实时监测,逐日更新更替数据信息;获取数据数量更加丰富,可以实现多维度、多区域的数据开发和整理;获取数据质量更加精准,尤其针对小而散的网络零售企业,信息技术获取的数据更加全面和准确;挑战主要表现在对政府统计能力和统计理论带来的挑战,一方面政府统计对大数据运用的需要一个漫长的周期,原有统计制度和现行统计方法双轨运行的模式需要磨合,另一方面政府统计人员对大数据的理解和认识需要一个较长的周期,缺少具备大数据理论和技能的专业统计人才。
大数据环境下政府行业统计监测的发展原则、内容和方向
电子商务行业统计监测是新形势下政府行业管理的一项基础性、开创性的工作,应在摸索中不断创新突破,使得电子商务行业统计监测能够满足政府行业管理的需要。
(一)主要原则
电子商务领域应用大数据开展统计监测具有涉及面广、技术要求高、公益性明显、变化性大、安全性要求高等特点,因此在应用过程中应坚持以下原则:一是合法性原则,应用大数据技术进行数据采集和整理过程中,要遵守现行的法律法规,在合法的范围内安全使用;二是科学性原则,对数据进行过滤和加工时,数据模式和方法要科学合理,确保数据的权威性;三是开放性原则,数据不仅作为政府决策依据,还应将大部分作为公共资源向全社会共享;四是稳定性原则,数据来源实现多渠道,技术手段、数据模型等要及时更新,以保证数据根据实际需要实时;五是标准化原则,加快数据采集、指标口径、分类目录、数据交易、安全保密等关键共性标准的制定和实施,充分发挥标准在数据开发应用中的保障和支撑作用;六是市场性原则,数据开发要与市场需求结合,以保证数据开发应用的具有持久生命力。
(二)建设内容
作为一项系统性的工作,电子商务领域应用大数据开展统计监测工作过程中要着力构建三大系统:一是技术系统。要把先进技术放在基础性的地位,包括信息技术、数据模型、智能设备等,采用的技术要与行业最新发展的趋势相匹配,同时还要着力打造具有自主知识产权的技术和平台。二是应用系统,针对不同市场主体和需求,开发标准化和个性化的产品和服务,并打造方便用的可视化界面和系统,实现需求方和服务方的有效沟通,推动技术研发与市场应用的融合互补。三是制度系统,建立一套从数据采集、存储、整理、分析、、保密等管理制度,建立相应的数据管理组织构架和绩效评价机制,以保障电子商务大数据开发应用工作的有序进行。
(三)发展方向
未来政府在电子商务领域开展大数据应用与开发,个人认为既要遵循电子商务发展的规律,也要立足现行的政策条件、技术条件,并根据各地实际情况和需求,按照“统计规划与行业管理相结合、统计成果与产业应用相结合、统计手段与先进技术相结合、统计水平与国际水准相结合”等“四个相结合”的方向,建立健全应用大数据开展电子商务统计监测工作的体系,为经济社会发展提供有力的大数据支撑。
统计规划与行业管理相结合。电子商务大数据的开发应用首先要以服务政府行业管理工作为出发点和落脚点,确保大数据的开发应用与行业管理的热点、难点、重点领域相吻合,做好以电子商务交易额、网络零售额、居民网络消费等为代表的政府考核数据的开发,同时不局限于电子商务领域,逐步向旅游、票务、交通、餐饮、住宿、中介、医疗、文化等经济领域延伸,确保统计工作服务于各领域行业管理部门的需要。
统计成果与产业应用相结合。数据是基础,应用是关键。电子商务大数据统计的成果要与政府部门在电子商务领域具体的工程、项目相吻合,使得统计的成果能够直接应用和服务于电子商务促消费、稳增长、调结构、惠民生等方面的具体工程,为电子商务领域各项重点工程和项目的设计、监测和评估提供数据参考,同时也为企业经营决策、个人创业创新提供数据参考,提高数据成果落地的实施速度和社会经济效益。
统计手段与发展前沿相结合。在电子商务大数据开发过程中,一方面,创新统计方法, 逐步扩宽通过技术手段获取数据的范围,探索建立符合电子商务发展特点的测算和分析方法,同时与原有的统计方法做好衔接,实现两条腿走路;另一方面,提升统计技术,充分利用先进智能设备和前沿获取技术,使得统计技术能够适应电子商务快速发展和变化莫测的特点,及时、全面的获取行业最新业态和模式的相关数据。
统计水平与国际水准相结合。政府部门在电子商务大数据开发的过程中,一是要加强与阿里巴巴、京东、亚马逊等第三方电子商务平台企业的数据共享和交换,二是要加强与高等院校和科研机构的理论探讨,提升数据分析和研究的水平,推动电子商务理论的发展,三是加强艾瑞咨询、尼尔森等国内国际知名第三方大数据公司的合作交流,确保数据来源、获取方法、分析水平等全面科学、引领行业、接轨国际,提升政府电子商务行业统计分析的国际水准。
大数据环境下政府审计存在的问题
缺乏完善的大数据信息平台
随着科学技术的发展,社会已经进入大数据时代,在这种环境下,组织开展政府审计工作,需要依赖大数据,全国各地都在积极建设大数据信息平台,但是受自身财力、技术等因素的影响,在大数据信息平台建设方面存在不平衡问题。个别地区甚至还未建立大数据信息系统,进而在一定程度上使得审计数据依然分布在部门、个人手中。
缺乏大数据应用人才。对于政府审计人员来说,在信息化时代,一方面需要精通审计知识。另一方面需要熟悉计算机领域的一些知识。但是,从实际情况来看,在审计队伍中,具备储存、分析大数据能力的人才非常少。在业务人才培养方面,尽管政府审计机关做出了巨大的努力,但是由于利用信息化组织开展政府审计工作处于起步阶段,并且培养具有中级职称的计算机审计人才需要一个过程。
审计模式与大数据审计不适应。受计划经济体制的影响和制约,审计机关在组织开展审计工作时,一般由相关科室根据审计类别开展相应的审计工作,在小数据环境下,这种审计方式有着自身的合理性。但是,进入大数据时代,在面对大型复杂的审计项目时,对于政府审计机关来说,由于数据规模大,程序复杂,在这种情况下,各科室之间需要互相配合,通过优化配置资源,进一步提高审计效率。
数据规模小。在我国,受计划经济体制的影响,政府审计数据信息一直没有得到到很好的整合,在这种情况下,进一步影响了数据规模,导致数据规模普遍偏小,主要表现为,一方面政府审计缺乏规范的运行机制,各部门之间各自为政,各自存储本部门的数据信息,同时数据传输局限于部门内部,数据信息很难在部门之间进行交流,进而在一定程度上导致政府审计机关很难对各部门的数据进行整合,制约了审计业务的正常进行。另一方面在数据存储软件方面,由于各审计机构之间存在差异性,并且各存储软件之间不能兼容,导致数据信息无法进行有效的采集,使得数据信息只能储存在相应的单位,进而难以形成大规模的数据库。
大数据视角下政府开展审计的具体措施
随着经济的不断发展,大数据成为时代的热点,对于政府审计机关来说,需要利用大数据开展审计工作。
搭建政府审计大数据信息平台。随着信息技术不断发展,云技术趋于成熟,基于此,可以依托云技术搭建政府审计大数据信息平台,按照统一的标准,连接审计机关、被审计对象的数据库,对数据信息进行实时采集,进一步储存、共享数据信息。积极开发大数据技术,对现有的数据信息分析软件进行充分利用,对于审计人员来说,通过建立公用数据分析系统,对数据信息进行共享和共用,在一定程度上打破审计系统审计数据不能共享的局限性,进而推动审计工作的顺利进行。在组织开展政府审计工作的过程中,审计机关需要与财税、金融等部门加强合作,对有关数据信息进行共享。因此,建立一种政府引导,审计机关等各部门相互配合的审计模式,搭建政府审计云平台,各部门之间真正共享审计数据信息。
培养基于大数据的政府审计人员。在大数据环境下,为了做好政府审计工作,需要培养基于大数据的政府审计人员,首先,对政府审计人员加大教育培训力度,帮助政府审计人员掌握计算机领域的知识,尤其是涉及审计与大数据交叉的知识;其次,在审计数据采集、整理、分析等方面,帮助政府审计人员提升综合能力,特别结合审计情况,建立数学模型对审计数据进行分析;最后,对被审计对象信息系统内控情况进行客观公正的评价,结合存在的具体问题,为被审计单位管理层提出切实可行的方案。
中图分类号:G642.0;TP393 文献标识码:A 文章编号:2095-1302(2016)12-0-02
0 引 言
随着云计算、物联网以及“互联网+”技术的兴起,数据正以前所未有的速度在不断增长和累积,互联网大数据正在实时影响人们的工作、生活乃至社会发展。2012年 3月,美国奥巴马政府公布“大数据研发计划”,旨在提高和改进人们从海量、复杂的数据中获取知识的能力,发展收集、储存、保留、管理、分析和共享海量数据所需要的核心技术。2014年大数据高速发展,中国互联网三巨头BAT(百度、阿里、腾讯)纷纷建立大数据研究院、大数据实验室等,提供大数据专业服务,一批大数据专业分析公司应运而生。我国的开放、共享和智能的大数据时代已经来临,同时对专业人才的需求也日益增长。
大数据的发展与计算机网络密切相关,因此适时调整高职计算机网络专业方向的培养目标,可以更好的适应大数据发展要求。大数据背景下计算机网络专业学生的目标是培养具有计算机网络、大数据及云计算的专业知识,实践能力强、职业道德素养高,具备云平台的管理能力和网络软件开发能力,能够从事网络工程设计实施、网络高级管理维护、网络开发、云平台组建及管理以及大数据存储、计算及分析等岗位的高级技能型人才[1]。
1 大数据与云计算
根据维基百科的定义,大数据[2,3]是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据主要具有4V特征[2],即数据体量巨大(Volume)、数据种类繁多(Variety)、流动速度快(Velocity)、价值密度低(Value)。
从技术角度上看,大数据必然无法用单台计算机处理,必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。目前应用最为广泛的大数据分布式处理平台就是Hadoop,Hadoop是由Apache基金会所开发的分布式系统基础架构,能够对大量数据进行分布式存储、分析和处理的云计算平台,已经在网络大数据领域得到了广泛运用。例如Yahoo使用4 000个节点的Hadoop集群来支持广告系统和Web搜索的研究;Facebook使用1 000个节点的集群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周200 TB的数据,进行搜索日志分析和网页数据挖掘工作;淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据。
2 课程体系改革研究
2.1 课程体系现状
目前,高职院校计算机网络专业类课程大多围绕计算机网络工程和计算机网络开发两条主线,主要课程包括网络基础、路由器及交换机配置与管理、Windows网络服务器配置与管理以及动态网站开发相关技术等。这些课程内容传统,课程内容严重同质化,教学内容已不能满足大数据时代人才培养的要求,这些将直接影响学生的理论实践能力和就业机会。
大数据、互联网+、物联网及云计算技术的发展和应用给高职计算机网络专业人才培养带来了新的要求与挑战,与市场需求存在脱节现象。计算机网络专业应紧跟大数据、云计算等先进技术的步伐,不断进行专业课程的创新性研究,重视实践类课程和教材的研发,适时调整人才培养目标和专业教学计划,以期满足工作岗位的实际要求。
2.2 研究思路
计算机网络专业经过多年的发展,其课程体系比较成熟,形成了各自的特色教学。因此,本文的研究内容是对原有课程体系的补充和完善。
2.2.1 有针对性的进一步优化传统的专业职业技能课程
传统的专业职业技能课程已经比较成熟,经过了实践的考验,也已得到了学生的认可。尽管如此,还要有针对性的进一步优化,使得课程体系的理实比达到更优,提升课程教学实施的效果。
2.2.2 采用增加模式,补充完善课程体系
基于大数据和云计算技术研发新的职业技能课程,充实现有的课程体系。大数据和云计算紧密相联,因此要增加云计算和大数据的理论和实践课程。在研发课程的过程中,以岗位需求为导向,以培养技能型人才为目标,合理安排理论教学内容和课时,着重开发实践教学案例和内容,明显区别于本科课程教学设置。
2.2.3 课程体系相互作用,相互促进
网络技术是大数据、云计算技术的基础。因此计算机网络传统课程也是新研发课程的基础。新研发课程既是传统课程的有效实践,又是对传统课程的有效扩展和提升。
2.3 具体内容
由于大数据、云计算技术是基于网络的技术,因此,计算机网络专业人才培养具有先决条件。根据以上研究思路,具体方案主要包括强化现有课程体系,增加基础理论课程、完善知识体系,增加实践课程、锻炼岗位能力三个部分。
2.3.1 强化现有课程体系
针对现阶段存在的问题,学校应强化现有课程体系,使学生具有扎实的网络管理能力和一定的网络开发能力。现有的课程体系使学生具备了相关能力。熟悉ISO/OSI互联网模型,并掌握常见的互联网协议如TCP/IP、ARP、OSPF、SSL、DNS、DHCP及HTTP等。能够配置管理Windows和Linux服务器,熟悉使用常见的网络命令,具备远程网络控制学习能力。掌握程序设计语言Java,具备Windows和Linux下的程序开发能力,包括编写shell程序。能够配置交换机和路由器,具备组建局域网的能力。熟悉信息安全、系统安全及网络安全攻防技术。
2.3.2 增加基础理论课程,完善知识体系
针对人才需求,增加大数据、云计算等基础理论课程,完善知识体系。虽然大数据、云计算等课程教学的最终目的是培养实践技能,但基础理论仍非常重要,主要包括熟悉大数据的基础概念和常见技术架构;熟悉云计算原理和架构,并了解虚拟化技术如KVM;熟悉分布式系统和分布式计算原理;了解大数据、云计算的最新应用。
2.3.3 增加实践课程,锻炼岗位能力
在课程体系设置中,实践课程比例应超过理论课程。增加大数据、云计算等实践课程,锻炼学生的岗位能力。主要包括主流云平台管理软件的使用,如华为FusionSphere、VMWARE等;分布式系统管理、分布式并行计算以及Map/Reduce编程;Hadoop集群、HBase分布式数据库的构建与管理;Hadoop、HBase等案例实践与应用。
通过以上方法,使得计算机网络专业学生在原有专业基础上,掌握大数据和云计算的原理,具备云平台的管理能力,并能基于Hadoop等云计算平台实现大数据程序,对大数据进行计算分析。
2.4 Hadoop课程实施
通过以上分析可知,增加的课程内容主要是大数据、云计算相关课程,最终采用Hadoop云计算平台相关技术实现大数据的存储、计算与分析。通过理论教学,使得学生深入了解掌握大数据技术、云计算原理及Hadoop架构。通过实践教学,使得学生能够掌握Hadoop集群的配置与管理,并且能够基于Hadoop实现大数据程序设计,使得学生具备基本的大数据处理能力。因此Hadoop课程是核心课程。
2.4.1 Hadoop原理
Hadoop是把大数据集分发到计算集群中各个节点上共同处理以实现大数据的快速处理。用户无需了解分布式底层细节就可开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop最核心的设计是HDFS文件系统和MapReduce编程模型。HDFS为海量数据提供存储,而MapReduce则为海量数据提供了计算。如图1所示,Hadoop运行的基本过程如下[4,5]:
(1)客户端可以将文件上传至HDFS文件系统,NameNode则会根据文件大小和Block大小配置将文件的物理属性分成若干个Block文件块,并分布式存储至DataNode数据节点,同时将块存储信息保存至NameNode节点,以方便文件进行资源管理。
(2)文件上传完成后,客户端提交具体Job任务至Hadoop集群,各DataNode节点根据任务要求可以读取相应的文件Split,并完成Map和Reduce计算任务,将结果作为输出文件传输至HDFS文件系统。
(3)在任务执行过程中,可以通过JobTracker、TaskTracker及ResourceManager监控任务的执行情况和资源消耗信息等。
2.4.2 Hadoop教学平台配置与部署
Hadoop教学平台需配置、部署一些部件。基于现有实验室的计算机和网络环境,网络服务器系统采用Linux Ubuntu,构建Hadoop集群网络。基于Cloudera Hadoop开源框架实现Hadoop教学平台。
2.4.3 Hadoop分布式文件存储及大数据处理实现
Hadoop分布式文件存储及大数据处理实现包括:HDFS文件系统的使用;HBase的使用;MapReducer程序实现;大数据案例分析与实现。
3 结 语
本文分析了大数据背景下高职计算机网络专业的培养目标和课程体系的改革思路,在优化计算机网络专业传统课程的基础上,增加大数据、云计算等相关课程,并以Hadoop课程的具体教学实施来培养学生的实践能力,使得学生能够紧跟大数据、云计算的技术步伐,满足工作岗位的要求。
参考文献
[1]赵伟艇,夏栋梁.基于岗位能力培养的云计算课程群知识体系构建研究[J].电脑知识与技术,2016,12(2):167-169.
[2]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013(S1):142-146.
[3]孟小峰,慈祥.大数据管理概念技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[4]王铮.基于Hadoop的分布式系统研究与应用[D].长春:吉林大学,2014.
[5]陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35.
[6]曾文英,吴积军,曾文权,等.基于云计算的IT课程体系改革[J].计算机教育,2014(17):40-44.
二、大数据管理工程档案与工程管理模型
大数据管理工程档案也是一个信息的整理的过程,本文在整合管理工程档案现有模型研究的基础上,结合大数据时代的来临给管理工程档案的实施带来的挑战和机遇,通过大数据管理工程档案来促进工程的发展,分析了的大数据时代来临下针对管理工程档案的双向决策模型,分别从工程评估与预测及工程监测与预警两个维度构建了针对大数据管理工程档案的方案[6]。因此,在本文中,针对大数据管理工程档案构建了两种工程档案管理的模型,第一个模型是数据驱动下的的工程监测和预警的模型,采用的技术是跟踪以及聚类;第二个模型是目标驱动的工程评估与预警模型采用的技术是推送以及表征,如下图1所示。1.工程内部集成档案数据目标驱动管理的工程评估与预测模型。工程评估与预测模型的是目标驱动的一个模型,也即在工程内部的目标驱动下的模型,也就是说在这一模型中,工程的决策者需求清楚的界定自己目标需求,根据自己的目标寻求实现目标的路径。可以使用普通的数据挖掘和收集的方法,利用工程信息系统中关于工程档案数据收集、整理以及分析计算等方法来达到,通过收集的数据表征、检索、可视化以及推送等技术实现工程档案大数据开展有针对性目标的挖掘,从而把这些收集整理的数据转化为可以为工程决策目标所利用的信息及建议。此外,工程评估与预测模型是于传统的数据挖掘和收集的方法上发展的,结合计量学学科中的相关技术方法应用于工程档案管理工作中,在目标驱动下对大数据时代来临时工程的策划、工程的实施以及工程的评估等工程档案数据中的海量信息进行有效整理和探析,以达致管理工程档案的效用,从而有效评估工程的发展情况,有效及时的对工程发展的最终目的进行预测。2.工程外部网络信息建档数据驱动管理的工程监测与预警模型。大数据时代来临时工程外部网络中有着海量的有用信息,这些信息对于工程建设中的新思维、新想法能起着启发或促进作用,大数据管理工程档案可以通过实时建档对这些有效核心数据加以收集和利用,在工程实施过程中,可以通过大数据收集对工程发展有积极作用的新信息和新技术,同时对于工程的不利影响因素和工程竞争对手的一些相关技术进行监测,在监测后针对所有会发生的情况进行分析,最终建立起工程的预警和监测档案数据库,从另一个角度说,这也是建立工程监测与预警模型的最终目标。与工程评估与预测模型的目标驱动不同的是,工程评估与预测模型通过预先定下的目标,来根据目标收集和整理相关数据,而工程监测与预警模型则不同,其更为重视通过数据系统自主分析来对网络舆情进行研究,大数据时代来临时的舆情分析系统有聚类、热点主题检测等相关的计算机文本信息的内容识别技术。3.工程管理档案大数据安全战略体系构建。以档案大数据的方式来对工程的实施进行管理有着安全的风险,这也是大数据管理工程档案的存储存在的新安全问题,一般来说,工程档案数据的数量以及质量会对安全存储系统的运行状况带来影响,大数据管理工程档案中的安全存储技术的升级速度较之数据增长的速度慢,因此,相应的面临的大数据安全防护预警风险也大。
中图分类号:TE969 文献标识码:A
在现在科技信息不断发展的过程中,对大多数事物处理的方式都依靠科技信息化,这是因为在进行各项事物的过程中结合相应的科技手段不仅仅能够使得操作人员的工作更加便利,而且对于事项的准确进行也起到非常重要的作用。这一点对我国目前进行油气资源提炼上也能够得到表达。在我国对油气资源的提炼主要采用催化裂化的装置,但是这种装置在运行的过程中还存在着一些问题,这就需要采用大数据技术手段对其中可能出现的问题进行有效地控制,这一技术手段在国外大多数国家都得到广泛地应用。但是由于我国自身的科技发展水平还有很大的缺失,导致大数据技术手段在我国石化行业还没有得到良好的使用。
一、在催化裂化装置上应用大数据技术的思路
由于催化裂化装置在进行石化工作的时候经常会出现一些问题,这些问题的出现就会导致整个装置不能得到合理的使用。需要对这些问题进行有效地分析和控制,从根本的角度上保证催化裂化装置在进行石化工作时候发生问题的概率有一定的降低。而在社会上得到广泛应用的大数据技术对催化裂化装置使用过程中能够进行远程监控和诊断,这就大大地减少了装置在使用过程中发生问题的可能性。
总的来说要想保证催化裂化装置能够得到良好的开展,就需要对装置上的大数据平台进行全面地建设。在对这项技术手段研究中发现对大数据平台的建立可以采用分布式技术架构进行,这样对催化裂化装置的监督和控制能够更加顺利地进行。对平台的建设在社会时间研究中主要可以分成3个部分。以下笔者就对这3个部分进行详细地研究。
二、具体的研究内容
1.数据整定及样本数据模式开发
在催化裂化装置运行过程中发生的各项问题主要是通过数据整定进行分析的,其根本原理在于通过大数据技术对政治进行有效地观察,将运行过程中的相应数据进行合理地整定。一般来说问题的最后表现形式应该是以样本的形式存在。而对样本收集形成的一个集合体中还存在着基础样品库和专题样品库,这两个层面对催化裂化装置进行分析都起到非常重要的作用。而且在对催化裂化装置进行控制和监督的过程对其中发生的问题也会进行详细地分类,这样做能够减少对问题解决的时间,对提升催化裂化装置的运行效率起到不可忽视的作用。
2.大数据分析算法库开发
在社会实践研究中清楚地发现,大数据对催化裂化装置进行监督和控制的根本原理在于通过分析算法库进行的。这也从根本的角度上说明分析算法库在大数据分析中的作用。这项技术手段对整个装置引擎能够进行有效地计算,而且分析算法库内部包含的种类也非常广泛,每一种算法针对不同的装置问题,这就说明了开发大数据分析算法库对解决装置中出现的问题起到非常重要的作用。
3.分析模式应用
大数据内部的分析模式对整个催化裂化装置中出现的问题在进行有效地监督之后,还可以实现问题的可视。这样对施工操作人员在对问题进行处理和解决的过程中发挥非常重要的作用。而且在装置发生问题的时候通过可视性操作可以有针对性地对问题进行解决,对大数据技术在催化裂化装置中的合理应用奠定坚实基础。
三、应用模型开发
(一)报警分析模型
利用工厂生产的历史数据进行数据挖掘,生成各个位点之间的相关性与因果链路,并以因果链路图为指导完成工厂生产异常工况的预警。此外,对中国石化各套催化裂化装置的报警数据进行筛选,利用报警管理算法降低报警数量。生成各个位点间的相关性与因果链路主要通过传递熵算法,需要选取历史数据中各个位点平稳的一段数据作为算法输入,计算后得到位点两两之间的相关性大小(以传递熵值大小表示)。根据对相关性的显著性水平检验判断筛选出各位点之间的因果关系,并以此为依据做出因果链路。
(二)结焦诊断模型
模型收集催化装置结焦前后历史数据,利用非线性主成分分析方法,结合实验室的结焦机理研究,确定结焦关键性参数,综合利用神经网络算法等预测方法对结焦趋势进行长周期预测及优化,并通过聚类算法及互相关函数等时滞分析算法建立关键性参数与大量操作数据、原料性质数据、装置数据等工业数据之间的关联关系网,并提出具体可执行的减缓结焦的方案。
四、信息可视化
信息可视化旨在进行大规模信息资源的视觉呈现,利用图形图像方面的技术与方法,帮助操作人员理解和分析数据,囊括了数据可视化、信息图形、知识可视化、科学可视化以及视觉设计等方面。可视化提供了深入洞察大数据的手段,将拟采用Processing语言,引入电子艺术的概念,辅助进行系统开发的可视化设计。
结语
综上所述可以清楚地看出在石化工程中最常用的装置就是催化裂化装置,但是这项装置在使用过程中经常会出现一些问题,这就需要应用大数据技术。大数据技术在工业化生产中进行全面研究,在大数据工业化应用中可以发现这项技术对社会经济的提高起到非常重要的作用,也说明大数据技术在石化行业中的使用值得推广。
参考文献