时间:2023-07-04 16:29:01
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据分析的方法范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
企业数据分析编写过程中,常用的分析方法有对比分析法、趋势分析法、结构分析法和综合分析法等。本文结合工作实际,对如何运用这四种基本分析方法谈点想法。
对比分析法
所谓对比分析法,是指将两个或两组以上的数据进行比较,分析它们的差异性,从而揭示这些数据所代表的事物的发展变化情况和规律性。对比分析法是比较研究的一种方法,在企业数据分析中的应用十分普遍。它的特点是,通过比较分析,可以非常直观地看出企业某方面工作的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。
在实际应用中,企业数据的对比分析,一般有以下几种具体情况:
一是将企业当年的数据与历年(去年或前几年)的数据进行对比分析,目的是为了搞清楚与去年或前几年相比,企业某一方面或某些方面的发展变化情况。比如,某公司2006年利润100万元,2007年利润115万元,年增长率为15%。通过这种对比,我们就可以公司利润的变化情况有一个更直观、更清楚的认识。当然,在许多时候,这种对比分析不会局限在某一个数据,而是一组数据。比如,在对企业当年的利润与去年利润进行对比分析的同时,还可以将产量、销售量、销售额、成本、税金、市场占有量、占有率等指标进行对比分析,从而更全面了解掌握企业的发展现状。
二是将本单位数据与同行业(外单位、同行业平均水平)的数据进行对比分析,目的是为了搞清楚与外单位、同行业平均水平,本单位某一方面或各方面的发展水平处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。比如,2005年,某发电厂供电煤耗为340克/千瓦时,当年全国火电行业平均煤耗指标为310克/千瓦时,该发电厂的实际煤耗指标比全国火电行业平均煤耗多了30克/千瓦时。通过这样的对比分析,我们可以看出,该发电厂在能耗方面存在着比较突出问题,如何节能降耗应该成为企业下一步重点关注的一个工作内容,也是提高企业经济效益的一条重要途径。
为了一目了然地看出数据对比的直观效果,对比分析一般可用柱式图表表示。
趋势分析法
所谓趋势分析法,是指通过对某一个或几个数据在一定阶段的变化情况进行分析,从而发现该数据所代表事物的发展趋势和规律,并可进一步分析形成这种趋势的原因,为企业领导决策提供依据和参考。趋势分析法实际上是一种历史研究的方法,在企业数据分析的编写中,主要用来表示企业某一方面或某些方面的工作在一定时期内的发展趋势和规律。其特点是对某一时期的某一数据进行持续性考察,进而得出趋势性的结论。
一般说来,对数据进行趋势分析的结果不外乎以下四种情况:
一是某项数据的变化呈逐年加大的趋势,称为上升趋势。比如某企业利润额:2001年为150万元、2002年173万元、2003年220万元、2004年360万元、2005年500万元。从对这组数据的分析中可以得出结论:该企业的利润呈逐年上升的趋势。
二是某项数据的变化呈逐年减小的趋势,称为下降趋势。例某企业产品的市场占有率:2001年为30%、2002年24%、2003年15%、2004年9%、2005年6%。从对这组数据的分析中可以得出结论:该企业产品的市场占有率呈逐年下降的趋势,说明该产品的市场竞争力正在下降,企业应该对该产品进行升级换代,或者开发生产新的产品。
三是某项数据或上升或下降,每年都有较大变化,称为震荡趋势。比如某企业的经营成本:2001年为50万元、2002年83万元、2003年61万元、2004年46万元、2005年103万元。从对这组数据的分析中可以得出结论:该企业每年的经营成本变化较大,呈震荡趋势,说明企业在控制经营成本方面还要进一步采取措施。
四是某项数据几年来基本不变,或变化很小,称为稳定趋势。例如某企业的人均产值:2001年为60万元、2002年63万元、2003年61万元、2004年62万元、2005年63万元。从对这组数据的分析中可以得出结论:该企业的人均产值每年变化不大,呈稳定趋势。
为了更形象地看出数据在一定时期内的变化轨迹,对数据的趋势分析一般可以用曲线图表表示。
结构分析法
所谓结构分析法,就是通过分析数据的构成情况,即分析构成某一数据的各子数据的情况和权重,从而揭示构成某一事物的各方面因素在其中的作用大小和变化情况。结构分析法也是常用的企业数据分析方法,通过这一分析方法,有利于我们发现和把握事物的主要矛盾和矛盾的主要方面,对企业而言,可以据此确定工作重点或经营的主攻方向。
在实际工作中,当我们需要对企业的某一数据作深入分析时,常常需要用到结构分析法。例如我们分析某供电局利润的结构情况:2007年,企业利润为1000万元,其中主业占80%、三产占20%。这就是结构分析的方法,从中我们就可以清楚地知道,主业和三产对企业利润的贡献比例。在这个基础上,我们还可以作进一步的分析,在200万元的三产利润中:火电建设公司占35%、电力设计院占30%、电缆厂占15%、电表厂占10%、电杆厂占5%、宾馆占5%。从而我们可以看出火电建设公司和电力设计院两家对三产利润的贡献率达到了65%,是发展三产的主力军。从供电局的角度而言,抓好三产工作,重点是要抓好火电建设公司和电力设计院的工作。
为了直观地反映某一数据的构成情况,结构分析法一般采用圆饼图表来表示分析的结果。
综合分析法
在编写企业数据分析时,往往不是单一地使用一种数据分析方法,为了使数据分析更透彻、更深入,更多时候我们都需要采用综合分析的方法。所谓综合分析法,就是将以上两种或两种以上的分析方法结合起来使用,从而多角度、多层次地分析揭示数据的变化、趋势和结构情况,以增加数据分析的深度。
综合分析法在具体应用中,有以下几种情况:
一是对比分析与趋势分析相结合的方法。就是通过对两个或两组以上的数据在一定阶段的变化情况进行比较分析,从而发现数据所代表事物的发展趋势、差别和关系,并可进一步分析原因,为企业领导决策提供依据和参考。比如,我们可以使用这一方法来分析一定阶段企业利润和成本的变化和相互关系。再如,我们将“十五”期间本企业的利润指标与其他企业的利润指标进行比较分析,所应用的也就是对比分析与趋势分析相结合的方法。
二是对比分析与结构分析相结合的方法。就是对两个或两组以上的数据的构成情况进行分析比较,从而可以看出构成这两个或两组以上的数据的各种因素的差异性,以此剖析产生这种差异的原因,并提出相应的对策措施。比如,2006年,A供电局利润500万元,B供电局利润700万元。如果只采取对比分析的方法,我们获得的结论就是:“B供电局利润比A供电局多200万元”。结合结构分析:A供电局利润500万元中,主业为450万元,三产为50万元;B供电局利润700万元中,主业为560万元,三产为140万元。由此看出,A、B供电局在主业利润差距并不大,差距主要在三产上。因此,发展三产应成为A供电局利润增长的主要着力点。
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理论[1]是波兰数学家Z.Pawlak于1982年提出的,它建立在完善的数学基础之上,是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息,使得粗糙集理论成为研究热点之一,被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。
属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中,大致可以分为两类:一类是基于信息熵的启发式算法[4],这类算法往往不能得到系统的所有约简.另一类是基于区分矩阵和区分函数构造的算法[5],这种算法直观,易于理解,能够计算出所有约简。但在区分矩阵中会出现大量的重复元素,造成时间和空间的浪费,从而降低了属性约简算法的效率。
本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下,逐个约去冗余的属性,直到不再有冗余的属性,此时得到的属性集是最小属性集,即为约简。该算法简单,能够求出所有约简,不会出现区分矩阵中大
量的重复元素,从而提高了属性约简的效率。
2 粗糙集概念
定义2.1设U为所讨论对象的非空有限集合,称为论域;R为建立在U上的一个等价关系族,称二元有序组S=(U,R)为近似空间。
定义2.2令R为等价关系族,设P?哿R,且P≠?I,则P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),即有:[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。
定义2.3称4元有序组K=(U,A,V,f)为信息系统,其中U为所考虑对象的非空有限集合,称为论域;A为属性的非空有限集合;V=∪Va,Va为属性a的值域;f:U×AV是一个信息函数,?坌x∈U,a∈A,f(x,a)∈Va。对于给定对象x,f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U,A)。若A=C∪D且C∩D=?I,则S称,为决策表,其中C为条件属性集,D为决策属性集。
显然,信息系统中的属性与近似空间中的等价关系相对应。
定义2.4设K=(U,A,V,f)为信息系统,P?哿A且P≠?I,定义由属性子集P导出的二元关系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。
定义2.5称决策表是一致的当且仅当D依赖于C,即IND(C)?哿IND(D),否则决策表是不一致的。一致决策表说明:在不同个体的条件属性值相同时,他们的决策属性值也相同。
定义2.6设K=(U,A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集,则称P为A的一个约简,或称为信息系统的一个约简。
定义2.7设K=(U,CUD)为一个决策表,其中C为条件属性集,D为决策属性,若P?哿C为满足POSC(D)=POSP(D)的极小属性子集,则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。
定义2.8数据分析方法对于信息系统K=(U,A),逐个移去A中的属性,每移去一个属性即刻检查新得到的属性子集的不可分辨关系,如果等于IND(A),则该属性可被约去,否则该属性不可被约去;对于决策表K=(U,CUD),逐个移去C中的属性,每移去一个属性即刻检其决策表,如果不出现新的不一致,则该属性可被约去,否则该属性不可被约去。
3 基于数据分析方法的属性简约算法
3.1 算法思路
利用函数的递归调用,逐个判定信息系K=(U,A)中属性a(a∈A),若IND(A)=ND(A-{a}),则a可以约去,A‘=A-{a},否则a不可以约去,继续检查A‘中的每个属性是否能被约去,此过程一直进行下去,直到出现某一属性子集中的每个属性都不可约去为止,此时该属性子集即为所求的属性简约。对于决策表,每次检查是否增加了不一致的决策规则,作为是否约去属性的依据。
算法如下:
输入:信息系统K=(U,A)。
输出:K的属性约简。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基数//
for j=i+1to|U|
begin
r=|R|//|R|表示属性个数//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被约去,return0
end
a可以被约去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示属性个数//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被输出)then
输出A中所有元素//flag≠0,说明A中所有元素不可移去,且不会被重复输出//
End
end
以上给出的函数是求解信息系统的属性约简算法;对于决策表,只要将Match(A’)函数中的if语句的条件换成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是条件属性个数,ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表,对非一致决策表,算法类似,也就是逐个移去属性并检查决策表是否出现新的不一致,作为约去此属性的依据。
4 举例
文献[7]中决策表1,a,b,c,d,e是条件属性,g是决策属性,求出的约简是{a,b,d}
应用本算法,求得的属性约简为{a,e}和{a,b,d},得到决策简化表2和表3。
表1 决策表表2简化表表3简化表
如果将决策表表1看作一信息系统,运用本算法,求得的属性约简有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 结束语
本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的,具有直观、易于理解和完备性的特点。当属性和对象都较少时,效率较高,但当属性和对象较多时,计算的复杂度较高。实例表明,该算法是有效的。
参考文献:
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
分析网站流量这是首要工作,如果是网站建设初期,那么此时的流量分析就只要记住网站登陆搜索引擎后的流量基数即可。如果是网站建设中期的话,就要记录网站流量一周的平均值,如果是网站建设后期的话,就要记录网站流量的阶段性波动值!记录好了流量值之后,就可以很好的计划出下一步优化推广的流量值了。
网站优化数据分析方法二:关键词分析
网站关键词分析也是网站优化的重要工作之一!分析现在网站关键词的布局,分析网站有流量的关键词,分析网站还没有覆盖的与网站业务相关的关键词,分析出网站主关键词的排名情况,分析关键词的设计是否合理。分析顶级关键词是否占据了搜索引擎首页的排名,分析搜索关键词的质量高不高,与网站业务的相关度如何?!分析关键词转化率如何等等。
中图分类号:TP274文献标识码:A文章编号:1009-3044(2008)15-20ppp-
The Research Content And Data Analysis Methods On the Gene Regulatory Networks
GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1
(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)
Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.
Key words:gene regulatory networks;Self-organizing Map;machine learning
基因调控网络是计算机科学、数学、信息学向分子生物学渗透形成的交叉点,是运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的基因网络关系。作为一种系统的、定量的研究方法建立在包括分子生物学,非线性数学和程序算法设计等知识等基础上,运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段,整合已有的实验数据和知识,构建生物基因调控网络,从整体的层次,了解细胞的功能;从整体的角度,阐述基因参与的生物调控过程,在全基因组水平上以系统的、全局的观点研究生命现象及其本质,是后基因组时代研究的重要内容。
1 基因调控网络概念
基因调控网络本质上是一个连续而复杂的动态系统,即复杂的动力系统网络。
1.1 基因调控网络的定义
生物体任何细胞的遗传信息、基因都是同样的,但同一个基因在不同组织、不同细胞中的表现并不一样。一个基因的表达既影响其它的基因,又受其它基因的影响,基因之间相互促进、相互抑制,在特定的细胞内和时间下综合环境等因素这样的大环境中呈现活化状态,构成一个复杂的基因调控网络。
1.2 基因调控网络的特性:
基因调控网络是连续的多层次动力系统模型,具有稳定姓、层次性、复杂性、动态性等。
1.2.1 复杂性
生物具有大量的基因,诸多基因组成各个模块,不同的基因网络模块可以在不同层次上发生相互作用,同一个基因可能参与各种不同的分子机理,使得基因网络有着高度的复杂性。
1.2.2 层次性
基因调控网络具有一定层次结构,按照调控元件、motif、模块和整个网络的四层结构,将各个节点有规律的来接在一起。调控元件分为顺式(cis-)和反式(trans-)两种类型, 分别表示受调控基因的结合位点DNA 序列和结合在该序列上对基因起激活或者抑制作用的转录因子。Motif 和模块都是由基因集合构成的调控模式, 是分析网络局部特征和网络构成以及研究调控机理的重要结构。
1.2.3 动态性
生物过程是动态的,用来理解生物过程意义的基因调控网络自然就动态存在。基因调控网络是随着生物过程的动态发生而具有动态的特性,不同条件、不同时间的基因调控网络是不同的。
1.2.4 稳定性
基因调控网络的稳定性体现在生物体缓解突变的影响方面,功能上无关基因之间的相互作用可以抵抗系统突变;一个基因在突变中丧失的功能,有另外一个或更多具有相似功能的基因所补偿,以减弱该突变对表型造成的影响,保持生物进化中的稳定性。
1.2.5 功能模块性
基因调控相关的生物功能主要是通过网络模块来实现的,有适当尺度下的动力学特征和生物学功能解释的模块是由多个motif 构成的,实现相同功能的基因或蛋白质存在拓扑结构上是相关的。
1.3 基因调控网络研究的目的
通过对基因调控网络的研究,识别和推断基因网络的结构、特性和调控关系,认识复杂的分子调控过程,理解支配基因表达和功能的基本规则,揭示基因表达过程中的信息传输规律,清楚整体的框架下研究基因的功能。
2 基因调控网络研究内容
基因调控网络的研究是假设两个基因列谱相似,则这两个基因协作调控,并可能功能相近,有同样表达模式的基因可能有同样的表达过程。基因调控网络主要在三个水平上进行:DNA水平、转录水平、翻译水平。DNA水平主要是研究基因在空间上的关系影响基因的表达;转录水平主要研究代谢或者是信号转导过程决定转录因子浓度的调控过程;翻译水平主要研究蛋白质翻译后修饰,从而影响基因产物的活性和种类的过程。基因转录调控信息隐藏在基因组序列中,基因表达数据代表基因转录调控的结果,是转录调控信息的实际体现。
基因调控网络试图从DNA微阵列等海量数据中推断基因之间的调控关系,对某一物种或组织中全部基因的表达关系进行整体性研究。采用带有反馈回路的基因网络,首先是按照同步或反同步表达,以及表达强度的变化,系统地识别各基因的特点,再用聚类的方法将各基因归类,在此基础上构建基因调控网络,分析相关控制参数.利用其本身或调节位点或拓扑结构进行不同的研究。
一、SOM算法介绍
由Kohonen提出的自组织映射(SOM)的神经网络是神经网络中适合用于对数据进行分类的有效方法。SOM神经网络包含一个输入层和一个输出层,组织成一个二维的网格结构(图1.1)。该网络能够从任意一个随机选择输入的结点开始最终形成一个拓扑结构的映射,这个映射反映了输入模式的内在的关系。但是运用SOM有一些参数的限制,首先需要指定类别数目,对映射空间结点进行权值的初始化等。如(图1.1)所示,SOM网络是一个的映射,如果这个神经元被安排在一个平面网格上面的话,这个神经网络就称为二维神经网络,因为这个网络将一个高维的输入向量映射到一个二维的平面上面。给定一个网络,输入向量是一个维的向量,相应的第个突触向量的第个元素与输入向量的第个元素相连,这样,一个维的突触向量就和第个神经元实行连接。
图1.1 SOM网络的基本结构
SOM算法描述如下:
(1)令网络学习次数,赋予初始化权值向量一个小的随机向量值,对拓扑邻域()、学习率()进行初始化,设置网络总的学习次数()。
(2)当学习次数()小于总的学习次数()时,重复步骤3至步骤6。
(3)随机选一个输入向量进入网络进行训练。
(4)确定获胜神经元,相应的权值向量为与输入向量距离最短的向量,成为获胜神经元,输入向量与获胜神经元的最短距离为,定义如下:
(1.1)
(5)按照下式更新获胜神经元及其邻域内神经元权值向量:
(1.2)
与函数定义如下:(1.3)
(6)令,如果,回到第(3)步继续训练,否则结束训练。
二、数值模拟计算
本文以HUGEindex数据库中人7000多条基因在19个正常组织中的表达情况这19个组织中表达的基因为样本对其进行分析。不同组织下的全基因表达数据构成了一个7070x59的数据矩阵,其中每一个元素表示第个基因在第个组织中的表达水平值,行向量代表基因在19个人组织中的表达水平,成为基因的表达谱,列向量代表某一组织的各基因的表达水平。
(1.4)
本文运用SOM方法对人基因19个组织的59个样本进行聚类,SOM网络的拓扑结构见(图1.2)及参数选择见表(表1.1)。
图1.2 样本聚类SOM网络结构图
上图中,根据Genechip得到的人体19个组织的59个微阵列数据所得到的信息,我们采用4x5的二维拓扑结构的SOM网络对人体组织样本进行分类(其中第(4,5)个结点为空),图中每个结点的位置(结点位置用与输入模式维数相同的向权值向量表示,初始权值由系统自动产生)为各个结点权值尺度化之后所得到的位置。
三、结论
通过分类可以将芯片实验的59个样本按照人体组织类别分为19个类别,并且与采用层次聚类法所得结果进行比较,可以看出自组织映射的聚类方法与层次聚类方法比较,可以看出采用SOM网络聚类方法比层次聚类得到的结果更为明确,其分类正确率达到了92.2%,证明了SOM方法是有效的。
参考文献:
[1]孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,2005:282-285.
[2]许东,吴铮.基于matlab6.x的神经网络系统分析与设计[M].西安电了科技大学出版社,2002.
[3]阎凡平,张长水.人工神经网络与模拟进化计算[M].北京:清华大学出版社,2005.:11-34,360-395.
一、数据统计分析的内涵
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
四、多元统计分析方法
(1)相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是,事物之间有相关关系,不一定是因果关系,也可能仅仅是伴随关系;但如果事物之间有因果关系,则两者必然存在相关关系。(2)主成分分析。在大部分数据统计分析中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分分析就是利用降维的思想,把多指标转化为几个综合指标的多元统计分析方法,很显然在一个低维空间识别系统要比在一个高维空间容易的多。(3)因子分析。因子分析的目的是使数据简单化,它是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子,对变量进行分类。这些因子是不可观测的潜在变量,而原先的变量是可观测的显在变量。(4)聚类分析。在市场调研中,市场细分是最常见的营销术语之一,它按照一定的标准将市场分割为不同的族群,并使族群之间具有某种特征的显著差异,而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法,它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是,对所研究的对象进行了全面的综合分析,归类比较客观,有利于分类指导。(5)判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下,遇到新的样本,则可利用此法选定一种判别标准,以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方,而在判别分析中,至少要有一个已经明确知道类别的“训练样本”,从而利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是,判别分析也是利用距离的远近来把对象归类的。
参考文献
doi:10.3969/j.issn.1006-1010.2015.10.004 中图分类号:TN929.53 文献标识码:A 文章编号:1006-1010(2015)10-0022-06
引用格式:李梅,杜翠凤,沈文明. 基于大数据分析的移动通信网络规划方法[J]. 移动通信, 2015,39(10): 22-27.
1 引言
随着移动通信网络的发展和移动互联网业务的增长,移动通信网络的各类相关数据呈爆炸式增长。借助大数据强大的数据处理能力和数据挖掘技术,通过分析用户行为、基于用户价值和用户感知规划设计网络,成为运营商提升网络竞争力的关键环节。
传统的移动通信网络规划需要借助海量的测试,分析总结网络存在的问题,再基于对市场和业务的经验预测,制定规划方案。该过程中,测试结果的普遍性和业务预测的准确性制约了规划方案的合理性,高昂的测试成本和冗长的测试工期影响了规划效率。
基于此,提出了基于大数据分析的移动通信网络规划方法,通过大数据工具分析海量数据,实现用户业务趋势预测、用户价值挖掘、用户感知评估分析,进而能够以用户为中心、面向具体业务场景展开通信网络规划。同时,该方法能够综合分析CQT(Call Quality Test,呼叫质量拨打测试)、DT(Drive Test,路测)等多种前端测试数据和信令数据、位置数据、用户业务信息等大量后台数据,克服单一数据分析的局限,不仅能够大规模降低测试成本、缩短方案制定时间,而且还提高了方案的科学合理性。
2 基于大数据分析的移动通信网络规划
体系
如图1所示,本文提出的移动通信网络规划体系可分为数据层、管理层、业务层和展示层,各层均与大数据密切相关。
2.1 大数据数据层
该层采用HDFS数据库和Hbase数据库管理通信网络相关的结构化、非结构化数据。数据主要来自于网管侧和计费侧,包括:核心网管数据、详单数据、网优平台数据、投诉数据、用户信息表等,这些数据经过预处理、算法处理后,按照标准数据格式存放在Hbase里面。
2.2 大数据管理层
该层基于Hadoop管理平台建立特定的数据预处理脚本和算法模型,实现对用户价值和用户感知数据的分析管理。
数据的预处理主要包括确实数据处理以及噪音数据处理。为分析用户价值和用户感知,本系统用到的大数据分析算法模型主要有层次分析法和聚类阈值法。
2.3 大数据业务层
该层是对用户价值和用户感知业务实施梳理与管理,对影响用户价值和感知业务的各维度进行分析并找出其关联关系。例如:用户价值与收入、终端、业务、套餐的各维度关联关系的梳理;用户感知与回落之间的关系梳理等。
2.4 大数据展示层
该层是以图表进行展示数据分析结果,辅助开展通信规划,重点是对用户价值与感知进行地理化展现、相关图表的输出。
3 用户价值与感知评价分析方法构建
3.1 用户价值评价体系构建
通信领域中的用户价值评估是一个多层次、多因素的问题,需要针对相关的业务构建评价指标体系,能够全面考虑用户的收入特征、层次结构、业务特征相互联系。
(1)建立用户价值评价体系结构模型――AHP分析法
采用AHP法评价用户价值时,首先是把用户价值进行梳理,建立出以业务为基础的层次结构模型,然后将用户价值分解成收入、套餐、业务和终端4部分。具体如图2所示:
用户价值评价模型的层次一般分为:
最高层:用户价值。
中间层:用户潜力和消费能力。
最底层:用户潜力包括用户的套餐指标与终端指标;消费能力包括用户的收入指标与业务指标。
基于以上的维度进行评分,可将评分落到各基站扇区,根据评分做出扇区化的图层,并将网络的价值扇区进行地理化呈现。
(2)确定用户价值评价模型各指标权重
以AHP法确定用户价值评价模型各指标的权重分为以下两步:
首先,构建递阶层次结构。如图2所示,目标层是用户价值,该层是建立评价模型的目的和追求的最终结果。一级指标层为{用户潜力,消费能力};二级指标层包括套餐、终端、收入、业务等。
其次,要建立判断矩阵。根据模型同一层级的相关指标体系指标可构造判断矩阵,将同一层次的指标元素按照其上层指标元素的重要性进行两两比较,判断相对重要程度。一般都会邀请通信专业人士和资深人员组成专家小组,依据他们的通信专业知识和研究经验进行评估,构造判断矩阵。
(3)综合权重计算用户价值
针对移动通信系统,服从一定社会(地理和逻辑)分布的具有不同消费能力、行为和移动特征的客户群体,在通信过程中形成的具有运营价值的业务活动区域叫做价值区域。
价值区域可以采用收入、终端、用户、业务(数据和语音)“四维度”,基于各自评分标准进行评分;将评分落到各基站扇区,再根据评分做出扇区化的图层,就可以将网络的价值扇区进行地理化呈现。
根据AHP法得出的权重以及各维度的评分标准,可以算出各小区的综合评分;再根据综合评分,可定义TOP30%为高价值扇区,TOP30%~TOP50%为中价值扇区,TOP50%~TOP80%为一般价值扇区,TOP80%以上为低价值扇区;最后,根据高低价值区域的评定,可以将网络的价值扇区进行地理化呈现。
该价值分析结果在规划中可进一步拓展到区域层面、微网格层面,从而实现网络建设目标精准定位,以更好地指导网络资源投放。
3.2 用户感知分析方法
(1)建立用户感知评价体系结构模型
如图3所示,与用户价值评价体系结构模型建立的方法相似,仍采用AHP分析法,用户感知评价模型可分为:
最高层:用户感知。
中间层:网络覆盖和网络质量。
最底层:网络覆盖主要为MR(Measurement Report,测量报告)覆盖指标;网络质量包括HSDPA(High Speed Downlink Packet Access,高速下行分组接入)用户速率与3G回落指标。
(2)确定用户感知评价模型各指标权重
与用户价值评价模型各指标权重计算方法相似。
首先,构建递阶层次结构。如图3所示,目标层是用户感知,该层是建立用户感知评价模型的目的和追求的最终结果。一级指标层为{网络覆盖,网络质量};二级指标层包括MR覆盖指标、HSDPA用户速率、3G回落指标等。
其次,建立判断矩阵。由专家根据经验确定权重。
(3)综合权重计算用户感知
用户感知可以采用MR覆盖指标、HSDPA用户速率、3G回落指标“三维度”,按照评分标准进行评分,再将评分结果落到各基站扇区,做出扇区化图层实现网络感知的地理化呈现。
3.3 价值与感知联合评估
为了更好地指导网络规划建设,可将用户价值分析方法和用户感知分析方法联合起来,建立4×3的价值与感知联合评估矩阵,针对不同矩阵中的网格分别制定对应的资源投放策略。
价值与感知联合评估矩阵中,不同网格的资源投放策略建议如表1所示(红色、绿色区域为重点投资区域)。
4 应用案例
在某运营商本地网的无线网络规划中,运用上述的分析方法对2014年6月的7 000万条语音原始详单、5亿条数据原始详单、238万条用户原始信息详单进行了大数据分析。
4.1 价值区域分析
(1)终端分布分析
网上现有用户约110万户,其中支持3G业务的终端56万户,占比50.7%,仅支持2G业务的终端54万户,占比49.3%;约一半用户终端不支持3G业务,3G终端使用者中有一半终端使用的是2G套餐。
(2)业务分布分析
现网用户的业务分布统计情况是:语音业务63%承载在2G网络上,37%承载在3G网络上;数据流量2G承载24%,3G承载76%。考虑到3G网络的业务体验更好,且网络资源更为丰富,应通过各种措施加快业务的迁移,促进2G/3G网络的融合发展。
(3)套餐分布分析
现有用户的套餐数据统计结果如图4所示:
从图4统计分布可知,低端用户贡献了61%的收入,但占用了73%的流量资源和65%的语音资源。低端用户单位收入消耗的网络资源更高,说明高流量不一定带来高收入;市场营销策略是影响用户规模、用户行为以及网络资源使用的主要因素,为此,建议规划与市场应紧密结合,以计划为先、网络先行,市场与建设互相配合、逐步推进。
(4)用户收入分布分析
从用户收入角度分析,结果如表2所示:
从表2统计分析可知,使用2G套餐2G终端ARPU(Average Revenue Per User,每用户平均收入)值低于2G套餐3G终端,3G套餐2G终端ARPU值低于3G套餐3G终端,3G套餐ARPU值整体高于2G套餐,3G终端ARPU值整体高于2G终端。
从以上“收入、套餐、终端、业务”四维度进行扇区化统计,各扇区统计结果如图5所示:
从图5统计分布可知,高价值小区数占比为30%,收入占比达到72%;中价值小区数占比为20%,收入占比达到16%;高/中价值全网小区数占比为50%,收入占比达到88%,高价值小区各维度占比均接近70%,各维度评估合理。
4.2 用户感知分析
(1)用户速率分析
网络单用户下载速率统计分布如图6所示:
从图6统计分布可知,全网速率大于1Mbps的扇区占比为90.3%,需重点关注低于1Mbps区域的速率改善。
(2)3G用户回落分析
3G用户回落指标统计分布如图7所示:
从图7统计分布可知,全网回落评估指标差的扇区占比为23.2%,需重点关注回落评估指标差的扇区的深度覆盖问题。
(3)用户感知MR覆盖分析
对MR数据中扇区级的RSCP(Received Signal Code Power,接收信号码功率)进行统计,其分布如图8所示:
从图8统计分布可知,全网MR覆盖指标差的扇区占比为20.87%,需重点关注MR覆盖指标差的扇区的深度覆盖问题。
4.3 价值与感知联合分析
综合以上价值区域及用户感知分析,按照专家法取定的权重对各维度指标进行综合评分,得到全网各小区的综合评估分析结果,统计各类小区占比如图9所示:
从图9统计分布可知,全网综合评估高/中价值扇区中感知中/差的扇区占比为34%,这部分区域将是本次规划中需要重点投入网络资源的区域。具体分布如图10所示:
5 结束语
综上所述,通过对现网用户的收入分布、终端分布、套餐、业务、用户感知等多维度分析,可精准定位高价值扇区及高价值区域,以进一步指导网络的精准化规划设计,引导投资的精准投放。除此之外,基于用户价值和用户感知的多维度分析还可以应用于市场营销、渠道规划等领域。
基于大数据的价值分析对运营商而言,是市场驱动、精细化管理的重要途径,有利于改变传统的经营模式,改善用户感知、增强自身竞争力,从而能够有效应对来自于虚拟运营和OTT业务的冲击。
参考文献:
[1] 黄勇军,冯明,丁圣勇,等. 电信运营商大数据发展策略探讨[J]. 电信科学, 2013(3): 6-11.
[2] 刘旭峰,耿庆鹏,许立群. 运营商获取移动互联网用户价值的策略研究[J]. 邮电设计技术, 2012(8): 9-12.
[3] 袁首. 多网协同下的电信无线网络规划方法研究[D]. 北京: 北京邮电大学, 2012.
[4] 曹艳艳. 3G无线网络规划[D]. 济南: 山东大学, 2005.
[5] 李勇辉. 大数据概念辨析及应对措施[J]. 互联网天地, 2014(1): 11-14.
[6] 龙青良,李巍,吕非彼. 基于用户感知的WCDMA无线资源效能评估方法研究[J]. 邮电设计技术, 2014(9): 33-39.
[7] 朱强. 3G无线网络规划和优化的探讨[J]. 通信世界, 2005(30): 57.
[8] 任毅. 3G无线网络规划流程[J]. 电信工程技术与标准化, 2005(11): 15-18.
0.引言
为了评测区域内电网调度能力,根据调度能力评测结果,调整输变电调度方案,提高变压器等主要设备的可靠运行,合理利用电网中各项资源和设备。本发明的目的是提供一种基于计算机实现的评测电网调度能力的方法,该方法通过对电压、有功功率、无功功率的分析,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平。
1.大数据分析评测电网的现状
随着我国城市化的发展逐渐加快,我国对电力的需求也在逐渐的增多,未来十几甚至几十年,电力需求的增长主要集中在城市地区。这也就对我国的电网带来很大的挑战,城市电网是城市的重要基础设施,也是电力网的重要组成部分。建设好城市电网对满足城市经济发展、人民生活水平提高具有重大意义。但是,由于我国长期以来收着“重主网、轻配网”的思想,导致我国很长一段时间内,对电网的投资非常的少,城市的电网发展普遍落后于高压电网[1]。导致我国在很长一段时间内,处于用电不平衡的情况,很多的地方在年前或者重大节日之前就会出现的停电的现象。
2.大数据分析评测电网调度能力的具体方法
2.1获取两卷变或三卷变高低压侧的监控数据
该方法主要是用根据变压器端的终端设备,来获取的,首先通过各地市部署的调度EMS系统,将变电站中各变压器的运行情况准确的监控,通过变压器内的监控元件,对变压器的的运行情况、采集电压、有功负荷、无功负荷等检测数据,按指定频率采集。然后将采集的数据通过生产区的专用网络进行传输,通过生产区的安全交换机制放置到电力系统信息内网,开始清洗、筛选,去除设备检测的异常数据,保留有效数据用于负载率分析该评测电网调度能力工具通过在信息内网中载入电网运行的监控数据[2]。
2.2得到变压器实际功率与额定功率的比值
通过对变压器内高低压侧的检测数据,计算变压器实际功率与额定功率的比值,负责率分析,接下来对采集的调度EMS系统的电网运行数据进行计算,负载率有两种计算方法,一是根据选定的地区、时间段,使用公式二“有功负荷与无功负荷平方根/容量”计算每个时点该地区各个变压器的负载率;二是根据选定的地区、时间段,使用公式“有功负荷/(容量*0.95)”计算每个时点该地区各个变压器的负载率[3]。
2.3计算各个变压器的平均负载率以及平均负载率的平均值
首先要通过选定的地区、时间段,得到该地区在本时间段内各个变压器的平均负载率以及平均负载率的平均值。然后再计算各个变压器平均负载率的均方差,由变压器的均方差,判断选定区域在该时间段的调度运行能力。主变不均衡度分析,根据选定地区和时间段,统计负载率分析结果,得出平均负载率[4]。根据平均负载率计算各个变压器平均负载率的均方差,作为变压器的不均衡度,将结果逐级放大,能够得出变压器、变电站、县公司、市公司乃至网省公司在该时间段的调度健康情况,从而有效的调整调度策略和计划,改善电网运行情况。
3.大数据分析评测电网调度能力的应用
3.1调度EMS数据采集
要对EMS数据采集,首先要制定EMS系统监控数据的格式,然后加载指定格式的调度数据,其中指定数据额格式要求主要为:(1)按“变电站+地区+变电站电压等级+主变名称+时间”的顺序排序,每小时记录一次,主要记录每个整点、时点的有功、无功负荷该数据容量的单位是MVA,负荷的单位是MW。(2)时间,变电站,地区,变电站电压等级,主变名称,绕组电压,容量,有功负荷值,无功负荷值。(3)变电站的数据采集按照一定的顺序进行,不可以同时多个变电站的数据进行采集。
在这个过程中还要对数据进行“清洗”。清洗的流程为:(1)使用8个逗号作为数据的分隔符,分别隔开不同字段的数据。如果有多余逗号或缺逗号或两个逗号中间为空的行,则该行数据无效。(2)在计算的过程中除了容量、有功负荷值及无功负荷值外,其他各字段如数据超长,则页面抛出提示错误,结束导入。(3)厂站电压等级为110kV的变压器容量小于等于100MVA(系统用户可以在管理端修改此值大小),否则该行数据无效。
3.2负载率计算
负载率计算有两种情况,分别是近似计算和精确计算,其中近似计算效率高,能够很快得到近似结果。但是在常规检查时可使用本公式计算;精确计算算法相对复杂、比较耗时,但是计算准确,通常用于分析调度情况时使用。
简便公式为:
计算要求:
1、选定地区、场站或主变和时间段;
2、根据选定的地区、时间段,使用公式计算每个时点该地区各个变压器的负载率;
3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点,从而判断当前电网的负荷情况。
精确公式:
计算方法:
1、选定地区、场站或主变和时间段;
2、根据选定的地区、时间段,使用公式二计算每个时点该地区各个变压器的负载率;
3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点,从而判断当前电网的负荷情况。
4.结语
该发明可及时调整调度方案,从而均衡电网的运行负荷,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平,对提高大数据分析电网调度能力具有显著的作用。
参考文献
[1]李庚银,罗艳,周明,等.基于数学形态学和网格分形的电能质量扰动检测及定位[J].中国电机工程学报,2012,26(03):25-30.
所谓的交通事故预测是根据已发生交通事故的数据进行统计,在对事故原因进行分析的基础上,探寻事故规律,以针对交通事故做出更为合理的推测和判断。当前,交通事故预测方法相对较为多样,如回归分析、时间序列等,虽然都能对交通事故做出科学合理的决策性指导,但各具优缺点和适用条件,因而有关人员应在遵循交通事故预测思想的基础上,对几种主要预测方法进行分析,确保交通部门人员能够根据实际情况而合理选择交通事故预测方法。
1 交通事故预测思想
交通事故对人类造成的危害相对较大,对人类产生严重的威胁。从我国发展实践中可知,交通事故在一定程度上制约我国经济的发展进程,尤其对人类社会福利、医疗保险等方面的影响较大。据不完全统计,2015年全年间,我国交通事故约为10597358起,死亡人数约为68432人,财产损失高达10亿元以上。可见,交通事故威胁隐患相对较大。交通事故预测能够根据已发生交通事故进行统计、分析、处理,在遵循规律的基础上,对未来可能发生的交通事故作出科学合理的预测,该预测结果以科学逻辑推断为基础。就交通事故原因而言,道路环境、交通条件、车辆、驾驶员等都是影响因素。通过交通事故预测,我国交通部门人员能够对交通事故作出科学合理的判断和制定有效的预防策略,以最大限度降低和消除交通事故隐患。
2 交通事故主要预测方法
2.1 回归分析预测法
回归分析预测法在交通事故预测中的有效应用,主要分为线性回归和非线性回归两种方法。首先,背景交通工程研究所人员提出线性回归分析预测法,通过对自变量和因变量之间关系问题的探讨,对因变量趋势加以预测,其模型为:
Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。
其中X1-X11分别表示临时人口、常住人口、机动车辆、自行车、道路长度、道路面积、灯控路口、交通标志、交通标线、失控部位、交警人数。
其次,英国伦敦大学SemeedR.J教授对欧洲国家十余载的交通事故资料进行研究,提出非线性回归分析预测法。对此,他建立幂函数曲线事故模型,
即:D=0.0003。其中D为交通事故死亡人数;N是机动车保有量;P为人口数量。
回归分析预测法能够对交通事故影响因素间的因果关系加以反应,以达到预测结果的目的,但对变化趋势的反应可能较为迟钝。该预测方法适用于样本量较大、数据波动小和极具规律性的预测实践中。
2.2 时间序列预测法
时间序列预测法主要有两种类型,分别为移动平均预测法和指数平滑预测法。首先,移动平均预测法是比较简单的平滑预测技术,通过计算项数时序平均值,对长期发展趋势变化做出科学合理的预测。内蒙古科技大学韦丽琴、徐勇勇利用时间序列ARIMA模型做出科学合理的预测分析,对交通事故加以预测。其次,指数平滑预测法的通式为:
Ft+1=αxt+(1-α)Ft
时间序列预测法属于定量预测方法,拟合效果良好,但在短期预测中,受诸多因素干扰影响较大,使预测结果具有不确定性。该方法适用于国内县区等区域范围较小的预测实践中。
2.3 灰色马尔科夫链预测法
道路交通系统属于动态时变系统,但影响交通安全的因素多且复杂。在灰色马尔科夫链预测法的指导下,相关人员能够通过灰色预测模型,做出短期预测,以缩小预测区间,提高预测效率。云南交通职业技术学院王刚对灰色马尔科夫链预测法而建立模型,对交通事故进行预测,根据实践可知,基于该模型的预测精确度十分高,取得良好的预测成效。
灰色预测以短期预测为主,马尔科夫链预测以长期预测为主,通过二者结合,可提高预测精度,但如若数据变化大,则灰色模型的吻合度和精度下降。借助该预测方法,能够对状态下的转移规律加以预测,并揭示交通事故时序变化总趋势。
2.4 贝叶斯预测法
贝叶斯预测法主要相对于交通事故中的车速问题而言。在交通事故中,车速是重要影响因素,如若车辆速度过快,则驾驶员反应的时间较少,其应急策略不足,造成重大交通安全隐患。贝叶斯预测法能够对未来交通事故发生的可能性进行预测。该预测方法应用中,必须建立在交通事故和车速有关联的基础之上,有助于交通部门人员更好开展数据统计和交通流进行观测。
2.5 灰关联分析及神经网络预测法
就灰关联分析及神经网络预测法而言,哈尔滨工业大学交通研究所和中国城市规划设计研究院的裴玉龙与张宇提出该方法,旨在通过交通事故影响因素分析,对事故进行进一步解析,并建立合理的模型理论和确定预测指标,对未来交通事故发展趋势加以预测。该预测方法的适应性较强,在我国交通事故预测工作实践中有着较为有效的运用,可解决传统预测方法难以解决的问题,建立在BP网络基础之上,并利用计算机开展辅计算活动。
2.6 多层递阶预测方法
多层递阶预测方法能够规避传统统计预测方法的缺陷,以现代控制理论“系统辨识”为重要基础,对对象的未来状态做科学的预测。动态系统数学模型为:y(k)=。在交通事故预测中,多层递阶预测方法是大数据时代背景下的重要处理方式,有利于增强预测效果。
3 结论
交通部门对交通事故进行合理的预测,有利于提高道路交通系统的安全系数。所以,相关人员合理选择交通事故预测方法具有必要性,为规避交通事故而做出科学合理的决策。目前,使用较多的交通事故预测方法主要有:回归分析预测法、时间序列预测法、灰色马尔科夫链预测法、贝叶斯预测法、灰关联分析及神经网络预测法等,因其各具优缺点和适用条件,因而要求相关人员必须对系列问题进行深入探究,确保公路交通事故预测的有效性。
参考文献
[1]李景文,高桂清.交通事故预测分析[J].中国安全科学学报,2015,6(01):20-23.
[2]刘志强.道路交通事故预测方法比较研究[J].交通与计算机,2013,19(05):7-10.
0引言
Web技术的飞速发展产生了海量的用户生成内容,大量信息蕴藏其中,是潜在用户决策支持的有价值资源。如何挖掘海量用户生成内容催生了数据分析人才的市场需求。麦肯锡全球研究院报告预计,美国在2018年数据分析人才缺口将达到50%~60%,甚至可能更大。我国政府提出的“互联网+”行动计划,使得数据几乎渗透到每一个行业和业务职能领域。在大数据时代,具有丰富经验的数据分析人才需求倍增。
1数据分析人才必备的重要素质
数据分析人才能对行业已有数据进行统计、分析、预测,能为企业经营决策提供科学量化的分析依据。2007年,复旦大学首先在国内开始培养数据分析人才,随后香港中文大学、北京航空航天大学等高等院校也相继开设了相关课程。分析上述高校人才培养计划可知,数据分析人才应该系统地掌握数据分析相关技能(主要包括数学、统计学、数据分析、商业分析和自然语言处理等),应具有较宽的知识面、独立获取知识的能力及较强的实践能力和创新意识,是一种复合型专业人才。《中国大数据技术与产业发展白皮书》在数据人才一章中明确指出,数据分析人才的培养要从本科阶段开始,要注重运用算法分析问题、解决问题,由此可见,计算思维能力是数据分析人才必须具备的重要素质之一。
2计算思维能力培养现状
自2002年以来,我国计算机教育专家将计算思维能力归结为计算机专业人才必备的4大专业基本能力,并且强调计算思维能力是其他3项能力(算法设计与分析、程序设计与实现以及系统能力)的基石。那么,如何在大数据时代背景下,依托应用型本科软件工程试点专业建设,培养软件工程专业学生的计算思维能力,为社会输送高质量数据分析人才?计算思维能力的强弱主要表现为学生能否正确运用抽象与分解、递归、启发式等方法解决计算求解问题。训练学生的计算思维能力可在算法与数据结构以及算法设计与分析课程(以下简称算法类课程)的教学中进行,因而算法类课程是本科阶段培养数据分析人才的重要课程。
然而,在算法类课程的实际教学过程中,存在两个较为常见的问题:
(1)学生理论联系实际的能力薄弱。学生要达到灵活运用算法解决实际问题,必须掌握算法的核心思想,但由于算法类课程中许多概念抽象,一些经典算法较为复杂,在这两门课程的学习和实践中,能体会到理论学习意义和动手实践乐趣的学生很少。
(2)系统能力培养没有受到教师的足够重视。由于算法类课程相关的综合设计课内学时少,教师无法引导学生从系统的角度认知综合设计,并对其进行分析、开发与应用。
由此可见,在算法类课程的现有教学环节中,训练学生计算思维能力的机会较少,必须结合当前数据分析人才市场需求的发展趋势,重新审视算法类课程的定位和内容,以达到夯实学生计算思维能力的目的。
3在算法类课程教学中培养学生计算思维能力的方法
从整体上,一个较高层次的数据分析人才应该掌握7大版块的知识结构,分别是数据采集、数据存储、数据提取、数据挖掘、数据分析、数据展现以及数据应用。以数据分析人才驱动为导向,培养软件工程专业学生计算思维能力的算法类教学方法主要是把算法类课程中算法分析与设计的思想融入数据分析中,用数据分析中的实际需求驱动学生学习书本上抽象的理论知识。以7大版块中最重要的数据挖掘版块作为载体,在算法类课程教学中培养学生的计算思维能力。
3.1基于实际数据分析任务的实验项目设计
目前,国际权威学术组织IEEE International Conference on Data Mining(ICDM)已评选出数据挖掘的10大经典算法:C4.5、k-means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Navie Bayes和CART。在教学过程中,可以根据不同类型的应用问题,结合这些经典数据挖掘算法布置实验任务,对每一实验任务制定实现该任务的实验目的、实验要求、实验内容、实验步骤和预期实验结果,让学生清晰地理解并实现这些实验任务。
以2013级软件工程专业学生参加中国好创意的“互联网情绪指标和生猪价格的关联关系挖掘和预测”为例,说明实验项目的设计。
(1)实验目的:针对来自国内互联网的生猪历年消费者情绪数据,挖掘消费者情绪指标和生猪价格之间的关联关系。
(2)实验要求:采用Apriori算法,对近期国内五花肉价格及生猪价格进行预测。
(3)实验内容及步骤:首先,对原始的生猪数据清洗是分析消费者情绪与生猪价格之间的关联关系的第一个阶段,其目的是删除无关数据;其次,统计与消费者正面情绪或消费者负面情绪同时出现的相关指标,并根据自定义的最小支持度阈值获得正面情绪或负面情绪的频繁项集;最后,根据自定义的置信度对获得的频繁项集进行筛选,得到有意义的频繁项集。
(4)预期实验结果:解读最终得到的频繁项集,将挖掘的结果反馈到生猪养殖户,让其掌握生猪市场的供求关系。
个别有能力的学生还可以对以上内容进行拓展,从互联网大数据中找出其他一些具有参考价值的生猪价格预测先导指标。
实验任务的编码完成后,还要求学生从软件开发的角度撰写规范的项目报告,内容包括项目的需求分析、总体设计、详细设计、编码与测试等。教师可通过报告清楚了解学生是否有良好的计算思维能力。针对计算思维能力薄弱的学生,教师可以再布置另外的实验项目让其训练。例如,在“互联网情绪指标和生猪价格的关联关系挖掘和预测”实践项目中,要求项目报告中有目标场景、需求理解、方案创意说明、模型数据选取、数据分析、算法设计、实验设计、结果分析、原型系统介绍等。
3.2算法类课程教学内容拓展
由于本科阶段算法类课程的教学内容只涉及完成基于实际数据分析任务的基础知识,不包括数据挖掘算法,这就需要教师在算法类课程中拓展教学内容。因此,在教学过程中需要将经典的数据挖掘算法与算法类课程的理论知识巧妙融合。为此,教师需要详细分析实现每个数据分析任务需要的基本理论知识,然后按照书本相关内容的先后顺序串联起来并编写授课计划,体现算法类课程精华内容与实际数据分析任务的融合。为了保证学生对数据挖掘算法的深入理解,需要鼓励其利用课余时间广泛查阅相关资料,进行自主学习。
在2013级软件工程专业学生参加中国好创意的“互联网情绪指标和生猪价格的关联关系挖掘和预测”竞赛中,指导教师们利用课外时间给学生讲解关联规则挖掘算法的思想、原理、特点等。学生在学习关联规则挖掘算法的过程中进一步掌握了递归与分治思想、回溯法思想;理解了树型存储结构对关联规则挖掘算法性能的改进。通过这样的实践,参赛学生完成的作品清晰展示了他们在学习算法类课程中培养的计算思维能力。
3.3计算思维能力培养的跟踪
为了改进软件工程学生计算思维能力培养中可能存在的问题,收集应用于13级软件工程专业学生的实验项目、授课计划、项目报告、算法类课程的理论成绩与实践成绩。通过跟踪他们毕业设计的完成情况,分析曾在算法类课程上得到较好计算思维能力培养的学生的毕业设计情况,检验提出的方法。由于本研究的对象还没有进入毕业设计环节,故只进行算法类课程的理论成绩与基于实际数据分析任务的实验项目完成情况的分析。通过两门课程期末考试成绩可以看出,认真完成实验项目的学生理论考试成绩普遍高于不认真的学生,这充分说明基于实际数据分析任务的实验项目能有效改进目前算法类教学课程中存在的问题。
此外,还准备通过学院学生管理部门跟踪2013级软件工程专业学生的就业情况和用人单位的反馈意见,了解学生的专业能力,及时修改计算思维能力的培养方法,为探索应用型本科软件工程试点专业建设提供有力支撑。
3.4充分利用移动平台