时间:2024-02-06 10:07:38
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据分析分析技术范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
云计算技术可以给提供计算机数据传递与共享的条件,融合软硬件数据保存,促进计算机处理工作更好的开展。云计算技术可以给用户提供良好的网络环境与保存空间,处理数据传递环节的各项问题。与传统大数据分析技术相比,云计算计算可以提高大数据分析质量。人们借助云计算技术获得云终端的数据,切实满足人们对于数据的需求。现阶段计算机市场形成完善的结构体系,围绕云计算技术推动计算机大数据分析工作的开展,奠定后期云计算技术发展的基础。目前,人们生活中全面运用云计算技术,基于云计算技术研发的服务器及操作系统方便人们处理各类信息技术。同时,云计算技术数据保存有着较强的安全性,极小可能出现数据丢失情况,满足人们的实际需求,直接体现出云计算技术的优势。优化云计算环境下计算机的数据处理中心,就可以不断提升计算机的云计算能力,让云计算不仅为网络信息所用,还在计算机网络安全中发挥极为重要的作用。目前,计算机的使用人群更为注重的是在高速发达的信息社会,自己的信息,也就是使用计算机网络的安全性能是否能得到保障,这时候考验的就是云计系统的完善性。目前存在的最主要计算机安全问题就是黑客问题和系统漏洞问题。系统漏洞这一人为因素可以通过不断检索进行漏洞的发现和修补,面对黑客的攻击,能够做的就是防患于未然,不断地升级和优化系统,最终达到完善的数据处理效果。
2云计算技术下计算机大数据分析面临的问题
2.1网络技术安全
由于相关技术的不断发展,云计算环境下的网络安全技术正在朝着稳定和成熟的方向发展,但在具体的应用过程中依然表现出一定的网络安全问题,因此用户在使用过程中应该做好相关的应对工作。网络安全问题具体表现在用户在使用信息传输的过程中,一旦出现服务性中断问题,难以保证数据的安全性,启动被动保护模式的情况使信息的安全性更加难以保障,这也成为云计算模式下的网络技术安全中的重点问题,一旦得不到及时有效的解决,用户在使用过程中就会受到不同程度的威胁。
2.2网络环境安全
网络环境安全是保证网络正常使用,信息传输质量有保证的重要前提,一旦网络环境存在不安全因素,将会引发病毒的入侵和黑客的攻击。因此网络环境安全也是云计算技术价值得以发挥的重要前提。计算机在使用过程中如果长期受到病毒的困扰和黑客的威胁,将会降低人们对计算机的信赖性,甚至在工作和生活中将会在网络环境安全方面投入更多的成本。
3计算机大数据分析中云计算技术的具体应用
3.1数据传输安全分析
在云计算的作用下,云安全含义逐渐形成,具体来说,云安全主要指在用户借助云计算技术来实现计算机大数据分析时,让数据安全性得到了保证。用户端数据和数据安全往往呈现出正比关系,随着应用群体数量的增多,涉及的计算机数据范畴将不断扩充,假设计算机遭受病毒的攻击,可以在云计算技术的作用下实现病毒的拦截,以此让计算机数据安全性得到保证。从云计算技术自身角度来说,其提供的各个服务均是由IaaS基础设施级服务以及PaaS平台级服务两项内容构建而成。首先,IaaS基础设施级服务其作用在于,可以给用户提供对应的服务,也就是对各个计算机基础设备进行操作和应用,其中包含了CPU处理、数据保存、数据传递等。其次,PaaS平台级服务则是指,把云计算中各个服务器及开发环境当作服务,通过PaaS平台用户能够结合自身需求实现对应操作流程的部署和应用。
3.2监督数据资源共享
网络资源在传输过程中遭遇到的安全威胁是用户时时刻刻关注的问题,因此在具体的工作和管理中,需要提高云计算网络安全技术的应用程度,通过不断创新安全模式,完善相应的防护体系,从而有效消除安全性问题,提升数据传输的安全性和稳定性。具体在应用过程中,可以借助云计算技术的优势,对数据传输的整个路径进行监控,保证传输通道环境的安全性,一旦出现问题及时进行预警,有效预防黑客的攻击,降低网络安全事故发生的概率。对此,有关部门应该提高重视程度,同时完善相应的监督管理制度,采用科学的管理方式,实现预期的监测目标。
3.3提高数据使用安全
计算机用户本身的安全意识也是当前需要关注的重要方面,为了进一步提升用户数据信息和计算机系统的安全系数,需要重视身份认证工作的提升,具体可以使用实名制的方式进行认证处理,从而不断提升整个网络结构的安全性。对于网络应用过程中涉及到的安全问题,可以通过实名追踪的方式进行可疑目标锁定,从而有效控制恶意攻击情况的发生。但在应用过程中也需要重视假人名情况的出现,提高网络数据信息窃取的预防水平。计算机网络环境算是一种相对开放的环境,在使用过程中会面向大量的用户,通过重视用户的身份认证,可以有效避免用户对数据的非法访问。同时在使用者进行计算机登录和使用的时候,需要对用户名和密码进行核实。按照权限的不同,确保数据库信息的安全有效性。通过对数据库信息加密处理,可以确保数据库信息的安全性。这种加密处理可以在原有数据信息的基础上进行算法的处理改进,使用者可以通过自身的权限获取想要了解的信息,如果没有解密方式,不法分子将会难以获取数据的原始信息。
3.4网络安全等级防护
在云计算环境下的安全管理中心具备系统管理、安全管理和安全审计等功能,能够满足不同云计算环境下不同安全等级的保护要求,并且通过服务层的安全保护框架,实现对不同等级云服务客户端的安全保护,为使用者提供安全可靠的资源访问服务。在访问云服务商时,用户可通过通信网络、API接口和Web服务方式访问云服务器,但是用户终端系统的安全防护不在网络安全等级保护框架体系内。在保护框架体系内,资源层和服务层安全是云计算环境安全保护的重点,资源层包括物理资源安全和虚拟资源安全,应按照安全设计要求构建资源层安全保护框架。云计算环境下的网络安全等级保护要针对不同等级云计算平台确定不同的安全目标,一般情况下安全保护等级最低为二级,并根据安全目标和等级要求实施安全设计步骤,具体包括:第一步,根据云平台的租户数量和业务系统情况确定云计算安全保护标准,制定云计算平台的安全保护策略,以避免在云计算平台上发生安全事件;第二步,细化安全技术要求,针对安全计算环境、安全区域边界、安全通信网络以及安全管理中心制定出相应的安全保护策略;第三步,根据云计算功能框架中的各层功能和保护要求,制定安全技术机制,使其满足云计算功能框架的安全保护要求。在完成云计算环境下的网络安全等级保护设计之后,还应增加虚拟化安全、镜像安全、接口安全等安全控制点,并采用访问控制技术、身份识别技术等安全防护技术,实现与云计算平台上各功能层次的对接,提出各层的安全保护措施。
3.5重视相应程序开发
中图分类号:F503 文献标识码:A 文章编号:1674-098X(2014)04(a)-0021-01
对于数据分析来说,其主要的目的就是通过对数据的分析去发现问题或预测趋势。从数据钻取、大规模分析的技术手段、以及算法执行上来说,大规模分析是和小规模数据在技术上是有很大差异的。想要探究大数据下的智能数据分析技术,首先要对数据分析这一概念进行深入研究。
1 数据分析
数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。
对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。
数据分析主要涉及的技能:
(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。
(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。
(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。
(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。
综合来看,可以说数据分析=技术+市场+战略。
2 如何培养数据分析能力
理论:
基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;
(2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;
(3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。
实践:
(1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;
(2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;
(3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;
(4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。
3 大数据
大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。
对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。
从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。
大数据的特点:
(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。
(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。
(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。
总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。
4 大数据下的智能数据分析
在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。因此,可以用以下四种方法在大数据背景下进行智能数据分析:
(1)从解决问题的角度出发收集数据;
(2)把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;
(3)评估决定与行动的效果,这将告诉我们框架是否合理;
(4)如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。
5 结语
数据分析的最终目的是帮助业务发现问题并解决问题,提升公司价值,而这些是从数据发觉的,而不是盲目下结论。每家公司都有自己业务生产的数据,通过数据分析、同比环比、漏斗分析及模型等,发现业务上存在的问题,帮助公司业务的优化。
参考文献
1.1信息安全分析引入大数据的必要性
大数据具有“4V”的特点:Volume、Variety、Velocity和Value,可实现大容量、低成本、高效率的信息安全分析能力,能够满足安全数据的处理和分析要求,将大数据应用于信息安全领域能够有效的识别各种攻击行为或安全事件,具有重大的研究意义和实用价值。随着企业规模的增大和安全设备的增加,信息安全分析的数据量呈指数级增长。数据源丰富、数据种类多、数据分析维度广;同时,数据生成的速度更快,对信息安全分析应答能力要求也相应增长。传统信息安全分析主要基于流量和日志两大类数据,并与资产、业务行为、外部情报等进行关联分析。基于流量的安全分析应用主要包括恶意代码检测、僵木蠕检测、异常流量、Web安全分析等;基于日志的安全分析应用主要包括安全审计、主机入侵检测等。将大数据分析技术引入到信息安全分析中,就是将分散的安全数据整合起来,通过高效的采集、存储、检索和分析,利用多阶段、多层面的关联分析以及异常行为分类预测模型,有效的发现APT攻击、数据泄露、DDoS攻击、骚扰诈骗、垃圾信息等,提升安全防御的主动性。而且,大数据分析涉及的数据更加全面,主要包括应用场景自身产生的数据、通过某种活动或内容“创建”出来的数据、相关背景数据及上下文关联数据等。如何高效合理的处理和分析这些数据是安全大数据技术应当研究的问题。
1.2安全大数据分析方法
安全大数据分析的核心思想是基于网络异常行为分析,通过对海量数据处理及学习建模,从海量数据中找出异常行为和相关特征;针对不同安全场景设计针对性的关联分析方法,发挥大数据存储和分析的优势,从丰富的数据源中进行深度挖掘,进而挖掘出安全问题。安全大数据分析主要包括安全数据采集、存储、检索和安全数据的智能分析。(1)安全数据采集、存储和检索:基于大数据采集、存储、检索等技术,可以从根本上提升安全数据分析的效率。采集多种类型的数据,如业务数据、流量数据、安全设备日志数据及舆情数据等。针对不同的数据采用特定的采集方式,提升采集效率。针对日志信息可采用Chukwa、Flume、Scribe等工具;针对流量数据可采用流量景象方法,并使用Storm和Spark技术对数据进行存储和分析;针对格式固定的业务数据,可使用HBase、GBase等列式存储机制,通过MapReduce和Hive等分析方法,可以实时的对数据进行检索,大大提升数据处理效率。(2)安全数据的智能分析:并行存储和NoSQL数据库提升了数据分析和查询的效率,从海量数据中精确地挖掘安全问题还需要智能化的分析工具,主要包括ETL(如预处理)、统计建模工具(如回归分析、时间序列预测、多元统计分析理论)、机器学习工具(如贝叶斯网络、逻辑回归、决策树、随机森利)、社交网络工具(如关联分析、隐马尔可夫模型、条件随机场)等。常用的大数据分析思路有先验分析方法、分类预测分析方法、概率图模型、关联分析方法等。可使用Mahout和MLlib等分析工具对数据进行挖掘分析。综上,一个完备的安全大数据分析平台应自下而上分为数据采集层、大数据存储层、数据挖掘分析层、可视化展示层。主要通过数据流、日志、业务数据、情报信息等多源异构数据进行分布式融合分析,针对不同场景搭建分析模型,最终实现信息安全的可管可控,展现整体安全态势。
2安全大数据分析的典型应用
2.1基于用户行为的不良信息治理
中国移动开展了基于大数据的不良信息治理工作,主要针对垃圾短信和骚扰诈骗电话开展基于异常行为的大数据分析。通过开源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大数据分析平台,采集用户的行为数据,构建用户行为分析模型;分别提出了异常行为分类预测模型、统计预测分析模型、社交网络分析模型等,将用户的行为数据输入到模型中,可以精准地挖掘出违规电话号码,并且发现违规号码与正常号码之间存在大量相异的行为特征。通过用户的行为,构建多维度的用户画像数据库,支撑全方位的大数据不良信息治理服务,支撑大数据不良内容的智能识别等。实践表明,大数据分析技术能够挖掘出更多潜在的违规号码,是对现有系统的有效补充。除此之外,中国移动还将大数据技术应用在安全态势感知、手机恶意软件检测和钓鱼网站的分析中,提升了现有系统的分析能力。
2.2基于网络流量的大数据分析
在互联网出口进行旁路流量监控,使用Hadoop存储及Storm、Spark流分析技术,通过大数据分析技术梳理业务数据,深度分析所面临的安全风险。主要分析思路是采集Netflow原始数据、路由器配置数据、僵木蠕检测事件、恶意URL事件等信息,采用多维度分析、行为模式分析、指纹分析、孤立点分析及协议还原等方法,进行Web漏洞挖掘、CC攻击检测、可疑扫描、异常Bot行为、APT攻击、DDoS攻击挖掘等分析。
2.3基于安全日志的大数据分析
基于安全日志的大数据分析思路主要是融合多种安全日志,进行数据融合关联分析,构建异常行为模型,来挖掘违规安全事件。主要的安全日志包含Web日志、IDS设备日志、Web攻击日志、IDC日志、主机服务器日志、数据库日志、网管日志、DNS日志及防火墙日志等,通过规则关联分析、攻击行为挖掘、情景关联分析、历史溯源等方法,来分析Web攻击行为、Sql注入、敏感信息泄露、数据分组下载传输、跨站漏洞、尝试口令破解攻击等应用场景。基于安全日志的大数据分析已经在国际上有广泛的应用。如IBMQRadar应用整合分散在网络各处的数千个设备端点和应用中的日志源事件数据,并将原始安全数据进行标准化,以区别威胁和错误判断;IBMQRadar还可以与IBMThreatIntelligence一起使用,提供潜在恶意IP地址列表,包括恶意主机、垃圾邮件和其它威胁等;IBMQradar还可以将系统漏洞与事件和网络数据相关联,划分安全性事件的优先级等。ZettaSet海量事件数据仓库来分析网络中的安全漏洞和恶意攻击;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全数据仓库)。Orchestrator是端到端的Hadoop管理产品,支持多个Hadoop分布;SDW是构建在Hadoop的基础上,并且基于Hive分布式存储。SDW于2011年BlackHat网络安全会议面世,SDW可从网络防火墙、安全设备、网站流量、业务流程以及其它事务中挖掘安全信息,确定并阻止安全性威胁。处理的数据质量和分析的事件数量比传统SIEM多;对于一个月的数据负载,传统SIEM搜索需要20~60min,Hive运行查询只需1min左右。
2.4基于DNS的安全大数据分析
基于DNS的安全大数据分析通过对DNS系统的实时流量、日志进行大数据分析,对DNS流量的静态及动态特征进行建模,提取DNS报文特征:DNS分组长、DNS响应时间、发送频率、域名归属地离散度、解析IP离散度、递归路径、域名生存周期等;基于DNS报文特征,构建异常行为模型,来检测针对DNS系统的各类流量攻击(如DNS劫持、DNS拒绝服务攻击、DNS分组异常、DNS放大攻击等)及恶意域名、钓鱼网站域名等。
2.5APT攻击大数据分析
高级可持续性威胁(APT)攻击通过周密的策划与实施,针对特定对象进行长期的、有计划的攻击,具有高度隐蔽性、潜伏期长、攻击路径和渠道不确定等特征。现已成为信息安全保障领域的巨大威胁。“震网”潜伏3年,造成伊朗纳坦兹核电站上千台铀浓缩离心机故障。收集业务系统流量、Web访问日志、数据日志、资产库及Web渗透知识库等,提取系统指纹、攻击种类、攻击时间、黑客关注度、攻击手段类型、行为历史等事件特征,再基于大数据机器学习方法,发现Web渗透行为、追溯攻击源、分析系统脆弱性,加强事中环节的威胁感知能力,同时支撑调查取证。
中图分类号:TP392 文献标识码:A 文章编号:1671-7597(2012)0220084-02
0 引言
联机分析处理(OLAP)技术是近几年来信息领域中的技术热点,人们普遍认为它将是数据仓库在数据库技术方面的的重要发展方向。因为传统数据库的应用系统是面向事务设计的,在寻找业务的具体数据上特别有效,但在为领导决策者提供总结性数据结果时则显得力所不及,这就凸显出了联机分析处理(OLAP)技术重要性,OLAP是一项提供给数据分析人员以灵活、可用并及时的方式构造、处理和表示综合数据的技术[1-2]。
1 联机分析处理(OLAP)
1.1 基本概念
联机分析处理(OLAP)技术与数据仓库有着非常紧密的联系,它是数据仓库的检验型分析工具。它将分析决策者所需要的大量数据从传统的环境中解离出来,清理、转换成统一的信息,帮助决策者进行有效及时的分析、判断和预测,获得更大的效率[3]。
OLAP建立在多维的视图基础之上,强调执行效率和对用户命令的及时响应的能力,并且其数据来源是数据仓库。它是一种软件技术,使得分析人员及管理人员通过对信息的多侧面、多角度、多层次的观察,支持其决策。
1.2 技术特点
1)快速性,以相当快的速度向用户提交信息。可在5秒内向用户提交。2)可分析性,OLAP能处理和应用任何统计分析和逻辑分析。用户不用过多编程就可以定制新的专门计算,它将其作为分析中的一部分,并以理想的方式输出报告。3)共享性,在大量用户之间实现潜在地共享秘密数据所必需的安全性豁求。4)多维性,系统对数据提供分析和多维视图,包括对层次维和多重层次维的支持。事实上,多维分析是分析企业数据最行之有效的方式方法,是OLAP的核心。5)信息性,无论数据量多大,数据存储在哪里,OLAP均能及时获取信息,并大容量管理信息。
1.3 OLAP的多维数据结构
多维数据结构是数据仓库存储结构的一种类型。它是为提高数据库查询能力设计的,内部包含等待分析的数据,且使用数据维分类数据。此结构更可称为立方体数据结构。多维结构里的数据资源既可以按雪花型结构分布,也可以按星型结构排列。
1)维。维是指人们对事务观察的角度。人们在观察数据的同时,对某些特定角度还可以在细节上有不同程度的多个描述层次,这些层次称为维的层次。维的一个取值称为该维的一个维成员。若维已经被分成若干层次,则其成员为不同维层次值的组合。
一个立方体数据结构是由很多数据维组成,一维即为某一类的数据。维定义为相同类数据的集合。数据维内的数据限制在某一问题领域之中。在Microsoft OLAP Service中立方体数据结构可包含1-64个数据维。在立方体结构里至少包含一个数据维,在一个数据维里则又至少包含一个层次,且一个层次至少要包含一个级别。而每个级别里,又可以包括多个成员。在事实表关键字与数据维成员交叉的地方,每个成员都至少有某一个数据值出现在这个位置上。
一切同质的度量值和其关联的维成员都构成一个多维数据集。在多维数据集中,它能支持各种类型的查询,为OLAP的核心组成部分。多维数据集还可以用多维数据库来实现,更可用关系数据库来实现。
父子维度是基于两个维度的表列,这两列共同定义了维成员中的沿袭关系。其中一列称为成员键列,它标识每个成员;而另一列则称为父键列,其标识每个成员的父代。父代为层次结构中的上层节点。此两列都有相同的数据类型,且都在同一个表内,故可用于创建父子链表。父子维度的深度随它的层次结构分支变化,故父子维度的层次结构常常为不均衡的。
虚拟维度与常规维度在给出定义时的级别数目就已经决定了最终用户所观察到的级别数目;但父子维度不同,它是应用特殊类型单个级别来定义的,该特殊类型常常也会产生最终用户所看到的多个级别。其中存储成员键和父键列的内容将会决定显现出的级别数目。故当更新该维度表,并进一步处理和使用此维度的多维数据集时,其级别数目还可能会更改。
2)度量。事实表的成员值被称为“度量”,为进行数值分析时所需要寻找的数量信息。度量为具有可加性和数值性的。度量值为观察事物的焦点,故一般具有加和性。在多维数据集中,度量值存在于多维数据集的事实数据表中。最终用户所请求的信息类型称为选择其的决定因素。
在数据库的数据维表里直接获得的成员被称为输入成员;在包含其他成员的表达式里获得的成员被称为导出成员。导出成员是在运行中计算得到的,且当只有那些计算成员的表达式存储在多维数据库里时,一个导出成员才可作为数据维成员,更可作为度量成员。在系统中根据用户的需求设计导出成员,能有效的提高系统分析能力,拓展完善系统的其他功能。
3)虚拟维度。虚拟维度是基于物理维度的逻辑维度。此类内容可以是物理维度中的现有成员的属性,更可为物理维度表中的列。应用虚拟维度,可基于多维数据集中的维度成员的成员属性来对多维数据集数据进行分析比较,并且不需占用额外的磁盘空间或处理时间。虚拟维度更没有聚合数据,更不能影响多维数据集的处理时间,这是由于它们的计算是需要时在内存中进行的。
虚拟数据维不需存储在计算机的硬件设备上。虚拟维在立方体中是可以提供更加多的维分析,故虚拟维的设计可能要减少立方体存储空间,但更会增加查询时间。虚拟维的设计能使用户灵活地使用实际维的多重属性来减少维的多重显示。
多个立方体结构组合在一起形成了一个虚拟立方体结构来供用户查询信息。在数据仓库中应用虚拟立方体结构,还可允许用户在多个结构中交叉访问信息,且用户不用建立数据仓库就可把此类立方体结构存储在该数据仓库里。其实应用虚拟立方体数据结构不仅可以为用户提供信息,还可节省磁盘空间。此外,虚拟立方体数据结构更能用来提供一定级别的保密能力。
2 OLAP的功能结构及其基本分析操作
2.1 功能结构
OLAP的功能结构主要是由数据存储服务、OLAP应用服务以及用户描述服务等三方面组成的三层客户或者说三层服务器结构(如图1所示),我们说应用逻辑并不简单,它所处的位置是被集中存放在应用服务器上的,主要工作原理是由服务器给予迅速地数据存储,之后进行后台处理以及报表的预处理。为什么说它的它的工作效率高其主要原因是:首先,OLAP服务器的使用足以规范和能够加强决策支持方面的服务工作;其次,能够集中和简化原
有客户端以及DW服务器的某些工作;最后,充分降低了系统数据传输量。因此,我们说OLAP服务器的工作效率更高。如何将数据仓库中的综合数据组合在一起以及满足前端用户的多维分析是OLAP服务器设计的重点。
图1 OLAP的三层客户/服务器结构图
2.2 基本分析操作
OLAP的基本操作过程包括对多维数据进行的切片、切块、旋转、钻取等四部分分析操作过程。这些分析操作过程促使用户可以从不同的角度和不同的侧面观测数据库中产生的数据,进而对包含在数据中的信息有了更加深入地了解。
1)切片。我们在其中的某一个维上确定一个属性成员,但在其他的维上选取一定区间的属性成员或者所有的属性成员来观测数据的分析方式这一操作过程我们称之为切片操作。2)切块。在各种维上参与一定区间的成员属性或者所有成员属性都来参与进行观测数据的一种分析方式,我们说是切块操作。为此,切片与切块的关系我们可以这样理解:切片――它是切块的特例,切块――它是切片的扩展。3)钻取。钻取包括向下钻和向上钻上卷两个不同操作。下钻指的是以概括性的数据为出发点进而获取相对应的比较详细的数据结果,上钻则恰恰相反。钻取的深度是与维度所划分出来的的层次相对应的。4)旋转。旋转就是指能够改变一个报告或者页面凸显的维方向。旋转有可能会含有交换的行和列,它不是把其中的某一个行维转移到列中去,就是把页面凸显中的其中一个维和页面之外的维进行互换。
3 OLAP的新发展――OLAM
OLAM的简称是“联机分析挖掘”,它是将OLAP (联机分析处理技术)和DM(数据挖掘技术)有机地组合起来进而形成的一种崭新的技术。OLAM不仅具有OLAP多维分析的在线性、灵活性还有DM对数据处理的深入性等特点,因此对信息的分析和筛选要求有了更高层次上的满足。我们说,OLAM具有以下几种特性:
OLAM具有强大的挖掘力量。它能偶借助OLAP的支持挖掘出任何需要的数据;OLAM不仅能给予灵活的挖掘算法选择机制而且能够给予与外部挖掘算法的通用接口;OLAM的挖掘计算是以多维数据模型为基础的,它能够和OLAP的操作灵活结合,并具有计算的回溯功能。
本着客户/服务器体系结构的根本,它不仅具有较高的执行效率而且还有较快的响应速度,并且可以调整执行效率和挖掘结果的准确度。一旦用户交互式执行效率低,而用户都已经选定了挖掘算法和数据空间,那么应当确保最终结果的准确性。
4 结束语
数据仓库的关健技术OLAP,是以多维数据为基础,与用户进行交互和快速响应,用户积极参与分析过程,动态地提出分析要求、选择分析算法,对数据进行由浅及深的验证型分析工具。
参考文献:
[1]杨光等,OLAP技术及其发展[J].计算机应用研究,1999.7.
1数据源准备
数据源是数据分析技术应用的重要前提,数据来源关系到各种业务分析所需要的数据是否齐全、原始数据质量是否可靠、数据提供的性能方面是否满足相关要求等。对于不同的行业领域,数据来源的渠道各不相同,对于数据分析应用而言,也需要在众多的数据中选取合适的部分进行后续加工和处理。对于大多数信息化技术应用比较广泛的企业而言,主要的业务运营数据源都可以从自身的信息管理系统中取得,如业务支撑系统、企业资源规划和管理系统以及流水线作业信息管理系统等。有部分数据信息是从非常专业的系统中直接采集到的,如专业调度系统、电话交换机以及生产线控制系统等。从这些系统中,可以取得企业运营过程中的基础信息和关键数据,这些数据通常是最能真实客观地反映企业运行情况。此外,数据获取的成本也比较低,稳定性和质量比较好,并且易于管理和重构。然而,就经营分析的角度而言,从企业内部提供的数据还不能满足全方位分析的需要,需要从企业外部获取必要的信息。比如为了深入了解客户的信息,就需要进行相应的市场调研工作,设计一些调查问卷,搜集与业务开展和经营相关的重要信息。另外,在某些特定的场合下,还有可能还需要从其它一些外部渠道去集中获得一些有关客户和市场的数据信息,目前有不少机构专门从事市场信息数据提供的服务工作。从企业外部获得的业务数据往往是针对性较强,有较高利用价值的信息。但这些信息的真实性、稳定性程度就比内部的数据源要低,并且数据获得的成本相对比较高。
2数据仓库技术的应用
目前,数据仓库技术对于大多数经营业务数据分析任务而言,是必备的基础条件之一,尤其是对于规模较大、业务开展较广泛的企业。由于日常运营涉及到的数据来源和种类较多、数据量较大,在进行数据分析处理时需要对原始的信息进行大量的加工处理工作,因此数据仓库技术的应用就是必然的选择。应用数据仓库技术的主要目的是将原始的数据源按相应的要求进行转换并按专门设计的数据结构进行存储。数据仓库技术对原始数据加工处理流程目前一般称为ETL,即抽取(Extract)、转换(Transform)和加载(Loading)。抽取过程是指从各类原始的数据源获取数据的过程,综合考虑信息系统的处理性能和数据时效性以及分析应用需求等因素,数据抽取过程可以是实时的,也可以是非实时的。对于抽取出的数据需要进行一定的转换处理,才能够进行后续的应用,转换过程主要是根据后期应用需求将原始的数据进行过滤、异常处理后再进行格式变换、维度调整以及初步分类汇总等处理。数据加载过程就是将处理后的数据装载到仓库模型中,并根据应用需求进行数据关联关系的调整以及性能优化。在一些专题分析应用场合,还可以将已经加载至数据仓库中的数据进行进一步的归纳处理,形成相关主题的数据集市,以提高数据的可用程度。
数据分析方案的设计和实施
数据仓库建设完成之后,为了实现业务分析的目标,就可以考虑实施一些数据分析方案,选择合适的分析方法和工具建立相应的模型,对数据进行处理,最终得到能够支持业务经营分析的关键信息,这一步对于整个业务数据分析工作而言是一个关键点。数据分析建模工作不仅需要掌握相关分析方法技术,更需要对业务背景和业务分析目标有充分的认识。因为数据分析挖掘建模方法没有严格的定律可以遵循,往往需要在实践中运用一些基本的方法去探索影响业务目标的关键因素,并且需要长期跟踪业务发展情况,不断地完善模型、调整相关参数,才能够得到能正确辅助经营决策制定的方案。此外,随着业务运营模式的调整和市场环境的变化,业务分析模型还可能随时需要重构并且反复验证。目前用于数据挖掘分析的方法有很多,从基本的数理统计方法到目前研究比较广泛的神经网络、遗传算法等。但是并不是越复杂的算法效果越好。在很多场合下,应用较为简便的方法得出的结论更易于描述业务信息,便于理解以及实践操作。现在市场上用于进行数据挖掘和统计分析产品也比较丰富,比较典型的分析工具如SPSS、SAS、STAT等,在一些行业应用领域,还有更加专业的数据分析工具和软件包可供使用。在实际运用过程中,可以根据数据分析的需求和应用范围进行选择。
互动点播业务的业务分析需求
以及数据分析方案设计目前,有线电视运营商在互动点播业务开展过程中关注最多的经营目标是如何提高用户对服务的认可程度、扩大用户规模、避免用户流失以及提升用户的业务贡献价值等方面。在这个过程中同时也需要对点播内容的使用情况进行分析,判断哪些产品的点播频率比较高,以便进行内容安排方面的调整。为了支撑互动点播业务经营分析的目标,首先需要初步选择可能对点播业务使用频率影响比较大的一些关键性因素,并且判断哪些信息是有手段可以收集到的,以及从哪些渠道收集等等。这个过程通常需要对基础业务有一定的认识,此外还需要对信息数据的分布和管理有相应的了解。通常情况下,对于大多数有线电视运营商而言,目前都在建设和使用业务支撑系统。互动业务分析所需要的基础信息大多数都可以从业务支撑系统中获取,例如从客户关系管理平台中可以收集到用户的基本信息,如客户名称、联系方式、业务使用的地址等。另外,客户开通的业务信息以及订购的各种产品信息、业务变更记录信息以及终端信息等基本上都可以从业务支撑系统中获取到。经过一些信息转换和汇总,我们就可以了解到用户业务的在网时间、消费情况、订购记录、离网情况等。从这些基本信息里面可以选择一些业务上感兴趣的因素进行统计分析,以归纳总结出经营分析相关的业务特征。对于互动点播业务相关的另外一些信息,如客户的点播行为记录,一般就不是直接从业务支撑平台上进行采集到。这些数据的来源通常是在互动业务管理平台中,用户在终端上进行点播操作后,互动业务管理平台会记录下与用户点播操作相关的信息。从这些记录中,我们可以了解到用户的点播时间、点播内容、收看时间等等。根据点播的内容,可以在互动业务内容管理平台上关联到其价格、类型、上线时间等信息。综合上述信息后,就可以整理出互动点播业务的使用记录,通过统计分析可以发现用户点播的时间、内容偏好和使用量发展趋势等数据,这些数据可以帮助判断系统的容量以及内容的受欢迎程度等信息。最后,为了综合评估互动业务的发展情况,发现与业务分析目标关联较大的一些因素,可以综合用户的业务记录信息和点播使用情况进行模型构造,并且对结果进行验证和评估,以得到对决策分析有价值的信息。
互动点播业务的数据分析方案的实施应用
根据业务数据分析基本方案设计的思路,可以着手开始实施相应的分析方案。在本文中主要介绍两类数据分析应用案例,一个是基于基础点播行为数据进行的统计分析应用,另外一个是根据用户点播行为数据以及基础业务数据综合分析影响用户的互动业务在线情况的因素。
1用户点播行为数据分析案例
为了了解点播业务的使用情况,可以根据用户的点播行为记录进行数据挖掘分析,以实现总结互动点播内容、时段和使用量趋势等业务特征的分析目标。根据方案设计的结论,从互动业务管理平台中可以取得这类业务分析所需要的全部源数据。但是,互动业务管理平台中的点播记录通常全部是以文本记录的方式保存的,并且由于点播记录的数量较大,一般按照记录数量或者时间间隔进行了拆分。为了利用这些信息就有必要进行相应的数据抽取转换工作。在实际应用中可以使用预先设计的脚本定时从互动业务管理平台中进行数据的抽取,然后经过简单的类型变换后加载至数据仓库中。为了达到分析目标,主要抽取的信息有产生用户点播记录的用户ID、点播内容的代码及分类信息、点播的开始和结束时间等等。原始的点播记录信息转换后,就可以进行下一步的主题分析准备了,例如可以按照点播的时段、点播的内容,以及用户区域等信息进行不同维度的数据分析。图2是对互动点播类业务按每日播频率进行的一个分类统计后用SAS统计工具生成的图形,在生成统计数据前需要从原始数据中分离出点播时段信息,并行分类汇总。从图2中可以发现,点播频率在一天之中的大致分布规律。从点播总量上看,每天点播频率最高的时段是在18:00至22:30左右,峰值在21:00到22:00左右出现,此外在中午12:00左右也有一个高峰时期。点播频率最低的时段大约在3:00至5:00左右。根据每天点播业务频率的分布情况,可以进行相应的网络容量分析,比如通过业务高峰数值可以评估出互动点播平台的并发容量是否足够。另外,根据每日点播频率的分布特征,可以安排相应的业务运营工作部署。例如在业务高峰时段可以集中投放一些广告、通知信息,而一些系统割接和调试工作尽量应安排在使用频率较低的时段内进行。如果需要了解一些特殊的节假日的点播频率分布特征,可以在原始数据中进行重新过滤筛选,生成类似的频率分布图并与图2进行比对,然后分析其特点。从互动业务点播数据还可以按内容代码维度进行分析,以统计出与互动视频节目内容相关的数据,也可以将不同维度的数据进行组合分析,进一步挖掘出业务方面感兴趣的信息。
2影响互动业务用户在线状态因素的综合分析案例
所谓大数据,一方面是指在一定时间内无法被常规信息技术和传统数据库管理软硬件工具感知、获取和处理的巨量数据集合;另一方面,是指形成、管理、挖掘大数据, 快速搜集、处理、分析大数据的技术和能力。
大数据的主要特点是海量、非结构化和半结构化、实时处理。大数据技术,或大数据分析技术,就是对这些数量巨大的海量数据进行搜索、整理、分析、加工,以便获得有价值的产品和服务,以及提炼出具有深刻见解和潜在价值信息的技术和手段。
1 大数据分析在公共交通中的应用
交通拥堵日益严重,交通事故频繁发生,这些都是各大城市亟待解决的问题,科学分析交通管理体系成为改善城市交通的关键所在。因此,高效、准确地获取交通数据是构建合理城市交通管理体系的前提,而这一难题可以通过大数据管理得到解决。
大数据分析技术改变了传统公共交通的路径:大数据可以跨越行政区域的限制;大数据可以高效地整合交通信息;大数据可以较好地配置公共交通资源;大数据可以促进公共交通均衡性发展。在大数据中,随着数据库摄入更多数据,所消耗的计算工作量反而递减,配置成本也随之减小,但所做的计算则更加精准。大数据在公共交通中的应用表现在:一旦某个路段发生问题,能立刻从大数据中调出有用信息,确保交通的连贯性和持续性;另一方面,大数据具有较高预测能力,可降低误报和漏报的概率, 可随时针对公共交通的动态性给予实时监控。因此,在驾驶者无法预知交通拥堵的可能性时,大数据可帮助用户预先了解。
2 大数据分析在医药领域中的应用
在医学领域,我们正处在一医学信息爆炸的时代。基因序列、各种医学图像、电子病历记录和多中心临床药物试验等,使生物医学领域跨入网络化的大数据时代。如何从医疗大数据中提取出有用的信息是目前亟待解决的问题,构建医疗大数据系统需要将各家医院通过互联网连接,实现各家医院之间的数据共享。将医疗数据存于专门的数据库中,在信息协作平台上将各种医疗信息分类整合,建立成一个相互共享的网络,从而实现医疗数据信息的共享。
大数据技术的核心就是预测,使用大数据分析技术可以提高诊断疾病的准确率,对有效地治疗疾病具有重要价值。其中最好地体现在传染病预测上,因为传染病的发生、发展、分布与地理地貌、生态景观、人文环境有密切关系,特别在全球气候变化和经济全球化背景下,自然环境及人类社会活动对传染病的影响越来越重要。因此,时间和空间信息对传染病的预测、预警具有重要意义。利用大数据可对传染病疫情的时间、空间信息进行多维搜索,检索、处理和分析这些疫情信息可实现对传染病的流行趋势及影响范围进行预测、预警,对提高传染病防控的针对性、预见性和主动性,抑制流行病的蔓延,以及制定卫生决策都具有十分重要的意义。
3 大数据分析在移动通信网络优化中的应用
当前的大数据技术面临着数据过大和安全隐患越多这两个问题。在移动通信网络发展的过程中,网上用户在不断增加,通信网络的范围在不断扩大, 而移动通信网络所产生的数据量也在不断上升。大数据技术和移动通信网络的安全问题密切相关,一旦技术出现漏洞,移动通信网络的数据就会出现安全隐患。大数据技术中存储功能的是云储存技术,它将大量的网络数据放在统一的平台之上,加大了数据丢失的风险,影响移动通信网络的安全。
优化移动通信网络,需要运用大数据技术的储存功能。移动通信网络的用户在不断变化,每天都要更新大量的数据,而且这些数据都需要进行妥善管理和保存。在这一过程中,可以应用大数据技术的存储功能, 将存储虚拟化作为解决存储问题的有效策略。
优化移动通信网络,需要获取相关的数据信息。移动通信网络的用户非常多,而且其所跨越的时间、空间维度都很大,这些用户在移动通信网络留下的海量的数据信息,使数据获取工作难以继续。在进行数据的获取和收集工作时,移动通信网络可以应用大数据技术,减少人力和物力的投入,同时增加数据的准确度。
4 结语
本文是大数据技术在实际生活领域的应用,分别阐述了大数据分析技术在公共交通、医药领域、移动通信网络优化中的具体运用。借助大数据技术的即时性、准确性和预测性,将其应用到人们的日常生活领域,提高了人们的生活质量。
参考文献
[1]陈美.大数据在公共交通中的应用[J]. 图书与情报,2012(06):22-28.
[2]张春丽,成.大数据分析技术及其在医药领域中的应用[J].标记免疫分析与临床,2016(03):327-333.
[3]汪敏,廖名扬.大数据分析在移动通信网络优化中的应用研究[J].通讯世界,2017(02):123.
[4]祝兴平.大数据分析技术及其在数字出版中的应用[J].出版发行研究,2014(04):13-16.
[5]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J]. 软件学报,2014(09):1889-1908.
作者简介
【关键词】JAVA编程技术 网络数据分析 技术应用
1 JAVA编程技术的概念
对于JAVA编程技术的应用的,为计算机软件发展带来了更广阔的前景,在此环境中所开展的编程计划也能够更好的利用计算机数据资源,在有限的存储使用空间内,更大限度的完善编程所遇到的漏洞问题,提升计算机软件的使用安全性。除此之外,在一些移动端的软件开发中也广泛的应用到这种技术,更方便客户使用过程中的软件更新,并帮助提升软件应用过程中的使用安全性。技术主要是通过框架设计以及内部数据程序的汇编来实现编程,所应用的汇编语言也是特定的,程序框架能够识别出这种语言,应用后在程序编写的效率上会有明显的提升。针对使用过程中所遇到的网络病毒入侵问题,在汇编过程中会设定特别的识别码,这样就不容易受到病毒的攻击,并且程序框架之间也能够相互配合,达到更理想的使用效果,这也是传统方法中难以达到的标准,成为了JAVA编程技术应用的决定性因素。
2 JAVA编程技术的网络数据分析应用特点
将JAVA编程技术与网络数据分析相互结合,可以提升数据分析的速度,快速的实现分析目标,所得到的结果也与实际情况相符合。技术不断的发展,对于已经完成的编程框架,可以在网络环境中进行远程升级,这样为客户使用预留了更多自定义的空间,也能够更好的解决现场数据分析误差问题。JAVA编程技术是十分严谨的,应用期间的框架设计决定了最终功能是否能够实现,以及功能实现的理想情况,在网络环境中开展数据分析,需要遵从网络环境的特点,观察分析结果与实际情况是否能够保持一致,并充分利用网络数据环境来提升现场分析任务的全面性,这样在最终结果上也能够最大程度的降低误差。
3 基于JAVA编程技术的网络数据分析具体内容
3.1 数据的采集与整理
采集整理数据是开展分析任务的首要步骤,在所进行的采集任务中,同样是利用网络环境的高效便捷性来进行的,技术人员只需要对最终的结果进行审核,观察所采集的数据范围是否能够达到网络分析的使用需求,并根据实际情况来适当的扩大调整范围,最大限度的降低分析调整过程中出现的数据丢失或者误差现象。针对传统方法中所存在的技术性问题,分析一段时间后,数据采集结果中会出现相关的异常,编程经验丰富的技术人员通过观察这种异常便能够了解到其中需要继续深入完善的内容,并通过技术性方法来更好的解决。编程技术的合理运用也是解决相关问题的有效方法之一,应当得到技术人员的高度重视,对于编程期间框架设计,也可以根据数据的采集整理结果来进行,达到理想的效果,为接下来将要开展的工作任务打下稳定基础。
3.2 程序框架编写
根据所要开展的工作任务以及程序的使用需求,先对大体框架进行编写整理,达到理想的编写效果,随着程序汇编的审图进行,数据分析也逐渐开展,并且进入到不同的深度阶段。对于文章中常常提到的设计内容优化问题,程序汇编也起到了决定性作用,关系到优化是否能够顺利进行并达到预期的目标。汇编任务开展一段时间后,技术人员需要对网络数据分析的结果进行审查,观察其中是否存在误差或者不合理的内容,帮助更好的提升工作任务完成质量,初期阶段发现问题也能够通过汇编技术来及时的调整,避免造成后期汇编资源方面的浪费。框架初步编写完成后,进入到后续的分析应用阶段,应用可以先进行试验,观察各项数据参数是否能够达到理想的标准化水平,如果发现问题在这一阶段可以进行调整,避免问题继续深入,影响到软件的正常使用。
技术发现会向着高效便捷的方向来进行,更多的应用自动化技术,在对现场工作任务进行分析研究时,所遇到的问题大部分都能够通过系统的自动更新来解决,使技术发展中所总结的经验能够得到更好的运用。技术发展需要全体编程技术人员的共同努力,充分利用现有资源来完成工作任务,通过这种方法可以使技术的发展方向得到更好的确定,并避免程序后期使用漏洞频繁出现的问题发生。资源优化利用也是未来的主要发展方向之一,需要得到技术人员的高度重视,并在日常编程分析工作中合理的运用这一方法来实现工作任务,促进管理计划可以更稳定的落实应用。
4 结语
综上所述,在我国计算机软件飞速发展的当下,JAVA编程语言已经成为科学技术研发过程中不可或缺的重要内容,大力发展计算机软件JAVA编程技术已经成为我国科学技术发展过程中的重要工作内容。
参考文献
[1]田家旗.Java开发语言的开发平台与J2EE编程技术问题研究[J].信息技术与信息化,2016(04).
[2]李健周.关于计算机软件开发的JAVA编程语言研究[J].信息通信,2013(12).
作者简介
电力营销数据分析系统的主要功能是采集数据,并对数据进行分析处理。而在中国推行电网改革后,电网系统的改革重点在于研究电力影响。此外,在电力营销工作中依然存在在一些问题,这些问题对中国电力营销行业的发展产生不良影响,甚至会导致企业资金的流失。在此形势下,结合数据集成技术对电力营销数据进行分析研究尤为重要。
1 实现电力营销数据分析系统的困难所在
电力营销数据分析系统指的是利用全球各个国家的网络技术采集不同地区的电力营销数据,并进行分析处理,然后利用远程控制技术对这些数据进行传输管理,为决策提供科学的数据依据。
1.1分布式数据的采集、传输与转换的障碍
我国电力营销系统从数据接口形式上来说,并没有形成完善严格的规定,系统软件的运用也有一定差异。但是营销数据的数量较为庞大,形式多种多样,将这些数据存放在同一个系统中,转换为系统所要求的格式进行存储。这样势必会使数据传输存在安全隐患[1]。
1.2系统中的算法结构与数据结构问题
电力营销系统中的数据结构与算法结构需进行改进处理,提高数据结构与算法结构的通用性。在电力营销中,数据结构与算法结构会因为系统的不同而存在差异。在计算与分析处理数据的过程中,要求深入了解原有系统的基本特征,积极做好系统的通用算法转换工作,调整与处理通用设计结构以及数据接口,在满足相关要求后,将其应用到系统中[2]。
2 在电力营销数据分析系统中应用数据集成技术
从我国从2010年,基础设施建设后,有关信息系统建设已经进入到一个全新的发展阶段,全年的系统集成服务市场总资产为288.69亿元。2011年,中国系统集成服务市场的规模为349.11亿元,同比增长了20.9%,而2012年、2013年系统集成服务的市场规模分别为419.67亿元、499.06亿元,详见表1。
表1 中国从2010年至2013年系统集成服务的市场规模和增长率
时间(年) 2010 2011 2012 2013
市场规模(亿元) 288.69 349.11 419.67 499.06
同比增长率(%) 19.7 20.9 20.2 18.9
中国内部系统集成市场的发展规模呈高速增长趋势,行业规模增长在219.5%左右。而推动数据系统集成技术发展,扩大其应用领域制造业、各级各类企业信息化、教育以及政府应用。我国其他行业信息化进程并没有完成,对于系统集成需求需要不断增加。电信、金融、政府这三大行业在系统集成服务中所占比重为55.1%,其他应用领域,尤其是电力营销领域所占比重较低。
银行作为金融业IT投入的主体,是总体投资规模的72.2%,而银行业IT投入的稳定也是金融信息化投入增长的一个主要原因。图1为2011年至2013年国内金融业IT投资规模。
图1 2011年至2013年国内金融业IT投资规模统计图
此外,虽然现阶段全球对于系统集成的市场需求较大,然而系统集成市场的增速并没有因此而快速增长,如图2所示。
图2 2007年至2013年全球系统集成的市场规模
其中 市场规模(亿美元)
因此笔者建议加强数据集成技术在电力营销数据分析系统中的应用研究。下文从两个方面应用思路以及实现应用这两个方面进行探讨[3]。
2.1应用思路
根据系统内部结构可以将电力营销数据分析系统划分为两个部分。其一,数据集成。其二,实现软件功能。电力数据分析系统在运行的过程中,上述两个部分使用的是同一数据库服务器。而在系统中利用数据集成技术,即在全范围内对数据进行总体设计与总体布局,在全部数据运行过程中,创造完整、稳定的数据环境,对系统基本功能以及算法结构进行定义,在掌握数据库结构的基础上,开发和利用[4]。
系统中的数据集成部分主要利用的是中间件技术,完成系统的再度开发,保障数据集成部分的功能得到正常得发挥,从而在采集数据与传输数据方面得到充分的应用。在选择利用中间件的过程中,需要密切注意中间件的质量,确保技术的先进性,以此才能够保障数据运行的稳定性与安全性,从而提高设计应用的质量,减少传输数据过程中所造成的损失。
此外,从数据采集方面而言,类型不同的电力营销系统也存在在一定的差异,这些差异包括以下三个方面。其一,数据内容的多样性。数据种类较多,包括了普通文件、关系数据等,要公开分析整理这些数据。其二,每个电力营销系统应用的是不同的数据管理系统,所以数据采集与数据管理也并不相同。其三,不同的数据访问模式。按照数据存放形式的不同,一些数据访问利用的是数据库接口完成访问,而另一些数据则利用访问文件来完成数据访问[5]。
2.2系统应用
数据集成服务器:因为采集数据的过程中,采取的单向方式,因此服务器接收端位于本地,发送端和分布式数据库联系在一起,分两端服务。
本地数据库:因为各个电力营销系统中的数据量较为庞大,为了确保访问速度与数据容量,采取的是多个数据服务器方式。在数据库中需要设计安装存贮设备与触发器,用来减少系统工作量,确保数据传输与处理的一致性。
应用服务器:从具体应用的要求出发,系统逻辑层的服务功能包括了两类,其一,低级服务;其二,高级服务。其中低级服务指的是本地数据库和其他数据库的连接与维护。而高级服务功能则指的是根据要求配备不同组件,所有组件提供至少要求能够提供一种特定服务。
数据传输的安全性要求:在传输数据的过程中,有多个渠道,而不同渠道在保障数据实时性与安全性方面并不相同,可以利用电子邮件进行数据传输,也可借助信息通信中间件进行数据传输,确保数据的单次传输。这种传输方式是以中间件作为渠道进行数据菜蔬,面向的是分布式信息中间件产品,在消息对列的基础上,为分布式应用搭建可靠、完整的信息交换平台。对于传输安全性有着较高要求的客户,可以利用信息通信中间件作为传输方式。例如:以信息通信中间件为主,电子邮件为辅的传输方式,数据接收服务器从信息队伍中自动提取有关消息,从而完成数据通信[6]。
3结语
综上所述,中国市场经济的稳步发展,要求电力营销企业不断提高自身的市场竞争力,在实际的发展过程呢个中,应用先进技术,不断改进自身的经营管理质量,在电力营销数据分析系统中充分应用数据集成技术,提高数据采集与数据处理效率。
参考文献:
[1]徐晶,徐锋.数据集成技术在电力营销数据分析系统中的应用[J].科技致富向导,2014,10(25):201-202.
[2]贾玉君.国内电力营销监控领域的研究现状与发展[J].电力信息化,2010,09(15):251-252.
[3]郭航宇.电力营销数据分析中的数据集成技术研究[J].科技与创新,2014,10(09):440-441.
[4]雷波.数据挖掘技术在电力营销系统中的应用研究[J].广东科技,2014,02(08):331-333.
本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。
一、绪论
互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。
电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。
电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。
在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。
在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。
二、站点信息统计方法
Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的
主要特点:
1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。
2.结构是隐含的。如电子文档SGML格式。
3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。
4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。
5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。
三、数据分析的方法
Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。
知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:
1.依赖性分析
依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。
2.聚类和分类
在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。
3.神经网络
神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。
4.数据挖掘中的关联规则
关联规则是数据挖掘的一个重要内容,通常关联规则反映的是数据间的定性关联关系。如一个商品交易数据库,一条记录表示用户一次购买的商品种类,每个属性(A、B……)代表一种商品,每个属性都是布尔类型的。一条关联规则的例子是:{A、B}{D}[2%][60%],规则的含义是“如果用户购买商品A和B,那么也可能购买商品D,因为同时购买商品A、B和D的交易记录占总交易数的2%而购买A和B的交易中,有60%的交易也包含D”。规则中60%是规则的信任度,2%是规则的支持度。数据挖掘就是要发现所有满足用户定义的最小信任度和支持度阀值限制的关联规则。数据只是定性地描述一个交易是否包含某商品,而对交易量没有定量描述,这种布尔类型数据间的关联规则被称为定性关联规则。但数据记录的属性往往是数值型或字符型的,这些数据间也存在对决策有帮助的关联规则,相对于定性关联规则,这些规则被称为定量关联规则。
另外,数据挖掘目前仍面临着数据质量的问题。由于数据仓库中的数据来自多个数据源,而在合并中存在很多障碍,如:没有建立合并视图所需的公共关键字;数据值相互抵触;元数据的说明不完备或丢失;数据值的不洁净等等。数据挖掘是在标准化的数据基础上进行的,因而这些都会严重破坏数据的准确性,导致最终决策的失误。所有这些问题都在等待着人们去发掘更好的解决方法。
参考资料
1.周斌,吴泉源,高洪奎:“用户访问模式数据挖掘的模型与算法研究”,《计算机研究与发展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
引言
LIN是一种低成本的串行通讯网络,用于实现汽车中的分布式电子系统控制。LIN的目标是为现有汽车网络(例如CAN总线)提供辅助功能。在不需要CAN总线的带宽和多功能的场合,比如智能传感器和制动装置之间的通讯,使用LIN总线可大大节省成本。
目前,低成本的局部互联网络LIN在汽车电子和工业控制中的应用越来越广泛,而基于LIN总线的协议分析和调试测试工具少且昂贵。大部分LIN总线开发工具存在一些问题:(1)调试LIN总线通常做法是通过网关将LIN帧转换成CAN帧,再用基于CAN的测试工具间接调试LIN,当网关出现问题时这种方式就行不通;(2)和PC连接时采用串口或USB接口等有线的连接方式,在特定环境无法引线的情况下无法进行现场开发调试。
SoC(System on a Chip片上系统)技术是将微控制器或DSP核、存储器、逻辑电路、I/O接口及其他功能模块综合在一颗芯片上的系统解决方案。由于处理器和存储器的可编程能力,使得这种以CPU为核心的解决方案具有很强的灵活性和可修改能力。赛普拉斯(cy―press)公司开发的PSoC是目前最具灵活性的基于微控制器的片上系统解决方案,它模块化的片内数字和模拟电路不仅具有很高的可编程性,而且还可以实现动态重新配置,即在运行时根据系统不同时刻的需求,通过编程动态地改变存储在片内闪速存储器中设定的参数.重新定义系统所需要功能模块的种类和数量,动态地完成芯片资源的重新分配,实现新的元器件的功能。采用PSoC可以迅速缩短设计周期,降低设计风险,保证系统资源的最大化、最合理化和最经济化应用,在无线、手持式设备、数据通信和工业系统设计等领域PSoC都有着广泛的应用。
WirelessUSB是Cypress公司专门针对短距离点到点或多点到点的无线连接而设计的一种低延迟、干扰免疫、低成本和低功耗的短距离无线网络,适合无线电脑外设和无线传感器网络应用。WirelessUSB的协议是轻量级的,可以在只带256字节RAM和8K字节ROM的8位微控制器中实现。WirelessUSB使用频分多址(FDMA)和码分多址(CDMA),可有效避开其它无线网络的干扰,能够与蓝牙、Wi-Fi等无线网络共存,在面向2.4GHz无线系统的同类产品中提供最佳的抗干扰性能。传输距离从10米(最高1Mbps)到50米(最高62.5Kbps),使用既有的USB架构,因此无须特别的驱动软件。
为弥补LIN网络开发工具的不足,本文提出的方案一基于PSOC的无线LIN总线分析仪,通过无线连接能并行调试多个LIN总线,在有效降低开发成本和提高开发效率的同时提供更好的扩展性和灵活性。
LIN总线分析仪硬件介绍
LIN总线数据分析系统由主机桥接器(1个)和总线监控终端(多个)两部分组成。总线监控终端采集LIN总线上的数据,通过无线网络发送给主机桥接器;主机桥接器从无线网络上接收LIN总线监控数据,通过USB接口发送到PC,由PC监控软件对数据做进一步处理。系统可以实现数据监听、错误检测、主机仿真、从机仿真等功能。
系统的硬件由主机桥接器(通过USB接口连接PC)和LIN总线监控终端(连接LIN总线)组成,LIN总线监控终端选用MCU+RF的构架,包括PSoC控制器、射频收发器、LIN收发器和电源管理等。
主机桥接器采用PRoC架构,在单芯片内集成了线性稳压器、enCoRe-U微控制器、USB设备和射频收发器,仅需极少的外部元件。
系统在选择控制器时考虑到功能的扩展,选用了功能强大的CY8C29466,它集成了性能为4M1PS的8位M8C处理器、32K的Flash、2K的SRAM,还集成了24/48MHz晶振、32KHz晶振,以及16个可编程的功能强大的数字用户模块、12个模拟用户模块和可编程的内部互联,可非常方便地选用多达100种的外设和设置连接方式,将PCB上大部分的元件和走线移到芯片内部,而且可动态重配置,开发非常灵活。
系统中的射频芯片选择CYRF6936,它属于WirelessUSB LP系列,是Cypress的第二代射频片上系统(Soc),兼容第一代的CYWUSB69XX器件。CYRF6936增加了一系列增强的特性,包括更广的操作电压范围(1.8~3.6V)、更小的工作电流、更高的数据率(最大速率为1Mbps)、更短的晶振起振时间、同步稳定时间和链路切换时间。CYRF6936可用于无线鼠标键盘、无线操纵杆、远程无线传感和控制、无线耳机、家庭自动化和自动化仪表等。
主机桥接器(Bridge)选用Cypress的PRoC(Programmable Radio On Chip)LP(Low Power)芯片CYRF69213。PRoC LP器件在一个芯片里集成了微控制器和射频收发器,是同样封装提供双重功能的单芯片解决方案,它主要集成了性能为4MIPS的8位M8C处理器、USB2.0低速接口、2.4GHz射频收发器,内部还集成了3.3V电压调节器和USB上拉电阻等,大大减少外部元件,缩小电路板面积,有效降低成本。CYRF69.213的主要用于无线网络的桥接器,将无线网络的数据通过USB接口发往PC机,同时将PC机的控制命令发给无线设备。
局部互联网络(LIN)是车身网络的最低层级的网络,它提供了传感器和执行器之间的低成本通信。本论文采用LIN总线驱动器MC33661符合LIN 2.0规范,很好地解决了以前的驱动器MC33399模式过于单一、无法调节翻转频率导致器件功耗较大、驱动功率不够等问题。
考虑到系统的外部电源、MCU和无线射频模块的工作电源、MCU的工作电流,电源模块选用带关断功能的低压差线性稳压器LT1121-5(5V稳压)和高效率的线性电压调节器AMS1117~3.3(3.3V稳压)。
LIN总线分析仪软件介绍
本系统的软件设计方案围绕着数据的提取、传输和处理。从数据流向上看,数据经过四个阶段的处理,分剐是LIN总线协议处理( 从总线上提取数据帧)、WirelessUSB协议处理、USB协议处理和PC监控软件的处理(显示监控数据和总线信息)。本系统软件可分成三大部分:总线监控终端、主机桥接器和PC,其中总线监控终端包括LIN协议处理和WirelessUSB协议处理,主机桥接器包括WirelessUSB协议处理和USB协议处理,PC包括USB协议处理和监控软件处理。
软件需要处理的任务
总线监控终端软件设计
LIN总线监控任务:该任务时刻监控LIN总线的活动,当有数据帧到达时,将接收到的数据帧放入无线发送缓冲区,同时还需处理冲突和数据出错。
WirelessUSB从机传输任务:该任务监控数据帧传送到主机桥接器,同时接收主机的配置信息,传递给LIN监控任务。
主机桥接器软件设计
主机USB设备监听任务:主要处理和USB主机的交互,时刻监听USB主机的请求事务。
WirelessUSB主机传输任务:主要功能是接收监控数据帧,传送给USB监听任务,同时将主机的配置信息传送给总线监控终端。
PC机监控软件设计:
主机USB传输任务:该任务主要处理主机与USB设备的交换,定时发送事务轮询USB设备。
主机输入输出处理任务:该任务主要处理USB数据与用户的交互。
LIN2.1协议各层的实现任务
LIN总线具有规范的分层结构,它定义了物理层、数据链路层和传输层的协议规范。物理层定义了LIN总线传输媒介的物理特性、总线驱动和接收特性、位速率误差和位定时和同步等。数据链路层实现数据帧接收和错误检测、波特率计算以及数据的包装,解包,负责报文过滤和恢复管理等功能。传输层实现了单帧或多帧数据传输,在应用层和数据链路层之间翻译数据帧,传输诊断请求和响应,提供外部总线的诊断接口,实现节点配置、识别和诊断。
数据链路层是LIN2.1协议的核心,负责发送和接收数据帧,处理信号的组帧和解帧。
LIN协议的数据链路层的PSoC实现
由于LIN总线分析仪既可以监听总线活动,也可以仿真主机或从机节点。重点介绍总线分析仪数据链路层的实现。总线分析仪的数据链路层的实现包括调度表定时、间隔场的产生、间隔场和同步场的接收以及数据的传输。
调度表定时是通过一个8位计数器(schedule Timer)来实现的。间隔场采用三个8位计数器产生,一个8位计数器(SB_Baud_Rate_Counter)用来产生波特率时钟,为后两个计数器提供时钟;一个8位计数器(sB_Bit_Time_Counter)用来在每个数据位的中间产生位时中断;一个8位计数器(Synchro_Break_Counter)用来产生实际的间隔场。
接收间隔场和同步场的硬件配置包括1个16位的定时器、1个16位的计数器和RX(串口接收)引脚。一个带输入捕捉的16位定时器用来计算间隔场和同步场上升沿和下降沿之间的时间。一个16位的计数器用来判断超时状态。RX引脚连接到定时器的输入捕捉,配置捕捉触发为上升沿或下降沿。同时,使能RX引脚的GPIO中断,所有的计算都在GPIO中断服务程序中进行。
数据传输阶段的硬件配置包括2个8位计数器、1个串口接收模块和1个串口发送模块。一个8位计数器(DR_Baud_Rate_Counter)用来产生波特率时钟;一个8位计数器(Bit_Time_Counter)用来在每个数据位的中间产生位时中断,串口接收模块(RX8)用来接收数据(UART 8N1编码格式);串口发送模块(TX8)用来发送数据(UART 8N1编码格式)。
相关处理如下:
缓冲器空中断:如果是第一次中断,则启动位时定时器并打开中断。如果要发送的字节数为O,则置最后字节已发送标志,否则发送下一字节数据,同时字节数减1。
接收缓冲器满中断:当工作监听模式时,将所有接收到的数据保存到临时缓冲区。分析仪如果处于发送状态时则立即中断返回,否则处理接收的数据。当工作在主机模式时,随后的处理与主机的接收中断处理相同。当工作在从机模式时,随后的处理与从机的接收中断处理相同。
数据传输位超时中断:当工作在主机模式时,中断处理与主机的位超时中断处理相同。当工作在从机模式时,随后的处理与从机的位超时中断处理相同。
数据传输位错误中断:位时计数器每位产生一次中断,在ISR中通过比较TX和RX引脚是否相同来判断是否有位错误。如果检测到位错误,将载人接收间隔场和同步场的硬件配置,退出帧传输。
主机节点的数据链路层实现包括调度表的定时、间隔场的产生、字节数据(包括同步场和PID)的发送和字节数据的接收。