时间:2023-05-24 16:48:00
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据分析论文范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
AEFI数据来源于中国疑似预防接种信息管理系统。疫苗接种数据来源于中国免疫规划信息管理系统。1.2统计方法采用描述性流行病学方法,运用EXCEL2007进行统计分析。
2结果
2.1地区分布
2013年鞍山市共报告AEFI189例,与2012年相比(35例)上升了440%。县级AEFI报告覆盖率100%。各县(市、区)AEFI报告数与2012年相比上升了55.56%~4200%。
2.2年龄与性别分布
男女性别比为1.49:1。报告例数排前位的年龄组分别是0岁组(101例,占53.44%)、1岁组(51例,占26.98%)、6岁组(23例,占12.17%)。
2.3疫苗和剂次分布
AEFI涉及的疫苗排前位的分别是:百白破疫苗(70例,占37.04%)、麻风疫苗(36例,19.05%)、白破疫苗(23例,12.17%)。接种疫苗第1剂次发生AEFI128例,占67.73%;第2剂次18例,占9.52%;第3剂次17例,占8.99%;第4剂次26例,占13.76%。以疫苗单剂次统计,AEFI涉及的疫苗排前位的分别是麻风疫苗(36例)、第4剂次百白破疫苗(25例)、白破疫苗(23例)、第1剂次百白破疫苗(22例)。
2.4报告发生率
根据国家免疫规划疫苗接种率监测报告数据估算,2013年我市AEFI报告发生率为32.27/10万剂次。国家免疫规划各疫苗AEFI报告发生率波动在3.82/10万剂次~125.28/10万剂次。报告发生率居前位的分别为:麻风疫苗125.28/10万剂次,白破疫苗84.57/10万剂次,百白破疫苗65.17/10万剂次。
2视频监控在烟草行业的发展及应用现状
(1)烟田监控:实现对烟田、育苗大棚内实时监控;
(2)烟叶收购站监控:实现对烟草所有站点烟叶收购全流程监控视频调看、查询、巡视、控制的功能;
(3)生产及公用设施区监控:主要用于监控车间内重要设备、生产线运行、物流线路及环境状况,以及动力中心车间内空调、锅炉等重要设备的运行及环境状况,防止灾害和事故的发生。
(4)烟草物流配送中心监控:对物流配送中心进行实时监控;
3视频大数据分析的技术需求
随着视频监控在烟草行业的大规模应用,视频数据量的增加,每天产生的数据量都是以TB(1000GB)级别计算的,若是利用传统的技术手段对每天的视频进行检索和分析,则需要数小时的时间才能够完成,工作量及工作难度可想而知;而对于更高级别的视频数据,如PB(1000TB)级别的视频数据进行分析和检索时间那就是很多天了。视频检索与分析的效率低下,也是目前视频数据利用效率及数据价值低下的首要原因。为此,如何提高视频数据分析与检索的效率,如何针对PB(1000TB)级别甚至EB(1000PB)级别的海量数据进行分析与检索,提升视频监控数据价值,成为了当前用户的首要需求,也成为了当前视频大数据分析技术的难点及关键点之一。同时,在对视频进行检索与分析的过程中,需要考虑检索结果的准确性。由于视频图像信息为非结构化数据,如何合理有效地对非结构化的数据进行检索分析,优化计算机图像识别算法,是提高视频大数据分析准确性关键所在。再者,当完成视频检索与分析后,如何做好视频数据与非视屏数据的整合与关联工作,是后期视频数据应用时重点考虑的内容。
4视频大数据在烟草行业的应用思考
时下,烟田监控、烟叶收购站监控、生产及公用设施区监控、烟草物流配送中心监控等的视频监控数据较多仅仅用作安防视频使用,还未涉及到与烟草业务的关联;随着视频监控建设的完善及视频大数据技术发展,各类监控视频数据量的增加,考虑到投资回报比,是否可以通过视频大数据分析,将烟草业务与视频监控相关联,在海量的视频监控数据中提取有益于烟草行业发展的变革或新技术呢?
4.1安防业务
基于传统视频监控,安防业务是传统业务之一,通过大数据分析,有效快捷的提取安防所需要的视频片段。同时基于视频行为告警策略,及时告警。
4.2安全生产
结合视频大数据分析,将以往多次生产事故监控视频整合,通过对多次生产安全事故的分析,总结出更为安全可靠的生产规则;再则通过视频监控与生产行为的结合,制定安全生产标准,通过声音报警或警示灯报警等技术,在不符合标准视频监控预定义的安全规则情况时,能够及时报警。通过视频监控分析,提升生产的安全性。如采用彩色网络快球摄像机和彩色固定网络枪式摄像机,彩色网络快球摄像机的预制位设置应优先,根据视频大数据分析后,系统可提供不同故障区域或设备的故障信号,各工艺段或设备的操作运行信号,通过系统集成与生产监控实现联动,平常摄像机对正在操作或运行设备进行监控,一旦某个故障点报警,摄像机立刻自动转动到报警点,监控中心的NVR主机开始录像等。
4.3效率生产
结合视频大数据分析,通过分析各个不同烟站或烟厂中的同一种生产行为,结合对海量数据进行智能分析,提取出价值数据片段,形成元数据信息库,再通过人为加工后期数据,总结形成效率生产有用的价值信息,提供生产借鉴,提高生产效率。
4.4创新生产
通过视频大数据分析,将以往的视频通过轨迹分析,得出以往生产过程中各类生产动作中不必要或者多余的部分,简化或者优化生产规则;通过对给类生产行为的总结,提出合理的建议,为生产提出创新性意见或建议,提高生产率。
数据的采集是指利用传感器、社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化以及非结构化的海量数据,这是一切数据分析的基础。数据的采集需要解决分布式高速高可靠数据的采集、高速数据全映像等数据收集技术。还要设计质量评估模型,开发数据质量技术。而数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。
1.2数据预处理
数据采集的过程本身就有会有很多数据库,但如果想达到有效分析海量数据的目的,就必将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,而且在导入基础上做一些简单的辨析、抽取、清洗等操作。
①抽取:因为我们通过各种途径获取的数据可能存在多种结构和类型,而数据抽取过程可以有效地将这些复杂的数据转换为单一的结构或者便于处理的类型。以达到快速分析处理的目的。
②清洗:对于海量数据而言,数据所处的价值层次不一样,就必然存在由于价值低而导致开发成本偏大的数据,还有与数据分析毫无关系的数据,而另一些数据则是完全错误的干扰项,所以对数据通过过滤“去噪”从而提取出有效数据是十分重要的步骤。
1.3数据的存储与管理
当我们采集数据完成后,就需要将其存储起来统一管理,主要途径就是建立相应的数据库,进行统一管理和调用。在此基础上,需要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。还需开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、数据的去冗余及高效低成本的大数据存储技术;以及分布式非关系型大数据管理与处理技术、异构数据的数据融合技术、数据组织技术、研究大数据建模技术、索引、移动、备份、复制、可视化技术。
1.4数据的统计分析
一般情况下,统计与分析主要就是利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
1.5数据分析与挖掘
所谓数据挖掘是指从数据库中的大量不完全的、有噪声的、模糊的、随机的实际应用数据中,揭示出隐含的、先前未知的并有潜在价值的信息的过程。与前面统计和分析过程不同的是,数据挖掘一般不会有预先设计好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
2数据分析的8个层次
2.1标准化报告(StandardReports)
标准化报告作为数据分析的第一个层次,要求相对较低,主要是借助相应的统计工具对数据进行归纳总结,得出包含主要参数指标的标准化报告。类似于一个销售企业每月或者每季度的财务报表。
2.2即席查询(AdHocReports)
用户可以通过自己的需求,灵活地选择查询条件,系统就能够根据用户的需求选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询所有的查询条件都是用户自己定义的。在面向高层的数据分析软件中,用户随意添加想要查询的指标按钮再加上相应的限制条件,就可以立即生成可视化的统计结果,不仅一目了然,而且没有任何操作难度。
2.3多维分析(QueryDrilldown)
多维分析是指对具有多个维度和指标所组成的数据模型进行的可视化分析手段的统称,常用的分析方式包括:下钻、上卷、切片(切块)、旋转等各种分析操作。以便剖析数据,使分析者、决策者能从多个角度多个侧面观察数据,从而深入了解包含在数据中的信息和内涵。上卷是在数据立方体中执行聚集操作,通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。上卷的另外一种情况是通过消除一个或者多个维来观察更加概括的数据。下钻是在维级别中下降或者通过引入某个或者某些维来更细致地观察数据。切片是在给定的数据立方体一个维上进行的选择操作,切片的结果是得到了一个二维的平面数据(切块是在给定的数据立方体的两个或者多个维上进行选择操作,而切块的结果是得到了一个子立方块)。转轴相对比较简单,就是改变维的方向。
2.4仪表盘与模拟分析(Alerts)
仪表盘用于监控一些关键指标。模拟分析是由操作者动态地加以调节的控件(如滑动块、可调旋钮、选择框等),来控制管理决策模型行为某些参数。当操作者通过控制面板对模型中的参数值或变量值进行调节时,图形中的曲线、柱形组或分析指标等要素就会发生相应的运动,而这种运动正好反映了该参数的变化对模型行为的影响,如果这种变动引起了模型中最优解或其他关键数字的变化,能够随时将关于这种变化的结论正确地显示出来。
2.5统计分析(StatisticallyAnalysis)
我们知道概率论是数理统计的基础,数理统计是在其基础上研究随机变量,并应用概率论的知识做出合理的估计、推断与预测。概率论中讨论的各种分布在数理统计中作为统计模型来分析处理带有随机误差的数据。典型的数理统计方法有参数估计、假设检验和回归分析。而统计分析主要是对用户所关注的问题进行推断、预测和控制的分析方法。具体可以分为以下三方面:
①描述统计:主要是集中趋势、离散程度、分布形状等,统计图(方图、箱线图、散点图等);
②数据的分类汇总;
③基础统计分析:方差分析、时间序列分析、相关和回归分析、(主成分)因子分析等统计分析方法。
2.6预测(Forecasting)
在统计分析和数据挖掘领域,对未来的预测已经有了很多数学模型以及解决具体问题的相关算法。其核心思想便是从历史数据中找出数据的发展模式,然后以这些模式为支点,就可以对未来进行预测。
2.7预测模型(PredictiveModeling)
随着数据分析学家对数据挖掘技术的不断探索,出现了很多预测模型以及与之相对应的算法,但是很难确定某个模型是最精确的,因为不同的领域,不同的条件,对应的预测模型是不一样的,所以没有统一化的最优模型,只存在有选择性的最优模型。下面介绍几种典型的预测模型。
①回归模型:回归模型可以分为一元线性回归模型和多元线性回归模型。一元线性回归模型可表示为yt=b0+b1xt+ut,该式表示变量yt和xt之间的真实关系。其中yt称作被解释变量(或相依变量、因变量),xt称作解释变量(或独立变量、自变量),ut称作随机误差项,b0称作常数项(截距项),b1称作回归系数。b0+b1xt是非随机部分,ut是随机部分。而在很多情况下,回归模型必包含两个或更多自变量才能够适应地描述经济现象各相关量之间的联系,这就是多元线性回归模型需要解决的问题,其一般形式为:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是这个多元回归问题的m个自变量,b1、b2、…、bm是回归方程对应于各自变量的系数,又称偏回归系数。
②贝叶斯网络:贝叶斯网络是基于概率推理的数学模型,而概率推理是通过一些产量的信息来获取其他概率信息的过程。贝叶斯网络会建立一个有向无环图和一个概率表集合,有向无环图中的每一个节点便是一个随机变量,而有向边表示随机变量间的条件依赖,条件概率表中的每一个元素对应有向无环图中唯一的节点,存储此节点对其所有直接前驱节点的条件概率。贝叶斯网络是为了解决不定性与不完整性问题而提出的,在多个领域中获得广泛应用。
③基于时间序列分析的指数平滑模型在时间序列分析中指数平滑模型是最灵活和准确的方法,在经济领域也被证明是最有效的预测模型。在不同的时间序列下,指数平滑模型可以分为简单指数平滑法、带有趋势调整的指数平滑法、带有阻尼趋势的指数平滑法、简单季节指数平滑法、带有趋势和季节调整的指数平滑法五种不复杂度的模型。
2.8最优化
(Optimization)因为优化问题往往可以带来巨额的收益,通过一系列可行的优化,可以使收益得到显著提高。所谓最优化就是从有限或者无限种可行的方案中选取最优的方案。如果可以通过简单的评判,就可以确定最优方案那是最好的。但是事实不会那么简单,所以优化技术已经发展出了一系列的理论来解决实际问题。其常用的优化技术为:
①线性规划:当目标函数与约束函数都是线性函数时,就是一个线性规划问题。而当同时满足约束函数和目标函数时,则可以认为是最优解。
②整数规划:要求决策变量取整数值的数学规划。
③多目标规划:指衡量一个决策优劣的标准不止一个,也就是有多目标函数。
④动态规划:将一个复杂的问题划分为多个阶段,逐段求解,最终求出全局最优解。
3用Excel实现简单的数据分析
①对于企业而言最重要的是利润,所以管理者必须要从这张表中得到最关键也最容易得到的销量和销售额以及与其相关的一些数据,通常是用最基本的数理统计结果来直观地反映该企业在某个期间的盈利情况。
②其次,我们必须要做进一步的分析。已经对整体的情况有了一定的把握,所以就可以朝着不同的方向去挖掘一些有价值的信息,为企业高层做决策提供有力的依据。对产品销售而言,客户结构能够有效地反映客户的地域分布,企业可以根据客户的来源,在未开辟客户的地域去寻找新的目标客户群。而销量结构可以直观地反映企业最大销量来自哪个地区,对销量较小的地区可以加大宣传力度或者增加销售网点来保持各地区销售均衡。还可以及时地调整销售方式来扩大市场份额,而对于销量最小的地区考虑开辟新的市场。
统计了各地区的销售总额和平均销售额以及两者的对比关系。由此可以得出地区平均购买力大小,以及各地区总销售额大小。借助图表描述,管理者可以对企业在某段期间内的销售状况有一个大概的把握,只有掌握了这些的信息,才能更细化地去研究具体的影响因素。划分等级,对于经常性大量购买的客户必须要以最优惠的价格和最好的服务让其满意,以形成一个稳定的大客户群。而对于那些少量购买的客户,也要制定出相应合适的方案来留住客户。所以,分析销售额的分布情况,可以掌握客户的购买力度而且还能及时做一些留住大客户的举措。
4用R语言实现数据多层次分析
R语言是一种自由软件编程语言与操作环境,是一套完整的数据处理、计算和制图软件系统,它是一种用来进行数据探索、统计分析和作图的解释型语言。它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动地进行数据分析,甚至创造出符合需要的新的统计计算方法。而在使用R语言进行数据分析处理时,当我们遇到很大的原始数据,但用来建模的数据较小,则可以先在数据库中进行整理,然后通过R与数据库的接口提取数据,数据库适合存放和整理比较规整的数据,和R中的数据框有良好的对应关系,这也是R中绝大多数统计模型的标准数据结构。数据库中大部分的运算都不需要消耗很大的内存。
1凯里供电局营销工作概况
凯里供电局系中国南方电网公司和贵州电网公司领导下的国家大二型企业,担负供电辖区内15个县(市)及湘黔电气化铁路的电能供应、销售与服务任务,并为黔电入粤、黔电入湘的重要通道,为贵州电网公司代管县局最多(15个)的供电企业。该局年售电量40亿千瓦时,辖区内高能耗负荷企业占总负荷70%左右,该局目前营销工作面临负荷结构不合理、代管县局多的复杂管理形势。如何有效的调动代管县局主动做好辖区内的营销服务工作,培育更多优质负荷,提高企业的营销经营业绩,成为该局营销管理工作的研究重点。为此,该局通过建立电力营销数据分析系统,客观公正地评价下属业绩,导入竞争机制,不断提高该局的营销工作质量。
2建立实时数据跟踪监控系统
凯里供电局针对需要实时控制的电量及电费回收等指标推行日报表和帐目日报表、周期性报表制度,建立起销售状况的实时监控数据分析系统。这里重点介绍电量销售日报表和电费回收进度表。
电费欠费说明:
1.凯里供电局本月应收15478万,截至8月30日下午6:00,本月实收14090万,欠费1388万,回收率为91.03%。凯里系统本期合并口径新增欠费953万,月末应收电费余额增加额为673.57万,其中城区供电分局直管客户欠费191万(凯里纸厂欠费110万,城区小客户欠费81万),直管县局终端用户欠费566万(其中施秉恒盛公司欠495万,市郊局小客户欠23万、镇远局小客户欠47万);台江局欠192万。
2.注意问题:凯里城区小客户本月欠费可能较多,要加大催费力度;同时对凯里纸厂进行跟踪催费。
销售异常势头,跟进弱势区域、弱势类别。
(2)电费回收进度表。
欠费数目越大,时间越长,追讨的可能性就越小,控制应收账款的通用原则是对赊销客户设定信用额度和信用期限。凯里供电局要求各分县局和大客户管理所在每月24日后按日上报电费回收进度表。每月最后两天在早会上通报。一方面提醒各分县局和部门注意正常欠费的关注和跟进;另一方面对异常欠款及时暴光,及时检点,及时追究,从上至下形成对应收账款追讨的巨大压力。3建立月度营销分析制度,做好营销数据的月度分析
对于市场营销部而言,简单地根据营销数据考核各分县局和部门工作没有任何意义,重要的在于你能引入公平的评估模式,让各分县局和部门的营销负责人心服口服。
完备科学的月销售分析应达到以下目的:
(1)分析整个地区局的当月电量、线损、欠费余额,同期增长率,教上月成长率。
(2)引导各分县局和部门营销负责人关注自己的电力销售和电费回收是否健康。
(3)引导各分县局和部门营销负责人关注当月重要客户的销售。
(4)排除市场容量不同、市场基础不同等因素的干扰,客观公正地评估各分县局和部门的销售贡献。
这里以月度下网电量分析表进行说明:
通过此表我们可以看到凯里供电局当月的售电量、累计售电量、成长率、同期增长率等,还可以看到各类别电量及所占的比例。更重要的是,我们可以看到各分县局的售电情况,排名情况,对各分县局进行点评,还可以要求后三名说明原因,给其营销负责人相应的指导和压力。
4小结
通过建立有效的电力营销数据分析系统,凯里供电局实现了实时的销售监控和周期性的分析反馈及控制,为提高企业经营业绩奠定了基础。
参考文献
世界多数大国在近一百多年来在供电上采取的模式是集发电、输电、配电为一身的垄断模式。国家在电力供应上大多数或全部由国家垄断经营,广大电力用户就是消费者。这种垄断经营在短时间内使电力工业聚集了大量的资金,电力工业持续发展,同时避免了重复设施的出现,为电网的统一规划和建设提供了有力的支持。
1.2发电竞争
发电竞争模式,竞争主要体现在发电环节,输电和配电仍然采取垄断经营。在电力经营过程中对电力市场进行开放,引入发电企业,在市场中由垄断企业对发电企业生产的电力进行买断,然后由垄断企业统一卖给电力用户,这种供电模式的引入加大了市场中电力的供给量。
1.3电力转运
电力运转模式就是合理的将发电、输电、配电三个过程进行分离,每个发电厂都独立成为一个企业,各个发电厂之间采取公平竞争。市场中的用电大户,可以低价从电力企业直接购买电力,利用统一电网实现电力运转。在电力运转模式中,部分竞争市场、垄断经营市场和竞争市场同时存在。
1.4配电网开放
配电网开放模式的主要特点是:发电、输电、配电三个环节适当分离,三个环节都各自成为独立的经营体系,三者之间存在电力买卖关系。这种经营模式将发电、输电、配电三者打破了传统的电力运营管理模式,电力市场形成了多种商家相互竞争的形式,这不仅增加了发电企业之间的相互竞争,客户可以通过自己的需求来选取适当的发电商,而且电力消费者和生产者之间形成了一种真正的买卖格局,从而为电力显示商品特性提供了便利条件。
2企业多维数据分析具有的特点
2.1多维性
多维数据分析的一个最重要特点就是多维性。多维性不仅体现了人们在观察世界时的多角度,同时也体现了多层次观察。例如,在销售量数据的查看上可以从时间维入手,同时还可以从年、季、月等时间层次上进行查看。对数据进行分层查看,不仅符合事物的客观运行规律,而且也能让用户全面地掌握数据情况。
2.2实时性
实时性不仅满足了用户在时间上对信息的需求,而且可以快速查找多维数据的分析结果,同时实现了实时的接受用户所反馈的数据。
2.3开放性
多维数据分析支持多数据源和系统平台。因此,在实际工作中,不论数据存储量有多大,存储在何处,采取何种方式对数据进行存储,都可以及时获取到存储的数据,并且可以以多种方式将分析结果提供给不通过平台上的客户使用。
2.4可分析性
可以从不同的角度对数据的最大值、平均值、最小值、汇总进行记录和处理,将庞大的有用数据提供给客户,此外还具有数据分析和数据查询等能力。
2.5安全性
确保信息的安全,避免受到欺诈,对用户进行分级管理,数据分析过程中,对于数据分析结果只能提供给相应的用户。如果在实际工作中,存在多个用户共同应用同一个分析时,应当对客户的级别进行合理划分,依据客户所处的安全级别,允许客户查看对应层次的信息。
3电力营销多维数据分析过程
(1)依据决策者和企业业务在信息上的需求,对多维数据分析主题进行确定,在进行多位数据分析时,依据面向主题分析获取信息,从而实现为决策者提供信息的目的。
(2)收集数据,目前供电企业信息系统收集了电量的业务数据,这些数据都存储在各个供电企业的信息系统中,为了使其能够更好的为企业所用,应当建立数据库服务器,采集供电企业中数据。多维数据分析在电力决策的实际应用中,数据采集工作需要依据多维数据分析主体进行,要对数据库系统进行确认,并且在构建面向分析时选择数据库,从数据库系统中抽取、转换企业需要的数据。数据仓库是集成的、面向主题的且在实际运行过程中容易因为时间变化而发生改变的一个数据集合。数据仓库是企业为数据分析工作而设计的,利用数据仓库可以为多维数据分析提供更加稳定且具有针对性的数据,目前许多电气企业都构建了数据服务器。
(3)多维数据模型的建立,多维数据分析需要以多维数据模型为基础,从哪些角度对多维数据模型进行观察,对哪些数据进行分析,可以通过多维数据分析决定哪些数据需要仔细分析历史数据结构来获得,从获取的数据中找到有用的数据构建成适当的度量、维度从而构成高效的多维数据模型。
(4)设计人员依据现有的多维数据模型,选取适当的度量和维度,结合报表利用适当的统计方法,通过图表直观地展现企业的大量了历史数据。
(5)信息,通过灵活的方式将电力企业想要的相关信息直接提供给决策者。
4分析电力影响数据主题
在电力营销决策中,每一个主体都对应一个具体的分析,表示一种营销决策者在工作中需要掌握的信息。本文在研究上将分析主体分为用户情况、购电情况、电价情况、电费回收、设备资产情况等,并对较大的主体进行了进一步划分,针对电力营销的数据分析,应当从宏观到微观,从多个角度对电气企业的数据进行科学分析,为电力企业的各级领导者提供决策信息。因此,在分析上还需要确定分析层次和分析角度。
2工程概况
普光气田天然气净化厂循环水应急池位于普光气田天然气净化厂一台地的填挖交界区域,地质状况复杂。水池平面尺寸110m×50m,深6m(泵区深6.5m),设计有效容积30000m3,主要用于厂内紧急情况下循环水的应急排放。池体结构为钢筋混凝土,设有一纵五横6条沉降缝,池体混凝土强度等级为C30、抗渗等级为S6,基础采用C15毛石混凝土换填,换填深度为3m。
3沉降监测网的布设与施测
3.1沉降监测网的布设为了保证水池蓄水试验过程中,池体沉降监测的顺利进行,需在水池周边布设一个独立沉降监测网。沉降监测网布设过程中,考虑到新建沉降监测网基准点自身稳固需要一定的时间跨度和本地区常年多雨的气候条件限制,在沉降监测网基准点布设时不再重新埋设基准点,而是利用距离水池100m以外的3个厂内原有的、且经过施工期间多次观测精度可靠的控制点作为本工程水池沉降观测的基准点。为便于后期对池体进行沉降监测和能够反映出池体的准确沉降情况,沉降观测点设在最能反映池体沉降的沉降缝两侧及转角处。在池底板混凝土浇筑时预先埋设沉降监测点,沉降监测点埋设位置为距池壁外侧约50cm的底板上,沉降监测点分布原则为每条沉降缝两侧及转角处各埋设1个,共计28个。
3.2仪器选择与施测为了保证水池沉降观测数据的准确有效,为水池蓄水试验过程中池体结构安全提供参考依据以及为3个基准点赋予新的独立高程数值。蓄水试验前使用苏州一光EL302A电子水准仪对沉降监测网内的3个基准点,分别按照闭合水准路线和附合水准路线进行多次二等水准测量,其偶然中误差M和全中误差MW均小于0.8mm,完全符合二等水准测量的精度要求。
4沉降监测
4.1确定观测次数
为了取得水池沉降监测的参照数据,水池充水前应进行一次与沉降监测精度(二等)相同的水准测量,以测得的各监测点高程数据为基准,计算蓄水试验期间各监测点的沉降量。同时,为了保证水池蓄水试验过程中池体结构安全,避免因水池充水速度过快导致池体失稳垮塌,水池蓄水试验过程中应缓慢充水。每2m高度或每次充水观测一次,发生不均匀沉降时应停止充水,并增加观测次数,直至稳定后再继续充水;水池蓄水达到设计高度后,观测一次,24h后观测一次,连续观测3d,以后每15d观测一次,直至沉降稳定;放水前后再各观测一次。
4.2沉降监测
本工程沉降监测的测量仪器使用苏州一光EL302A电子水准仪。测量时除了转角点外,均采用间视法进行观测。但是,最长视线长度不得大于50m,最短视线长度不得小于3m,最低视线高度不得低于0.6m;观测读数应精确到0.01mm,从而达到保证测量精度的目的,以保证沉降监测数据的有效性。
5数据分析
5.1数据处理数学模型
为了保证沉降监测数据计算的准确无误,在数据计算时利用Excel表格进行[6]。同时,为了充分体现各监测点的沉降变化和不均匀沉降程度,首先用充水后的每次观测的各监测点的高程与蓄水试验前测得的相应点的高程进行计算比较,以取得各监测点的沉降量。计算公式如下:Si=Si前-Si后式中:Si前为蓄水试验前测得的点i的高程;Si后为充水后的每次观测的点i的高程,Si为点i充水以后相对蓄水试验前的沉降量。沉降速度计算可参照相关规范和公式,由于本工程水池的沉降在第3次充水后的第3天(3月27日)后已基本稳定,所以这里不再赘述该水池的沉降速度计算和数据处理等。
5.2数据处理结果与分析
根据每次观测的各监测点的高程,通过以上数学模型可以计算得出:各监测点的沉降量。若在沉降监测中发现建筑物有较大不均匀沉降时,需根据沉降量计算基础的倾斜度。因本工程沉降监测过程中未发现较大不均匀沉降现象,这里不再赘述。其计算方法可参照《建筑变形测量规范》(JGJ8-2007)中有关沉降观测的内容。通过表2中的相关数据可以清晰看出,在蓄水试验过程中各监测点均有不同程度的沉降,试验前期沉降量较大,随着试验的进行逐渐减小、趋于稳定,虽然沉降量的大小各异,但基本趋于均匀;总体来看,位于填方区的东南方向的沉降量大于位于挖方区的西北区域,但未出现较大的不均匀沉降现象;某些测点略有回升,也可能是由于测量过程中的误差造成的。另外,在蓄水试验完成水池内试验用水全部排出后,各监测点均出现了一定程度的回升现象,其可能是因为水池基底土体受到的荷载卸载后,在基底应力场平衡的影响下,基底出现了回弹现象所致。
2基坑变形监测设计与实施
基坑的主要监测项目由支护结构桩顶位移、深层位移、支护结构应力、地下水位等项目组成。
2.1布设基准点
布设基准点的目的是在长期观测过程中提供稳定的起算数据。(1)位移基准点应布设在远离施工现场、结实稳定的地方。水平位移监测基准点3个,工作基点3个,编号为J1~J6;(2)沉降基准点的布设位置应选在远离施工现场且稳定的水泥路上。布设了3个水准基准点,编号为G1~G3。
2.2布设监测点
监测点的布设按施工设计图要求,以能反映变形为宜。基坑监测点在支护结构桩后每隔20m左右布设一点,监测点采用埋设观测墩的形式。沉降、位移观测点采用两点合一布设,即WY1-WY20,共20个。周边建筑物沉降变形点布设在能反映建筑物沉降与倾斜的位置,如建筑物的四角、大转角处、建筑物裂缝和沉降缝两侧。同时要求变形点埋设在建筑物的竖向结构上,标志采用“L”型钢筋,共8个(M1-M8),周边管线监测点布设4个(GX3-GX6)。水位监测点在基坑周边布设5个(SW1-SW5),测点用地质钻钻孔,孔深为10m。锚索应力观测点,按要求布设锚索应力计12个,编号为MS1、MS2…MS12。支护结构测斜观测管按相关要求,布设测斜观测管18个,编号为CX1、CX2、…CX18。
2.3监测方法
沉降监测使用天宝DINI03电子水准仪和配套条码铟钢水准尺进行观测。施测是以基准点G1为起闭点,观测所有的沉降点组成闭合水准路线。采用“后、前、前、后”的观测顺序对沉降点进行观测。位移观测使用徕卡TS30全站仪。在基准点J1上设站,检查J2、J4的方向和距离,检查结果满足规范要求后,以多测回测角法观测每个监测点,并进行平差计算其坐标,然后计算出监测坐标在基坑边横向上的位移。深部位移使用测斜仪进行监测。监测从孔底开始,每0.5m为一个测段,自下而上沿导管全长每一个测段固定位置测读一次。地下水位使用电测水位计进行监测。
3监测成果与分析
从2012年4月至2013年6月的14个月内进行了周边建筑物沉降观测,支护结构沉降、位移监测,管线沉降、位移监测,地下水位监测,锚索拉力监测及深部位移监测。本文主要对建筑物沉降、支护结构桩顶位移、地下管线及深层位移的监测结果进行分析。
3.1建筑物沉降监测
建筑物监测是指对基坑周边的华丰古庙进行沉降观测,华丰古庙周围共有8个沉降监测点,进行了沉降观测38期,监测成果见表1,典型监测点的沉降过程线。
3.2支护结构桩监测对基坑的支护结构桩共布设了20个监测点,进行了沉降监测37期,水平位移监测29期,监测成果见表2(对于水平位移,+号表示向基坑方向对于支护结构有两个方向的形变,结合点位布设图,对所有监测点进行分析发现:垂直方向上,支护结构向下沉降;水平方向上,整体有一个向东南方向位移的趋势,即:基坑西北侧的监测点向基坑方向位移,东南侧的监测点则背向基坑方向位移。垂直方向和水平方向的累计变形量都比较小,且呈现出相似的形变过程,即前期变形波动较大,后期逐渐趋于平稳,且变形最大值小于预警值,故认为支护结构比较牢固,形变量都在比较安全的范围内。
3.3地下管线监测
地下管线沉降量都比较大,沉降最小的GX6也有32.8mm,超过了预警值,最大的已达到120.1mm,远远超出了预警值。在发现沉降量较大之后,施工方采取了加固措施,后期管线沉降趋于稳定。基坑施工对管线水平方向的位移也有一定影响,变形量较大的GX5位移量已超过预警值。施工初期管线沉降量增加较大的原因为:基坑开挖破坏了基坑土体原有的应力平衡,引起临近路面下沉,导致地下管线竖向移动,伴随基坑开挖深度增加,管线的沉降量逐渐达到极限值,加之施工方采取了相应的加固措施,使基坑施工中后期管线的沉降趋于稳定。
3.4深部位移监测
各监测点的深部位移整体变形均较小,都低于预警值。深部位移主要有三种比较典型的变化情况:孔顶部和底部位移较小,中间位移较大;孔底部位移较小,顶部向背离基坑方向偏移;孔底部位移较小,顶部向基坑方向位移。CX9号测斜孔第30期(时间2013-1-10)在0~4.5m深处突然出现了一个较大的偏移,分析推测可能是由于邻近监测孔旁正在施工,施工过程造成了对表层土体的挤压,因而引起了土体表层整体的较大位移。在随后的几期观测中,该测斜孔位移趋于稳定。深部位移监测结果显示,最大位移一般出现在孔顶部或6.5~8.5m处,最大位移量都在安全可控的范围之内。
2相量检查的意义
对新安装或电流回路有过变动的保护装置,在其投入运行前,必须用一次电流和工作电压检验,也就是进行相量检查。在检验保护装置电流回路接线正确后,方可将保护投入运行,为电网的安全、稳定运行提供保障。
3相量数据采集和分析
3.1井目量数据分析
502所带为10kV5母线,投入3组电容器,每组容量为7.5Mvar,总容量为22.5Mvar。因为所带负荷为纯电容元件,所以,有功P为0Mvar,无功Q为22.5Mvar。即得出视在功率S为22.5MVA。取10kV系统平均电压为10.5kV,得出502的一次电流为1237A。已知502保护用TA变比是4000/1,可求得502TA保护绕组二次电流为0.309A。通过相量检查,可知502各TA保护绕组电流为0.294A左右,计算值与测量值相差不大。因此,可以得出502各TA保护绕组变比使用正确。同理可推导出503各TA保护绕组变比使用正确。3.1.1.2502,503相位分析,10kV5母线通过502向2号主变输送无功,10kV3母线通过503向3号主变输送无功,并且已知有功为0,因此,对应相电压超前一次电流90°,电流以母线侧为极性,则二次对应相电压超前二次电流90°。通过相量检查所得电流相位与理论推导一致。3.1.22202,2203相量数据分析
3.2变比分析
502各TA保护绕组电流为0.294A左右,且已验证502各TA保护绕组变比使用正确,因此,通过502的一次电流是1176A。由于102,103,145均在合位,所以,10kV5母线通过502向2号主变输送等量无功,10kV3母线通过503向3号主变输送等量无功。根据基尔霍夫定律可知,102,103,145没有电流流过。因此,2号主变可视为只有高低压侧运行,即两卷变运行。根据能量守恒定律,低压侧输入功率等于高压侧输出功率,取10kV系统的平均电压为10.5kV,220kV系统的平均电压为231kV,由此可得,2202一次电流I为(1.732×1176×10.5)/(1.732×231)=53.45A。已知2202的主变差动保护用TA变比是1250/1,则可求得2202主变差动保护二次电流是0.0428A。2202母线差动保护用TA变比是2500/1,则可求得2202母线差动保护二次电流是0.0214A。通过相量检查可得2202TA保护绕组的电流分别为0.0413A和0.0205A,计算值与测量值相差不大,由此可得,2202各TA保护绕组变比使用正确。同理可推导出2203各TA保护绕组变比使用正确。
3.3相位分析
220kV5母线通过2202,2203接受无功,并且已知有功为0,因此,对应相电压超前一次电流270°,电流以母线侧为极性,则二次对应相电压超前主变差动二次电流270°。因为母差用保护绕组为反极性,由此可得二次对应相电压超前母差二次电流为90°。通过相量检查所得的电流相位与理论推导一致。观察可知,A相、B相、C相的电流幅值基本相等,相位互差120°,即A相电流超前B相120°,B相电流超前C相120°,C相电流超前A相120°。由此可得,2202,2203各TA保护绕组极性正确。
3.4相量数据分析
3.5母联极性问题
该变电站220kV系统为双母线,配置母线保护BP-2B和RCS-915AB.BP-2B母线保护各元件TA的极性端必须一致,装置默认母联TA的极性与2母线上的元件一致。RCS-915AB母线保护TA极性要求支路TA同名端在母线侧,母联TA同名端在母线1侧,可将该变电站的母线1称作4母线,母线2称作5母线。因此,2245母联BP-2B母线保护用TA同名端在5母线侧,2245母联RCS-915AB母线保护用TA同名端在4母线侧。
3.6变比分析
2214是2202通过2245提供一次电流,因此,2245一次电流为51.625A。已知2245各TA保护绕组变比为2500/1,则可求得2245各TA绕组二次电流为0.0207A。通过相量检查可得2245各TA保护绕组电流为0.0202A左右,计算值与测量值相差不大。由此可得,2245各TA保护绕组变比使用正确。
3.7相位分析
220kV4母线通过2245接受无功,且已知有功为0,因此,对应的相电压超前一次电流270°,充电保护电流以4母线为极性,则二次对应相电压超前充电保护二次电流270°。2245母联BP-2B母线保护用TA同名端在5母线侧,并且母差用保护绕组为反极性,则二次对应相电压超前BP-2B母线保护二次电流270°。2245母联RCS-915AB母线保护用TA同名端在4母线侧,并且母差用保护绕组为反极性。由此可得,二次对应相电压超前RCS-915AB母线保护二次电流90°。通过相量检查可知,电流相位与理论推导相差不大。
3.8相量检查结论
之前多通过表记得出一次电流的大小和送受关系,其实这是不准确的(TA表记绕组也需要相量检查),应该通过负荷情况,用理论方法计算和推导出一次电流的大小和送受关系,以便核实相量检查结果。相量检查后的相量分析不但包括相位分析,还应包括变比分析,只有在变比和相位都正确的情况下,才能算作相量正确。
改革以来中国发生的大规模人口迁移,是制度变迁和经济转型共同作用的结果。中国传统的计划经济体制是围绕推行重工业优先发展战略而形成的。在资本稀缺的经济中,推行资本密集型重工业优先发展战略,不可能依靠市场来引导资源配置,因而必须通过计划分配的机制把各种资源按照产业发展的优先序进行配置。由此,以资本和劳动力为代表的资源或生产要素,既无必要,也不允许根据市场价格信号自由流动,因此,随着20世纪50年代这种发展战略格局的确定,一系列相关制度安排把资本和劳动力的配置,按照地域、产业、所有制等分类人为地“画地为牢”,计划之外的生产要素流动成为不合法的现象。其中把城乡人口和劳动力分隔开的户籍制度,以及与其配套的城市劳动就业制度、城市偏向的社会保障制度、基本消费品供应的票证制度、排他性的城市福利体制等,阻碍了劳动力这种生产要素在部门间、地域上和所有制之间的流动。在这种制度下,不存在劳动力市场,农村居民没有政府的许可不可能向城市流动,劳动和人事部门通过计划来控制劳动力跨部门流动。
1978年底开始的农村家庭承包制改革,使农户成为其边际劳动努力的剩余索取者,从而解决了制度下因平均分配原则而长期解决不了的激励问题(meng,2000)。与此同时,政府开始对价格进行改革,诱导农民提高农业生产率。在农业剩余劳动力被释放出来后,非农产业活动更高的报酬吸引劳动力转移(cook,1999),从而推动农村生产要素市场的发育,原来主要集中在农业的劳动力开始向农村非农产业、小城镇甚至大中城市流动。
由于各种阻碍劳动力流动的障碍尚未拆除,以及政府鼓励农村劳动力就地转移的政策引导,20世纪80年代前期的劳动力转移以从农业向农村非农产业转移为主,主要是在乡镇企业中就业,即所谓的“离土不离乡”。但随着乡镇企业遇到来自国有企业、“三资”企业和私人企业越来越强劲的竞争,必须提高技术水平和产品质量,因而乡镇企业资本增加的速度逐渐加快,吸纳劳动力的速度相应减缓。农村劳动力面临着越来越强烈的跨地区转移的压力。与此同时,外商投资企业、中外合资企业、私营企业和股份公司等其他非国有部门在东部地区发展较快,扩大了对劳动力需求,并成为消除制约劳动力流动体制障碍的一支重要力量。
随着农村劳动力就地转移渠道日益狭窄,1983年政府开始允许农民从事农产品的长途贩运和自销,第一次给予农民异地经营以合法性。1984年进一步放松对劳动力流动的控制,甚至鼓励劳动力到临近小城镇打工。1988年中央政府则开了先例,允许农民自带口粮进入城市务工经商。到20世纪90年代,中央政府和地方政府分别采取一系列措施,适当放宽对迁移的政策限制,也就意味着对户籍制度进行了一定程度的改革。例如,许多各种规模的城市很早就实行了所谓的“蓝印户口”制度,把绝对的户籍控制变为选择性地接受。此外,1998年公安部对若干种人群开了进入城市的绿灯,如子女可以随父母任何一方进行户籍登记,长期两地分居的夫妻可以调动到一起并得以户籍转换,老人可以随子女而获得城市户口,等等。虽然执行时在一些大城市遇到阻力,但至少在中央政府的层次上为户籍制度的进一步改革提供了合法性依据。城市福利制度的改革也为农村劳动力向城市流动创造了制度环境。80年代后期开始逐步进行的城市经济改革,如非国有经济的发展,粮食定量供给制度的改革,以及住房分配制度、医疗制度及就业制度的改革,降低了农民向城市流动并居住下来和寻找工作的成本。
与其他方面的政策改革相比,户籍制度改革在很长时间里没有实质性的突破,成为劳动力流动的最大障碍。所有在就业政策、保障体制和社会服务供给方面对外地人的歧视性对待,都根源于户籍制度。随着时间推移,两方面的因素变化推动政府对迁移政策进行改革。一是城市户籍制度不再拥有外部或隐含的福利,也就是地方政府不再根据个人的户籍来提供就业、社会福利等各方面保障。这样,城市人口规模扩张不会给地方政府增添额外财政负担。二是地方政府意识到,劳动力流动不仅带来资源重新配置,而且也是城市融资的一个重要来源。这样,市场化发育水平相异的城市根据各自目标来推进城市户籍制度改革。
可见,通过户籍制度及一系列其他阻碍人口迁移的制度因素的改革而推动的劳动力流动,不仅是经济发展的一个重要内容,也是整个经济体制向市场机制转变的重要进程,并且以其他领域改革的进展为前提。这个转变或改革的结果便是劳动力市场的形成与发育,劳动力资源越来越多地由市场来配置。而在整个经济不断市场化的过程中,人口迁移也表现出转轨时期的特点。这是中国转轨时期人口迁移的特殊性所在。本文旨在利用2000年人口普查资料来分析人口流动与市场化之间的关系。
一、转轨时期人口迁移理论
人口和劳动力在地区间的流动,是劳动力市场在空间上从不均衡向均衡转变的过程。发展中国家在其经济发展过程中,伴随着工业化和城市化发展,大量农村人口和劳动力从农村流向城市,从低生产率的农业部门流向生产率较高的工业部门。刘易斯(lewis,1954)认为,发展中国家存在着典型的二元经济结构,农村存在着大量剩余劳动力和隐蔽性失业,农业中劳动力的边际生产力几乎等于零或为负值,农村劳动力从农业部门流出不会对农业产出带来负面影响,反而使留在农业部门劳动力的边际产出不断提高;随着城市中劳动力数量不断增加,城市工资水平开始下降,直至城市部门的工资水平与农业部门的工资水平相等,农村劳动力向城市流动才会停止。在刘易斯的模型中,劳动力在城乡之间可以自由流动,不存在显著的制度。城市现代部门的较高工资水平和传统农业部门的低工资水平,是劳动力在城乡之间流动的驱动力量。在托达罗(todaro,1969;harris和todaro,1970)两部门模型分析中,农村人口和劳动力的迁移取决于城市的工资水平和就业概率,当城市的预期收入水平和农村的工资水平相等时,劳动力在城乡之间分配和迁移都达到均衡。
由于城市经济存在着现代正规部门和非正规部门之分,农村劳动力向城市迁移首先进入非正规部门,然后才有可能进入正规部门就业。城市正规部门就业创造率越大,越有利于将更多的非正规部门劳动力转入正规部门;城乡收入差距越大,从农村流向城市非正规部门劳动力数量越多,城市非正规部门劳动力规模也越大。由于城市正规部门的就业创造率取决于工业产出增长率及该部门的劳动生产率增长率,城市工业的快速增长将有利于提高正规部门的就业创造率,从而减少城市非正规部门的劳动力规模。但是,这个效应有可能被城市工资增长所诱发的大量新增农村劳动力流入所抵消。因此,城市正规部门的就业创造结果带来了城市失业率的上升。
费尔茨(fields,1974)认为,托达罗模型中没有考虑农村劳动力在城市正规部门寻找工作的概率问题。由于非正规部门劳动力获得正规部门就业机会的相对概率较低,流入城市的农村劳动力大多数只能滞留于非正规部门。他们之所以能够接受较低的工资水平,主要是在于他们预期能够从得到的城市正规部门工作机会中获得补偿。在托达罗模型基础上,费尔茨引入了搜寻工作机会的观点,一方面强调了城市制度工资和相对就业概率对迁移过程的影响,另一方面也指出,非正式部门大量不充分就业的劳动力保证了劳动力市场实现均衡时的失业率低于托达罗模型得出的估计。非正式部门大量不充分就业的劳动力存在,在一定程度上缓解了城市的失业问题。
随着劳动力流动,城乡劳动力市场开始相互作用。但是,根据托达罗理论,城市失业率上升将起到减缓人口继续向城市迁移。如果依据费尔茨的观点,城市劳动力市场似乎对农村劳动力流动的影响不大。相比之下,在成熟的市场经济中,城市的失业率是影响劳动力流动的重要因素。托普尔(topel,1986)利用美国人口普查资料研究发现,1970~1980年,美国东部、中部和北部各州的平均失业率相对于全国水平上升了23%,同时西部和西南部各州的失业率却显著下降。同期,人口迁移的空间流向恰好与此相反,人口净流入地区为西部和西南部地区,东部、中部和北部均为人口净流出地区。
中国的人口迁移不仅具有发展中国家的一般特征,而且还有经济体制转型的独特之处。如前所述,中国特有的户籍制度及其改革过程,为人口和劳动力自由流动和择业提供了制度基础,这也是研究其他国家人口迁移的理论没有遇到过的问题。随着时间的推移,包括户籍制度在内的各项市场化改革措施必然对人口与劳动力迁移产生显著影响。同时,城市就业环境变化也为我们观察城乡劳动力市场的相互作用提供了条件。
首先,不仅是城乡之间、地区之间的收入差距驱动人口的迁移,市场化水平在城乡和地区间的差异也直接影响农村劳动力迁移决策,从而形成特定的迁移流向。在经济发展的初期,资本相对稀缺而劳动力相对丰富。因此,中国经济的比较优势在劳动密集型产业。在20世纪80年代以前的经济增长模式下,由于政府采取人为扭曲资金价格的方式,在资金密集型产业上投资过多,抑制了具有比较优势的劳动密集型产业的发展,导致产业结构的扭曲,资源配置效率的损失。经济改革以来,通过一系列制度变革,资源配置逐渐转向劳动力较为密集的产业,较好地发挥了中国劳动力资源丰富的比较优势。产品和生产要素市场的发育带来了资源重新配置效率的改善,对经济增长做出了重要的贡献(cai等,2002)。由于生产要素市场发育上在地区之间不平衡,这种资源重新配置的效果主要体现在沿海地区。2000年,92.1%进出口贸易集中在东部地区,中西部地区分别为4.3%和3.6%.同年,86.5%的外商直接投资集中在东部地区,中西部地区分别为8.9%和4.6%.因此,劳动力迁移在东部地区更为活跃,迁移的流向也以从中西部地区向东部地区为特征。
其次,正如在其他国家观察到的那样,较大的迁移距离增加了交通成本、弱化了社会网络关系和目的地的就业信息,减少了迁移者的收益预期,因此,迁移距离上升降低了迁移发生概率。工作的不稳定性和信息获得的不确定性,不仅造成了迁移流向是一个从县内流向县外,从省内向省外的渐进过程,而且使得亲友等社会网络成为迁移者获得非正规部门就业信息的主要方式。格林伍得(greenwood,1969)认为,迁移存量对人口在地区之间迁移扮演着社会网络的作用。先前的迁移可以为后来者提供信息和其他方面的帮助,减少迁移风险,从而对后期的迁移产生影响。蔡fǎng@①(cai,1999)研究发现,75.8%的省内迁移者、82.4%的跨省迁移者的就业信息获得是通过住在城里或在城里找到工作的亲戚、老乡、朋友获得的。因此,农村劳动力向城市流动通常受到距离所反映出的社会网络强弱的限制,形成分阶段迁移。
第三,尽管户籍制度继续阻隔着农村劳动力向城市迁移,但市场化改革使得城乡劳动力市场开始融合,城市就业环境变化必然对农村劳动力向城市流动带来影响。随着国有企业亏损和非国有部门扩大,越来越多的原国有企业职工开始和迁移者在非正式部门展开就业竞争。在这种情况下,农村劳动力“是走还是留”,取决于正式部门和非正式部门的就业状况,而且其决策通常是暂时的,而不是长期的。这与harris和todaro(1970)模型中所讨论的情况(迁移者在非正式部门临时就业、等待得到正式部门就业机会),以及sethuraman(1981)观察到其他发展中国家的情况(大多数迁移者将他们在非正式部门就业视为永久性的)都有显著差异。一个普遍观察到的现象是,中国农村劳动力向城市和发达地区流动,通常具有季节性特点,最多以年为单位在原住地和迁入地之间往返,呈现出“钟摆式”的流动模式。正如solinger(1999)指出的那样,城市对农村劳动力的大量需求是推进户籍制度改革的必要条件。在非国有经济、特别是外商投资较快的地区,市场力量日益显现,迁移受到鼓励。、空间分布特征变化
1990年以来,中国地区收入差距进一步扩大,吸引了中西部地区劳动力向东部地区流动。同时,要素市场发育及资源配置市场化程度,对地区经济增长越来越起着主导性的作用。东部地区不仅对外开放时间早,而且市场发育迅速,较高的市场化水平不断消除了劳动力等要素跨地区间流动的制度,以至成为劳动力流动的主要吸纳地区。而劳动力向东部地区流动反过来也推动了该地区的经济增长,改善了劳动力资源配置效率(cai等,2002)。表1显示了人口迁移空间分布状况的长期变化。1987~2000年,人口迁移的空间分布特征是:地区内部迁移(其中主要是省内迁移)比例始终高于地区间的迁移比例。但地区内部和地区之间的迁移比例则随着时间不断发生变化。东部地区内部迁移比例提高,东部地区流向中西部地区的比例下降。而中西部正好与此相反,中部和西部地区内部迁移比例趋于下降,中部向西部、西部向中部的迁移比例也在下降,而中西部向东部地区流入比例不断上升。
注:(1)从统计口径上看,1987年迁移数量包括迁入时间在半年以上的市、镇和县之间的迁移人口;1990年迁移数量包括迁入时间在1年以上的市、县之间的迁移人口;1995年迁移数量包括迁入时间在半年以上的市,区、县之间的迁移人口;2000年迁移数量包括迁入时间在半年以上的乡、镇、街道之间的迁移人口。(2)全部迁移人口包括地区内部和地区之间的人口迁移,不同年份在迁移时间规定和迁移范围上的差别对地区之间分布会带来一定影响。尽管如此,我们仍可以比较不同年份之间迁移流向的变化。
资料来源:《1987年全国1%人口抽样调查资料》、《1995年全国1%人口抽样调查资料》、《中国1990年人口普查资料》、《中国2000年人口普查资料》。
根据2000年第五次人口普查的10%资料显示,全部迁移人口数量为1246万,占总人口的10.6%,其中省内迁移为7.7%、跨省迁移为2.9%.在总迁移人口中,省内迁移的比重始终很高,为73.4%.当我们描述跨省迁移的流向时,其主要以东部地区为迁移目的地的倾向更加明显。表2给出了三类地区跨省迁移比例的空间交叉分布。2000年,东部地区跨省迁移近65%集中在东部其他各省(市),中部地区跨省迁移超过84%集中在东部地区,西部地区跨省迁移超过68%集中在东部地区。从时间趋势上看,1987~2000年,东部地区内部跨省迁移比例上升了近15%,而中西部地区向东部地区迁移比例上升将近24%,后者比前者高出9个百分点。
从流动的出发地和目的地看,迁移可以被划分为城市到城市的迁移、城市到农村的迁移、农村到农村的迁移和农村到城市的迁移四种主要类型。从这种类型划分来观察地区间迁移的流向,也有助于我们理解转轨时期中国人口迁移的特点。从全国来看,城市到城市的迁移和农村到城市的迁移是目前迁移的主要形式。2000年,两者合计占总迁移人口的77.9%,而且农村到城市迁移的比重(40.7%)大于城市到城市的迁移(37.2%)。农村到农村的迁移比重较低,仅占全部迁移的18.2%.而城市到农村的迁移比例最低,不到总迁移人口的1/25.从时间趋势看,城市到城市的迁移所占比重,在东部、中部和西部三类地区都呈现上升趋势,而农村到城市的迁移比重略呈下降趋势。
三、迁移的决定因素:计量分析
在迁移决定因素的实证分析中,早期的迁移模型将重力迁移模型和就业为目的的迁移模型合二为一,假定迁移数量不仅与迁入地和迁出地的人口和迁移距离有关,而且取决于两个地区之间的工资和失业率的比较。通常,采用下列双对数模型来分析这些因素对迁移流向的影响(lowry,1966;greenwood,1969;fields,1979)。即:。式中,m为迁移率,x为影响迁移流向的各种因素,d为迁移距离,i,j分别为迁出地和迁入地。
舒尔茨(schultz,1982)认为,人口变量反映的是其他影响迁移而没有在模型出现的社会经济变量的作用,它没有行为学上的意义。由于迁移是人口增长的一部分,在迁移实证模型中引入人口规模会带来计量上的共同偏差(fields,1979)。而且,由于迁移存量实际上是人口规模的一部分,如果在实证模型中同时引入这两个变量,将带来严重的多重共线问题,大大降低回归参数估计的效率。因此,通常做法是在实证模型中不引入人口变量。
在回归方程的函数形式选择上,费尔茨(fields,1979)认为,迁移决策本质上是在相互排斥的替代方案之间的一种选择,非对称模型比对称模型对人口迁移具有更强的解释能力。此外,双对数线性回归方程还能够消除奇异值和异方差对估计效率的影响,满足理论上就业机会与工资之间的乘积要求,以及提高回归方程的拟合程度等。他选择了滞后解释变量办法来消除解释变量的内生性问题。我们也采用了所有解释变量数据均为1995年数据的办法来解决迁移模型的内生性问题。
本文数据来自2000年第五次全国人口普查长表资料(10%样本)和微观数据(长表1%样本),1995年全国1%人口抽样调查资料及国家统计局《中国统计年鉴(1996)》。在数据处理上,正式出版的第五次人口普查长表资料没有农村向城市跨省迁移劳动力数量及其失业率数据,我们利用第五次全国人口普查的微观数据计算了这些数据。用于回归分析变量的统计值见表3.
表3用于回归分析变量的统计值
注:*根据微观数据计算。
迁移率的计算,我们采用格林伍得(greenwood,1969)的定义,用1995年11月1日至2000年10月30日从省迁到省的人口数,除以1995年11月1日以前住在省的人口数。根据长表计算得到的迁移率,包括了所有年龄段跨省农村到城市、城市到城市、农村到农村、城市到农村的四种类型迁移人口;用微观数据计算15~64岁农村劳动力向城市的迁移率。按照这种方法计算得到的两个迁移率的平均值都不高(见表3)。
迁移距离为省会之间铁路公里数。中国地域辽阔,铁路是中国跨省迁移的主要交通方式。这点可以从每年春节农民工返乡造成的铁路拥挤状况中得到印证。迁移距离不仅反应了用于直接交通费用的高低,而且在一定程度上代表了迁移所带来的心理成本大小。随着迁移距离增加,迁移带来的不确定性和迁移风险也会上升,迁移成本随之增加(schultz,1982;greenwood,1975)。这在劳动力市场不发达的情况下尤其如此。
直接用城市工工资收入和农村人均纯收入来作为工资率的变量显然不合适。随着收入多元化,相当于实际收入的部分并没有反映到名义收入之中,城乡收入在可比性上也存在一定问题(solinger,1995;jefferson,1992)。奥尼尔(o''''neill,1970)建议采用消费指标来克服收入指标作为工资率变量上的不足。我们利用各省城乡人口作为权重,对城乡居民人均消费支出进行加权平均,作为各省的工资率变量,预期工资率对迁移流向存在两种不同的效应。其中,迁入地为正向效应,而迁出地为负向效应。
1995年全国1%抽样调查和第五次人口普查都对城乡劳动力的就业状况进行了统计。1995年调查问卷中有三项指标用来测度劳动力在调查前一周是否处于失业状态:第一项是从未工作正在找工作,第二项是失去工作正在找工作,第三项是企业停产等待安置的劳动力。2000年人口普查只包括前两项。据此可以计算得到1995年和2000年城乡劳动力的失业率,分别为2.2%和3.6%.由于城乡劳动力的失业率包括了农村劳动力,这低估了城市劳动力市场的就业状况。《中国2000年人口普查资料》公布了分城市、镇和农村的经济活动人口资料,据此计算的城市、镇和农村的失业率分别为9.4%、6.2%、1.2%.利用2000年微观数据计算的城市本地劳动力、城市向城市迁移劳动力、农村向城市迁移劳动力的失业率,分别为9.1%、7.9%和3.6%.如果在迁移模型中忽略了迁移存量,将导致高估其他解释变量对迁移的影响(greenwood,1969)。按照格林伍得的方法,迁移存量应该是以1995年为时点,计算出生在省且居住在省的所有人口。由于中国人口普查资料只提供了出生后一直住在本地和1995年11月1日之前迁入本地等资料,因此,我们采用1995年11月1日之前迁入本地人口指标作为迁移存量的变量。本文中长表的迁移存量包括所有人口,微观数据的迁移存量只包括15~64岁的人口。我们预期迁移存量对人口迁移有正向效应。
在分析地区人均收入差异和经济增长中,贸易开放程度通常被看做是影响地区收入增长的重要因素(barro和sala-i-martin,1995;cai等,2002)。贸易开放程度越高,参与国际市场一体化程度也越高。但是,扭曲的贸易和发展战略也同样起到扩大出口,提高gdp中的贸易份额比重。相比之下,外商直接投资是国外投资者的选择。从长期来看,为了获得最大利润和规避风险,国外企业在其投资过程中要对各地的产品和要素市场发育情况、体制与政策的透明度等因素进行综合考虑,并最终做出投资选择。外资企业进入之后,它利用劳动力市场来解决用人需求,这与国有企业的人事制度形成鲜明对比。因此,我们选择了外商直接投资作为市场化程度的变量,来分析它们对人口迁移的影响。改革以来,虽然所有省份的外商直接投资数量都在增加,但东部地区与中西部地区之间的差异在不断扩大。中国人口迁移流向分布主要集中在东部地区,这与东部地区对市场化改革程度较高是分不开的。
四、回归结果与讨论
方程1~3是利用第五次人口普查长表资料得到的回归结果,方程4、5是利用第五次全国人口普查微观数据得到的回归结果。由于海南、重庆、与其他省会之间距离未能得到,在回归中剔除了这3个地区,长表资料中实际用于回归的样本数量为756个。在微观数据中,由于有些省份的迁移率或农村向城市迁移劳动力数量为零,取对数后,这些数据变成缺省值,所以用于回归的样本数量为506个。
从表4回归结果看,利用长表资料得到的回归方程,解释了大约60%的所有人口跨省迁移的行为;用微观数据得到的回归方程,解释了大约30%的跨省农村劳动力向城市迁移的行为。表4的非对称双对数迁移模型估计结果也表明,迁入地社会经济变量对人口迁移的影响大于迁出地这些变量所发挥的作用。
回归方程1~5中大多数解释变量的回归系数t值,如迁移距离、人均消费水平、失业率、迁移存量等,都达到了1%或5%的显著性水平,并且作用方向上与前面的理论预期结果也基本一致。
表4中回归方程1和2的区别是采用了不同的失业率数据,前者是1995年的失业率,后者是2000年的失业率。使用1995年失业率数据虽然有助于克服内生性问题,但方程1中迁出地失业率回归系数的绝对值大于迁入地失业率回归系数的绝对值,这个结果可能与现实情况并不吻合。
1995~2000年,中国城市就业环境发生了急剧变化。伴随着国有企业改革和城市社会福利体制改革,企业大量富余人员被释放出来,城市失业率迅速上升。为了解决本地城市职工就业问题,不少地方政府采取了城市就业保护政策,这势必对以就业为目的的劳动力流动产生较大影响。迁移者是理性的,如果目的地的就业机会较小,迁移者将选择不流动,以减少迁移风险和成本。这样,迁入地的就业机会就显得更为重要。
表4迁移决定因素回归结果
注:(1)采用异方差检验方法(breusch-pagan/cook-weisberg)发现,表中回归方程的依次为:7.85、1.54、1.38、2.80、4.85.我们对回归方程1、5采用robust估计来消除异方差的影响。(2)方程1和5的括号内为robustt值,方程2~4括号内为t值,*代表5%显著性水平,**代表1%显著性水平。
考虑到2000年失业率真实地反映了就业环境的变化,我们以回归方程2为基准,分析不同因素对迁移的影响,并进行比较。在其他条件不变的情况下,迁移距离上升1%,迁移率下降1.08%.受迁移距离的影响,2000年跨省迁移人口比例不到30%,绝大多数迁移人口选择了省内流动。迁移距离在空间位置上是固定的,但改善交通运输条件和制定合理的交通价格有利于减少迁移者的迁移成本,促进劳动力流动。
在做迁移决策时,潜在的迁移者不仅要考虑两地之间直接的收入差距,而且还要考虑到就业机会大小。在回归方程2中,迁入地人均消费水平回归系数在绝对值上是迁出地的近4倍,但迁入地失业率回归系数在绝对值上是迁出地的3倍以上。迁入地失业率对迁移决策较大的边际影响与迁移者面临的选择有关。本地劳动力市场状况是既定的,迁移者对它别无选择。相反,迁移者对迁入地劳动力市场是可以进行选择的,失业率越高的地区,迁入数量就会下降。
目的地的就业信息提供和帮助,对迁移决策有重要作用。迁移存量的回归系数也证实了这一点。社会网络等非正规信息渠道虽然在迁移中发挥着重要作用,但随着人口流动规模扩大,加快劳动力市场信息体系建设就显得非常重要。
将外商直接投资变量引入回归方程2,就得到回归方程3.引入这个变量之后,迁移距离和失业率等解释变量的回归系数及其显著性变化不大,而人均消费水平的回归系数及其显著性发生较大改变。从绝对值来看,方程3中的人均消费水平回归系数小于回归方程2中的回归系数估计值,迁出地人均消费水平的回归系数显著性有所下降,主要是人均消费水平与外商直接投资之间存在较高相关关系导致的结果(注:人均消费水平与外商直接投资的相关系数为0.56.)。跨省人口迁移比例主要分布在东部地区,它与外商直接投资之间存在较强的相关关系(注:外商直接投资与迁移存量之间的相关系数为0.76.),引入外商直接投资变量之后,迁移存量的回归系数数值下降约50%.为了观察城市劳动力市场对农村劳动力迁移决策的影响,我们利用微观数据做进一步分析。回归方程4引入了农村迁移劳动力的失业率,回归结果进一步支持上述发现,即迁入地的就业机会对迁移者来说更为重要。回归方程5引入了城市劳动力失业率。结果表明,城市失业率对于农村劳动力跨省迁移率有显著性影响,其回归系数在绝对值上不仅大于回归方程4中失业率的回归系数,而且大于回归方程2中的回归系数,这说明城市劳动力市场就业形势确实对农村劳动力的迁移决策有重要作用。改善城市就业环境将有利于促进农村劳动力流向城市,起到加速城市化的作用。五、结论
20世纪80年代以来在中国出现的大规模人口迁移现象,不仅具有发展中国家从落后的农业经济向工业经济转变的一般特征,还具有从计划经济向市场经济转变的特殊性。将二者结合在一起,既有助于考察中国独特的制度特征对人口迁移的影响,又能够通过对中国案例研究来拓展迁移理论。
经济发展水平和市场发育程度在地区之间的不平衡,决定了人口迁移的基本方向不仅是从农村向城市的迁移,而且是从中西部地区向东部地区的迁移。既然中国经济的进一步增长仍然有赖于从生产要素市场发育从而劳动力流动中获得资源重新配置效率(注:约翰森(johnson,1999)认为,在今后30年,如果迁移障碍被逐渐拆除,同时城乡收入水平在人力资本可比的条件下达到几乎相等的话,劳动力部门间转移可以对年经济增长率贡献2~3个百分点。),加快中西部地区市场制度的建设,特别是清除阻碍劳动力市场发育的各种制度,可以引导和规范人口迁移,使其不仅具有微观理性,而且具有更加理性的宏观后果。市场化改革措施(如扩大外商直接投资和对外贸易等)所带来的经济发展将有助于获得“一石二鸟”的功效,也就是讲,它为劳动力流动不断营造同样的发展环境,并在创造就业机会的同时,推进城乡户籍制度改革。
「作者简介蔡昉中国社会科学院人口与劳动经济研究所所长、研究员;王德文中国社会科学院人口与劳动经济研究所,副研究员。
「参考文献
1.中国社会科学院人口研究所(1988):《中国74城镇迁移抽样调查(1986)》,《中国人口科学》编辑部。
2.国家统计局(1988):《1987年全国1%人口抽样调查资料》,中国统计出版社。
3.国家统计局(1997):《1995年全国1%人口抽样调查资料》,中国统计出版社。
4.国务院人口普查办公室(1993):《中国1990年人口普查资料》,中国统计出版社。
5.国务院人口普查办公室(2002):《中国2000年人口普查资料》,中国统计出版社。
6.barro,r.&x.sala-i-martin(1995),economicgrowth.newyork:mcgrawhi,inc.
7.cai,fang(1999),spatialpatternsofmigrationunderchina''''sreformperiod,asianandpacificmigrationjournal,vol.8,no.3.
8.cai,fanganddewenwang(1999),sustainabilityofeconomicgrowthandlabourcontributioninchina,journalofeconomicresearch,no.10.
9.cai,fang,dewenwangandyangdu(2002),regionaldisparityandeconomicgrowthinchina:theimpactoflabormarketdistortions,chinaeconomicreview,13,197-212.
10.cook,sarah(1999),surpluslaborandproductivityinchineseagriculture:evidencefromhouseholdsurveydata,thejournalofdevelopmentstudies,vol.35,no.3:16-44.
11.fields,g.s.(1974),rural-urbanmigration,urbanunemploymentandunderemployment,andjob-searchactivityinldcs,journalofdevelopmenteconomics2,165-187.
12.fields,g.s.(1979),placetoplacemigration:somenewevidence,reviewofeconomicsandstatistics,vol.61,issue1,21-32.
13.greenwood,j.michael(1969),ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates,reviewofeconomicsandstatistics,vol.51,issue2,189-194.
14.greenwoodj.michad(1975),researchoninternalmigrationintheunitedstates:asurvey,journalofeconomicliterature,vol.13,issue2,397-433.
15.harris,j.,andm.todaro(1970),migration,unemploymentanddevelopment:atwosectoranalysis,americaeconomicreview40,126-142.
16.jefferson,g.h.andt.g.rawski(1992),unemployment,underemploymentandemploymentpolicyinchina''''scities,modernchina,18(1),42-71.
17.johnson,d.gale(1999),agriculturaladjustmentinchina:thetaiwanexperienceanditsimplications,officeofagriculturaleconomicsresearch,theuniversityofchicago.
18.leweis,w.a.(1954),economicdevelopmentwithunlimitedsuppliesoflabor,themanchesterschoolofeconomicandsocialstudies22,139-191,reprintedina.n.agarwalaands.p.singh(eds.),theeconomicsofunderdevelopment.bombay:oxforduniversitypress,1958.
19.lin,j.yifu,fangcai,andzhouli(1996),thechinamiracle:developmentstrategyandeconomicreform,hongkong:chineseuniversitypress.
20.lowry,i.s.(1966),migrationandmetropolitangrowth:twoanalyticalmodels.sanfrancisco:chandlerpublishing.
21.meng,xin(2000),labormarketreforminchina,cambridge,uk:cambridgeuniversitypress.
22.o''''neill,j.a.(1970),theeffectofincomeandeducationoninter-regionalmigration,unpublishedph.d.dissertation,columbiauniversity.
23.schultz,t.paul(1982),lifeiimemigrationwithineducationalstratainvenezuela:estimatesofalogisticmodel,economicdevelopmentandculturalchange,30(3),559-594.
24.solinger,d.(1995),thechineseworkunitandtransientlaborinthetransitionfromsocialism,modernchina,21(2),155-183.
25.solinger,d.(1999),citizenshipissuesinchina''''sinternalmigration:comparisonswithgermanyandjapan,politicalsciencequarterly,vol.114,no.3,455-478.
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语