时间:2023-02-27 11:06:34
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据挖掘论文范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
1.2IBMSPSSModelerIBMSPSSModeler是一个数据挖掘工作台,用于帮助用户快速直观地构建预测模型,而无需进行编程。其精密的数据挖掘技术使用户能够对结果进行建模,了解哪些因素会对结果产生影响。它还能可提供数据挖掘相关的数据提取、转换、分析建模、评估、部署等全过程的功能[3]。通常,SPSSModeler将数据以一条条记录的形式读入,然后通过对数据进行一系列操作,最后将其发送至某个地方(可以是模型,或某种格式的数据输出)[3]。使用SPSSModeler处理数据的三个步骤:(1)将数据读入SPSSModeler;(2)通过一系列操纵运行数据;(3)将数据发送到目标位置。
2客户流失预测分析
2.1数据预处理数据预处理[6],将需要的客户投保数据按照业务预测分析的要求,将数据抽取到中间数据中,同时对数据清洗和转换,满足业务预测分析要求。每日凌晨调用存储过程将核心业务系统数据提取到中间数据库,寿险业务数据与其他数据一样,存在不安全和不一致时,数据清洗与转换可以帮助提升数据质量,进而提升数据挖掘进程的有效性和准确性。数据清洗主要包括:遗漏数据清洗,错误数据处理,垃圾数据处理[1]。
2.2数据选取数据预处理后,可以从中得到投保人的投保信息,包括投保人姓名,投保年龄(有效保单为当前年龄,无效保单为退保年龄),保费,投保年期,保单状态等。数据如图1所示。
2.3客户流失预测模型建立寿险业务按渠道来分可分为个人保险、团体保险、银行保险、网销保险、经代保险五类。由于团体保险在寿险公司发展比较缓慢,团险业务基本属于停滞阶段。结合寿险公司的营销特点,选定个人保单作为分析的对象,通过IBMSPSSModeler预测模型工具[3],使用决策树预测模型对客户流失进行预测分析。
2.4结果分析通过使用IBMSPSSModeler决策类预测模型分析某寿险公司2013年个人客户承保情况来看有以下规则:(1)投保年数在1年以内,首期保费在0~2000元或大于9997.130保费的客户比较容易流失。(2)保单终止保单中,女性客户较男性客户容易流失。(3)投保年数在2年以上,湖北及河北分支机构客户流失率比较容易流失。(4)分红寿险相对传统寿险,健康寿险的客户比较容易流失[1]。
2系统数据
2.1系统数据结构系统采用MicrosoftSQLServer,创建了WPGUI与WPCHQ数据库来管理3万余口油井数据采集、处理及存储等,建设数据表65张(见主要数据表的关系图2),主要包括生产井的完井数据、静态数据、动态数据、采集数据、原油物性数据、机杆管泵等技术数据,同时系统保存了油井近两年功图电参数据(每天每口井到少100张),以及根据这些数据分析计算出来的结果和汇总生成的数据。
3数据挖掘应用
数据挖掘是从大量数据集中发现可行信息的过程,是统计分析技术、数据库技术及人工智能技术的综合。面对油井工况实时分析及功图计产系统大量的油井生产完备数据,长庆油田充分利用数据挖掘技术,对数据进一步清理、集成、转换、挖掘应用,深化功图系统数据分析,先后开展了动液面计算,系统效率在线实时监测、区块动态分析研究等,并应用于油田现场,取得了较好的效果,既节约了生产成本,又方便了现场管理应用,进一步提升系统在长庆油田数字化前端的核心地位。
3.1区块动态分析
油井生产中,每天都会获得大量的实时生产数据,目前系统主要对单井完成工况分析及产液量计算,如何通过分析和处理这些数据,及时全面了解油田区块产油量、压力、含水等变化规律是数据挖掘应用又一问题。长庆油田开展了基于油井工况诊断及功图计产系统的区块动态分析,从空间和历史角度,对油井分类、分级、分层次进行统计分析,挖掘生产数据里有用的信息,提炼区块共性问题,并按照设计的模板(区块指标统计图表、供液能力分析、产量分析、故障井分析等)每月30日自动生成全面及时的区块油井生产动态分析,从而指导区块生产管理,实现油田的精细管理,为油田开发决策提供依据。
4结束语
随着长庆油田数字化建设的不断深入,各种生产、研究、管理等数据库不断增加,如何深化数据应用,准确迅速从数据库是提取有用信息,已成为是数字油田生产管理的迫切需求。在基于油井工况实时分析及功图计产系统数据挖掘应用中我们积累了不少经验,拓展了系统功能,提升系统在长庆油田数字化前端的核心地位。在今后应用中,油田数据挖掘应用注意几个问题:
(1)数据是数字油田的血液,为了保证数据挖掘效率,在数据库建设中要规范数据存储格式,保证数据源及数据类型的统一,同时加强数据审核,注重数据入库的质量;
1.1数据库环境的异构型
Web上的每个站点就是一个数据源,数据源之间是异构的,外加上各个站点的信息和组织的不同,Web网站就构成了一个巨大的异构数据库环境。要对这些数据进行挖掘,首先,要解决各个站点之间的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需的有用的信息知识。其次,有关Web上的数据查询。
1.2数据结构的半结构化
Web上的数据比较复杂,各个站点的数据都独立设计,具有动态可变性。虽然Web上的数据形成半结构化数据。这些问题是进行Web数据挖掘所面临的最大困难。
2XML技术在Web数据挖掘中的优势
Web数据的异构使Web数据挖掘变得十分困难,通过XML可以解决这个问题。因为XML文档具有很好的自我描述性,他的元素、子元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述半结构化的数据,因此在网络数据集成、发送、处理和显示的方面。开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据的处理提供了有用的途径。利用XML,Web设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构。基于XML的Web数据挖掘技术,能够使不同来源的结构化的数据很容易地结合在一起,解决Web数据挖掘的难题。
2.1XML技术在Web数据挖掘中具体作用利用XML技术我们在Web数据挖掘中可以完成以下几点:
2.1.1集成异构数据源
XML是一种半结构化的数据模型,可以完成和关系数据库中的属性一一对应,从而实施精确地查询与模型抽取。XML可以搜索多个不同数据库的问题,以实现集成。
2.1.2和异构数据进行交换
在Web数据挖掘程中,用户需要和异构数据源进行数据交换,XML通过自定义性及可扩展性来标识各种数据,从而描述从各站点搜集到的Web页中的数据。XML的出现解决了数据查询的统一接口。
2.1.3过滤信息并显示
XML描述数据本身,可以使得定义的数据以不同的方式显示,对获取的信息进行裁减和编辑以适应不同用户的需求。以不同的浏览形式提供给不同的用户。
3基于XML的Web数据挖掘模型
我们通过对XML及Web数据挖掘的分析,设计了一个基于XML的Web数据挖掘模型通过提供一个Web数据挖掘的集成环境,提高数据挖掘系统的整体性能。工作流程如下:系统根据用户要求搜集Web资源,经数据转换器处理成相应的XML数据存储,提供给挖掘器使用;挖掘器则根据要求从选取相应的算法挖掘,输出挖掘结果;用户根据自己的满意度,获得需要的挖掘结果,调整挖掘要求进入新一轮数据挖掘。通过系统的维护我们可以加入新的挖掘算法,实现升级。
3.1各模块具体功能
3.1.1数据收集
从Web站点上采集数据并存储,获得挖掘内容。针对异构数据源,可以多种方式提出相关需求,挖掘的重点是Web内容和Web使用的数据。把用户访问网站留下原始日志数据进行清洗、过滤和转换处理,转变成统一处理的数据结构,构建日志数据库。
3.1.2转换器
对检索得到的数据用XML技术进行预处理,建立半结构化数据模型,抽取其特征的元数据,用结构化的形式保存,为挖掘模块提供所需的数据。
3.1.3挖掘器
不同的挖掘算法有不同适用情况,挖掘综合器根据具体的需求和挖掘方法的不同选择策略到挖掘算法库中去选择挖掘算法或种组合算法执行挖掘任务。随着应用的深入,知识库中的算法和规则不断的丰富。挖掘算法库是挖掘分析方法的综合库,以插拔的形式组织存放各种挖掘算法。314结果生成与评估以直观的方式提交挖掘结果,便于用户的评估。通过模式分析和兴趣度度量,若结果使得用户满意,数据挖掘结束,输出用户感兴趣的内容;否则可以在此重新提出挖掘要求,重新挖掘。
3.2系统各模块实现方法
3.2.1数据收集
数据的收集也涉及数据挖掘的技术,其过程是:通过人工输入办法,给出查询主题,找到相关的Web页,然后,通过相应的数据挖掘的算法对训练数据集提炼,利用提炼出的数据模式,进行更大范围的搜索,以获取更多的数据源。最终形成较新和有效XML文档。
3.2.2数据的转换处理
数据抽取转换是模型实现一个重要环节,其主要方法是把现有的Web页面转换成XML格式,并使用相关工具处理XML结构数据检要把HTML中含有的与主题无关的标记过滤掉,然后转化到XML的格式存储。目前Web页面到XML文档的转换,有两部分数据构成:一是XML数据,二是非XML数据。XML数据,可以直接将它们提交给下一个模块。对于非XML数据,本文的实现方法是用到Tidy以改正HTML文档中的常见错误并生成格式编排良好的等价文档,还可以使用Tidy生成XHTML(XML的子集)格式的文档。通过构造相应的Java类完成将数据从HTML到XML的转换。
3.2.3挖掘方法
(1)文本分类:文本分类是指按预先定义的主题类别,把集合中的每个文档确定一个所属类别。这样,用户能够方便地浏览文档,并限制搜索范围来使查找更为容易。利用文本分类技术对大量文档进行快速、有效地自动分类。有关的算法通常采用TFIDF和NaiveBayes等方法。
(2)文本聚类:文本聚类与分类的不同之处在于,聚类不需要预先定义好的主题类别,它是将把文档集合分成若干个簇,要求同簇内文档内容相似度最大,而不同簇间的相似度最小。Hearst等人研究表明聚类假设,即与用户查询相关的文档通常会聚类比较靠近,而远离与用户查询不相关文档。可以利用文本聚类技术把搜索引擎检索结果分成若干个簇,用户只要考虑那些相关的簇,就能够缩小所需要浏览的结果数量。目前,常用的文本聚类算法,分为两种:以G-HAC等算法为代表的层次凝聚法,以k-means等算法为代表的平面划分法。
(3)关联分析:关联分析是指从文档集合中发现不同词语之间关系Brin提出一种从大量文档中查找一对词语出现模式算法,在Web上寻找作者和书名的模式,从而发现数千本在Amazon网站上查找不到的新书。
(4)模式评价:Web数据挖掘中十分重要的过程就是模式评价。常用的方法有预留法和交叉实验法,将数据分成训练集和测试集两部分,学习和测试反复进行,最后用一个平均质量模型来确定模型质量的好坏。
(5)预留法:从数据集合随机抽取预定大小一个子集作为测试集,其他数据则作为训练集。
(6)交叉验证法:把整个数据集合按照所要进行的学习测试循环次数分成一定数目的子集,在每次循环中,选取其一个子集作为测试集,其它子集并集则作为训练集。
一、客户关系管理(CRM)
CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。
二、数据挖掘(DM)
数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。
常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。
三、数据挖掘在客户关系管理中的应用
1.进行客户分类
客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。
2.进行客户识别和保留
(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户
这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为是或否会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。
(2)在客户保留中的应用
客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。
(3)对客户忠诚度进行分析
客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。
(4)对客户盈利能力分析和预测
对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。
根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。
一、客户关系管理(CRM)
CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。
二、数据挖掘(DM)
数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。
常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。
三、数据挖掘在客户关系管理中的应用
1.进行客户分类
客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。
2.进行客户识别和保留
(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户
这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。
(2)在客户保留中的应用
客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。
(3)对客户忠诚度进行分析
客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。
(4)对客户盈利能力分析和预测
对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。
(5)交叉销售和增量销售
交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。
四、客户关系管理应用数据挖掘的步骤
1.需求分析
只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。
2.建立数据库
这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为结果分析等数据传递给数据库用户。
3.选择合适的数据挖掘工具
如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。
4.建立模型
建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。
5.模型评估
为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。
6.部署和应用
将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当的调整,以使模型适应不断变化的环境。
参考文献:
[1]罗纳德.S.史威福特.客户关系管理[M].杨东龙译.北京:中国经济出版社,2002
[2]马刚:客户关系管理[M]大连:东北财经大学出版社,2008
[3]朱美珍:以数据挖掘提升客户关系管理[J].高科技产业技术与创新管理,2006,(27)
由于信息技术的迅速发展,现代的档案管理模式与过去相比,也有了很大的变化,也让如今的档案管理模式有了新的挑战。让人们对信息即时、大量地获取是目前档案管理工作和档案管理系统急切需要解决的问题。
一、数据挖掘概述
(一)数据挖掘技术。数据挖掘是指从大量的、不规则、乱序的数据中,进行分析归纳,得到隐藏的,未知的,但同时又含有较大价值的信息和知识。它主要对确定目标的有关信息,使用自动化和统计学等方法对信息进行预测、偏差分析和关联分析等,从而得到合理的结论。在档案管理中使用数据挖掘技术,能够充分地发挥档案管理的作用,从而达到良好的档案管理工作效果。(二)数据挖掘技术分析。数据挖掘技术分析的方法是多种多样的,其主要方法有以下几种:1.关联分析。指从已经知道的信息数据中,找到多次展现的信息数据,由信息的说明特征,从而得到具有相同属性的事物特征。2.分类分析。利用信息数据的特征,归纳总结相关信息数据的数据库,建立所需要的数据模型,从而来识别一些未知的信息数据。3.聚类分析。通过在确定的数据中,找寻信息的价值联系,得到相应的管理方案。4.序列分析。通过分析信息的前后因果关系,从而判断信息之间可能出现的联系。
二、数据挖掘的重要性
在进行现代档案信息处理时,传统的档案管理方法已经不能满足其管理的要求,数据挖掘技术在这方面确有着显著的优势。首先,档案是较为重要的信息记录,甚至有些档案的重要性大到无价,因此对于此类的珍贵档案,相关的档案管理人员也是希望档案本身及其价值一直保持下去。不过越是珍贵的档案,其使用率自然也就越高,所以其安全性就很难得到保障,在档案管理中运用数据挖掘技术,可以让档案的信息数据得到分析统计,归纳总结,不必次次实物查阅,这样就极大地提升了档案相关内容的安全性,降低档案的磨损率。并且可以对私密档案进行加密,进行授权查阅,进一步提高档案信息的安全性。其次,对档案进行鉴定与甄别,这也是档案工作中较困难的过程,过去做好这方面的工作主要依靠管理档案管理员自己的能力和水平,主观上的因素影响很大,但是数据挖掘技术可以及时对档案进行编码和收集,对档案进行数字化的管理和规划,解放人力资源,提升档案利用的服务水平。第三,数据挖掘技术可以减少档案的收集和保管成本,根据档案的特点和规律建立的数据模型能为之后的工作人员建立一种标准,提升了档案的鉴定效率。
三、档案管理的数据挖掘运用
(一)档案信息的收集。在实施档案管理工作时,首先需要对档案信息数据的收集。可以运用相关档案数据库的数据资料,进行科学的分析,制定科学的说明方案,对确定的数据集合类型和一些相关概念的模型进行科学说明,利用这些数据说明,建立准确的数据模型,并以此数据模型作为标准,为档案信息的快速分类以及整合奠定基础。例如,在体育局的相关网站上提供问卷,利用问卷来得到的所需要的信息数据,导入数据库中,让数据库模型中保有使用者的相关个人信息,通过对使用者的信息数据进行说明,从而判断使用者可能的类型,提升服务的准确性。因此,数据挖掘技术为档案信息的迅速有效收集,为档案分类以及后续工作的顺利展开,提供了有利条件,为个性化服务的实现提供了保证。(二)档案信息的分类。数据挖掘技术具有的属性分析能力,可以将数据库中的信息进行分门别类,将信息的对象通过不同的特征,规划为不同的分类。将数据挖掘技术运用到档案管理中时,可以简单快速地找到想要的档案数据,能根据数据中使用者的相关数据,找寻使用者在数据库中的信息,使用数据模型的分析能力,分析出使用者的相关特征。利如,在使用者上网使用网址时,数据挖掘技术可以充分利用使用者的搜索数据以及网站的访问记录,自动保存用户的搜索信息、搜索内容、下载次数、时间等,得到用户的偏好和特征,对用户可能存在的需求进行预测和分类,更加迅速和准确的,为用户提供个性化的服务。(三)档案信息的整合。数据挖掘技术可以对新旧档案的信息进行整合处理,可以较为简单地将“死档案”整合形成为“活档案”,提供良好的档案信息和有效的档案管理。例如,对于企事业单位而言,培训新员工的成本往往比聘请老员工的成本要高出很多。对老员工的档案信息情况进行全体整合,使档案资源充分发挥作用,将档案数据进行总结和规划,根据数据之间的联系确定老员工流失的原因,然后建立清晰、明白的数据库,这样可以防止人才流失,也能大大提高档案管理的效率。
四、结语
综上所述,在这个信息技术迅速跳跃发展的时代,将数据挖掘技术运用到档案管理工作中是时展的需求与必然结果。利用数据挖掘技术,可以使档案管理工作的效率大大提升,不仅减少了搜索档案信息的时间,节省人力物力,避免资源的浪费,还能帮助用户在海量的信息数据中,快速找到所需的档案数据信息。数据挖掘技术的运用,使静态的档案信息变成了可以“主动”为企事业单位的发展,提供有效的个性化服务的档案管家,推动了社会的快速发展。
作者:于然 单位:扬州市体育局办公室
【参考文献】
1.2代码开发现阶段,JAVA应用中广泛应用着基于开源框架的编程,此时配置的逻辑控制是借助XML配置文件实现的,但现有的JAVA应用为单机版,同时框架的逻辑具有复杂性,开源框架的文档化相对较差。在此情况下,程序员在对框架使用与配置缺少正确性。为了实现上述问题的有效解决,提出了基于应用代码库中的XML配置文件及代码关联结构挖掘的XML配置片段推荐方法,将此方法应用到软件开发中,促进了程序员对配置文件的编辑。上述方法的核心为频繁子树挖掘,通过实验分析可知,该方法具有一定的有效性,特别是在XML配置片段中扮演着重要的角色,因此,它促进了软件的开发。目前,在软件开发构建新系统过程中,程序员需要利用编程框架从而实现编程,此时不仅利于通用性作用的发挥,还利于程序机构的清晰。在框架编程时,开发人员要对编程进行扩展,同时还要构建XML配置文件。框架编程有着一定的优势,但在实际应用过程中仍存在不足,逻辑缺陷极易被应用,在此基础上,程序员对框架的使用缺乏有效性与正确性。在此背景下,配置代码推荐被应用,它具有较强的可用性,分别体现在数据与方法两方面。
1.3回归测试在软件应用开发后,客户将对其进行使用,但使用前与使用过程中,均会出现代码修改的情况,造成此情况的原因为代码缺陷与功能更新。在代码更新后,重新前,要对代码进行测试,此时的测试便是回归测试。它主要是为了验证修改软件,使软件的功能得到有效的发挥。因此,回归测试对于软件来说是重要的,它直接保证着软件的质量[3]。
2数据挖掘技术在网上银行促销活动中的运用
随着商业银行的快速发展,网上银行受到人们的广泛关注。网上银行系统以计算机网络为交易平台,各种新型的促销策略,使网上银行业务得到迅速拓展。但是,和四大行相比,一些商业银行的网上银行业务仍然存在很大的差距。同时,近年来,网上银行市场竞争日益激烈,某些网上银行业务在应用过程中出现了促销成本不断增加,而促销效果不理想的状况,数据挖掘技术在网上银行促销活动中的运用,要积极解决这些问题。
2.1提高营销质量当前,很多银行都逐渐加大了网上银行促销力度,但是促销活动的效果却不明显,单纯的依靠赠送礼品或者各种优惠措施,在很大程度上会提升促销成本,并且难以真正地吸引客户。在网上银行促销活动中应用数据挖掘技术,分析不同促销活动的特点,根据网上银行系统自身的特点和优化,对不同客户进行组合促销,将不同的网上银行业务或者产品联系起来,有针对性地对有意向的客户进行促销,合理安排网上银行促销活动内容和时间,尽量在电子商务交易高峰时段之前,实现网上银行促销活动的目标。
2.2优化客户结构一些商业银行不了解客户的真实需求,在发展潜在客户时,缺乏针对性,网上银行促销活动的交易需求较弱。因此要应用数据挖掘技术挖掘一些隐含的信息,明确哪些客户对网上银行的哪些产品或者业务有需求,挖掘潜在的、有实力的客户,将这些客户作为网上银行促销活动的重点客户。
2.3优化促销活动流程在网上银行促销活动中运用数据挖掘技术,采用运用关联分析,挖掘传统银行渠道重点产品和网上银行系统重点产品的业务数据,挖掘非网络银行系统和网络银行系统业务以及网络银行系统不同业务或者产品之间的关联关系,通过数据挖掘技术寻找符合网上银行系统运营条件的关联关系,探索网上银行系统不同产品和业务之间的依存性或者相似性[2],由此将网上银行系统的某一项业务或者产品作为重点促销产品来拉动其他业务和产品的销售,并且可以将一些业务或者产品组合起来进行有针对性的促销,提高网上银行促销活动效果。另外,挖掘优质、有潜力客户特征,优质客户可以银行提供大量的业务收入和交易量,因此可以通过数据挖掘技术的聚类方法分析银行系统的客户构成,挖掘优质客户的共同特征,为网上银行促销活动提供重要的依据。
二、最小二乘法拟合直线
最小二乘法是一种数学优化技术。它以某一社会、经济或自然现象为对象,寻找一拟合曲线,以满足给定对象系统的一组观测数据。通常要求选择的拟合曲线会使各观测数据到拟合曲线的误差的平方和最小。
本文研究销售企业(如商场)异常客户的性质。设一段时期内客户的累计消费金额为y,对应的消费时期为x。假定测得客户的n个数据(x1,y1),…,(xn,yn),则在XOY平面上可以得到n个实验点:Pi(xi,yi)(i=1,…n),这种图形称为“散点图”(如图1,图2)。在利用最小二乘法进行分析时,各种非线性关系的拟合曲线均可线性化,因此此处选择直线y=ax+b作为拟合直线,寻求x与y之间近似线性关系时的经验公式。其中a为直线的斜率,b为直线在y轴上的截距。
如果Pi(i=1,…n)全部位于同一条直线上,则可认为变量之间的关系为y=ax+b,但一般情况下不会如此。记估计值=axi+b,则各实验点与拟合直线之间的误差为εi=-yi=(axi+b)-yi,它反映了用直线y=ax+b来描述(xi,yi)时,估计值与观测值yi之间的偏差大小。则有:
要求偏差越小越好。但由于εi可正可负,简单求和可能将很大的误差抵消掉,只有平方和才能反映二者在总体上的接近程度,这就是最小二乘原则。于是问题归结为根据这一要求来确定y=ax+b中的a和b,使得最小。因为F(a,b)是关于a、b的二次函数并且非负,所以其极小值总是存在的。根据罗彼塔法则,F取最小值时,有:
于是得到了符合最小二乘原则的相应解:
三、基于斜率的异常客户挖掘算法
1.问题描述
本文的目的是研究某一消费时期内,异常客户的消费倾向。取异常客户一年内各月份的累计消费金额为参考,记录的数据如下(表1,表2)。根据其散点图(图1,图2)可以看出,客户的累计消费金额随时间都呈上升趋势,所以难以观察出该客户是否对商场保持持久的忠诚度,是否有转向竞争对手的可能。基于斜率的异常客户挖掘算法正是要解决识别客户性质这一问题。
2.算法描述
算法:Outlier_Analysis。根据输出的a值来判断异常客户的性质:积极的或消极的。
输入:客户数据,即参考点,由有序点对(xi,yi)表示;参考点的个数n。
输出:a(直线的斜率),b(直线在y轴上的截距)。
方法:
(1)初始化a、b。
(2)对客户的n个观测数据(即n个记录点)进行相关数据计算:
(3)ifa<0then
客户购买金额呈减少趋势,为消极客户
else
云计算是并行计算和分布计算以及网格计算的发展,是一种在海量数据大规模的集合中能动态处理各种服务器数据资源的一类计算平台,在电子商务、商业金融、科研开发等领域能得到广泛的应用。它具有大规模、虚拟化、高效率、通用性、廉价等特点,能针对不同的用户的不同需求,动态透明地提供其所需的虚拟化计算和资源储存,并能及时动态回收当前用户暂不利用的数据资源以提供给其他用户,而其廉价、通用的特点,使得一般用户实现大规模的数据操作成为可能。目前来说,云计算的平台已得到良好的发展,日益成熟,基于云计算的应用已经可以相当方便的部署和操作其数据资源。
1.2数据挖掘
数据挖掘技术是现代知识发现领域的一个重要技术,它是指一个从随机的大量而不完整的模糊的实际数据中提取其中某些隐含着的具有潜在价值的实用知识与信息的过程。其具体技术有特征化、聚类、关联和预测分析等等,涉及到的高级技术领域有统计学、机器学习、模式识别、人工智能等方面。
2基于云计算的数据挖掘平台构架
网络云的发展给数据挖掘提出了新的问题和时代的挑战,同时,也为数据挖掘提供了新的计算平台和发展机遇。基于云计算的数据挖掘系统平台的发现,解决了传统的数据挖掘技术出现的时代滞慢、效率较低、功能落后、成本高昂等问题。云计算是一种商业计算模式,是网格计算与并行计算及分布式计算在一定程度上的商业实现,其动态、可伸缩的计算基于云计算的数据挖掘平台架构及其关键技术探讨文/张瑶刘辉云计算是一种在互联网时代中应运而生的新兴的网络技术,具有高效率、高容量、动态处理的特点,在社会的商业领域和科研领域表现出了其相当高的应用价值。将云计算应用于数据挖掘平台的构架之中后,将能在很大程度上为现代社会中越来越海量的数据挖掘提供一个高效率的技术平台。本文将结合云计算和数据挖掘的基本概念和现代意义,对数据挖掘的平台构架和相应的关键技术做出简要的分析探讨。摘要能力使得进行高效的海量数据挖掘的目标不再遥远。同时,云计算SaaS功能日益被理解和标准化,使得基于云计算SaaS化的数据挖掘有了理论和技术的指导,并具有了企业化与大众化的发展趋势。
2.1数据挖掘平台构架
建立在关系型数据库之上的传统的数据挖掘技术构架在现时代数据急剧膨胀和分析需求渐增的发展下已经难以应付社会的数据处理问题。而云计算的分布式存储与计算形式则接受了当代的数据挖掘难题,促成了适应时代的云计算数据挖掘平台构架的形成。其包含了面向组件的设计理念和分层设计的思想方法。其构架自下向上总共分为3层,分别为底层的云计算支撑平台层、中间的数据挖掘能力层和上层的数据挖掘云服务层。
2.2基于云计算的数据挖掘平台构架各层意义
云计算支撑平台层:顾名思义,该平台层是云计算数据挖掘平台的基础处理平台,其主要具有的功能是对分布式文件存储与数据库提供资源存储,以及实行对数据的有关处理和计算功能。数据挖掘能力层:该平台结构层主要是提供挖掘的基础能力,是数据挖掘的核心支撑平台,并对数据挖掘云服务层提供能力支撑。该平台层包含了算法数据并行处理、调度引起和服务管理的框架,该平台层可以提供系统内部的数据挖掘处理和推荐算法库,亦支持第三方的数据挖掘算法工具的进入。数据挖掘云服务层:数据挖掘云服务层的主要功能是对外提供数据挖掘操作的云服务,同时也能提供基于结构化查询的语言语句访问,提供相关的解析引擎,以便于自动调用云服务。对外数据挖掘云服务能力封装的接口形式多样,包含了基于简单对象访问协议下的Webservice、XML、HTTP以及本地应用程序的编程接口等多种形式。另外,在必要的时候,云服务层的各个业务系统可以进行数据挖掘云服务的调用和组装。
3基于云计算的数据挖掘平台构架的关键技术探讨
基于云计算的数据挖掘平台构架的形成,离不开现代先进的科技技术,其中几项关键的技术应用将在这里进行简要的阐述:
3.1云计算技术
3.1.1分布式储存技术
通过采用分布式存储的方式来存储数据,是云计算技术保证数据处理高可靠性和经济性的重要保证。用可靠的软件来弥补硬件的不足,是分布式存储技术提供廉价而又海量的数据挖掘支持的重要途径。
3.1.2虚拟化技术
在云计算的环境下,数据挖掘能实现对大量的可用的虚拟化技术的应用、整合,发展出一套全面虚拟化的运行战略。云计算和虚拟化的共同组合,使数据挖掘实现了跨系统下的资源调度,将海量的来源数据进行IT资源汇合,动态地实现对用户的虚拟化资源的供给,从而以高效率、海量动态的特点完成服务任务。
3.1.3并行云计算技术
并行云计算技术是一种对于高效执行数据挖掘计算任务极其重要的技术,并且它对云计算的某些技术细节做出了封装,例如任务并行、任务调度、任务容错和系统容错以及数据分布等。该功能代替了用户对这些细节的考虑,使得研发效率得到了提高。
3.2数据汇集调度中心
数据汇集调度中心的功能主要是完成对不同类型的数据进行汇集。它实现了对接入该云计算数据挖掘平台的业务数据收集汇合,能够解决与不同数据的相关规约问题,并能支持多样的源数据格式。
3.3服务调度与管理技术
对于基于云计算的数据挖掘平台,为了使不同业务系统能够使用本计算平台,必须要提供相应的服务调度与管理功能。服务调度解决云服务下的并行互斥以及隔离等问题,以保证安全、可靠的平台的云服务。服务管理功能要实现统一的服务注册与服务暴露功能,并且支持接入第三方的数据挖掘,以更好地扩展平台的服务能力。