时间:2022-09-19 12:49:44
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇数据挖掘技术探讨论文范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
[2] (美)MICHAEL MILLER云计算(史美林・译)[M].北京:机械工业出版社,2009年4月.
[3] 王鹏.云计算的关键技术与应用实例[M].北京:人民邮电出版社,2009年12月.
[4] Luiz AndréBarroso, Jeffrey Dean, Urs H-lzle.
入分析,提出了具体算法。
网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从Web网站的数据中发掘关系和规则。其挖掘对象是大量、异质、分布的Web文档,可以对数据库、Web服务器上的日志、读者信息等数据展开挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的,或者是关于用户行为模式的1。通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的Web信息服务。
本文以中国知网(CNKI)总库为统计源,以主题“We数据挖掘”、“网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。具体数据如表2所示:
根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。网络数据挖掘在图书馆中的应用主要表现在以下几个方面:
(1)图书推荐系统。这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。因此,这个研究的重点和难点在使用的挖掘算法上2。
(2)网络学习平台。现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3。这类应用主要是针对网络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的兴趣不同,需要对不同的读者组织不同的教育资源。而网络数据挖掘在其中所起的重要作用就是对读者的借阅和浏览行为进行挖掘分析,根据分析结果为读者匹配学习资源。
(3)文献检索系统。网络数据挖掘技术也常见于文献检索系统的应用中,图书馆资源包含大量的文本、期刊、视频等。读者常常需要通过检索才能获取自己想要的信息,使用网络数据挖掘也是为读者提供高效获取信息的方式。
由以上分析看出,网络数据挖掘在图书馆中应用的主要目的就是为读者找到所需资源,满足读者的个性化需求。下面我们就针对网络数据挖掘在图书馆个性化推荐中的应用进行探讨。
1、 图书馆个性化推荐常用分析方法
1.1聚类算法
通常说来,许多图书馆的读者建模方法是基于统计的,即对所有读者的统计数据(比如基于平均值)进行分析。这样的后果是对读者的个性化行为视而不见,影响了读者专业性和个性化需求,忽略了隐含的读者信息的价值。而读者聚类建模,则是把一类读者聚集起来,分析他们的特性并对这类读者建模,在建模质量相同或接近的条件下,聚类建模所需的数据量将远远低于对单个读者建模的数据量,因为分类中的每个读者(知识背景和生活阅历贡献具有很大的相似度)都贡献了其数据。常用聚类算法如表3。
1.2 社会网络分析
社会网络分析已经有相当长的一段历史了,近60年来,相关研究人员做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg说提出来的HITS算法开创了将社会网络研究应用在Web范畴的先河。这两种算法都来源于社会网络分析,都利用了网页的超链接结构并依据网页的“威望”或者“权威”级别来对网页进行分级排序。这在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样的社会网络关系,这种关系主要通过读者浏览和获取文献行为体现。这种关系和活动可以用网络或图来表示,其中,每一个顶点(结点)用来表示一个读者,而一条边的连接用来表示两个读者之间的关系。利用网络图我们可以研究该网络的结构特征,以及每个读者威望性、中心性等属性。同时从中我们也可以找到各种类型的子图,即社区。
2、 基于网络数据挖掘的图书馆个性化推荐分析
2.1基于K-means聚类推荐分析
图书馆读者聚类可以通过两种方式进行聚类,建立二维推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询信息和借阅信息的高效率、高准确率的自动分类,然后根据读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息可以采用K-均值聚类算法实现,并根据图书馆相关信息结构的特点,对算法本身加以改进。具体流程如图1。
2.2 基于PageRank社会网络分析
在图书馆借阅场景下,读者浏览和借阅行为反应了读者的需求。PageRank算法关键在于测度每个对象的随机访问概率。我们假定读者借阅史就是读者推荐书目单,反应了读者对于图书的认可程度。在此,我们可以把访问概率转化为读者推荐书目单的紧密程度,因此,问题转化为求读者推荐书目单的紧密程度,然后通过PageRank算法,求出读者推荐书目单的权威度排名,进而推荐给兴趣模型相似的读者。
我们用dist(j, t)表示两个读者推荐书目单关系程度,使用其文本相似度 来度量,进而产生新的PageRank2算法。对于每个读者推荐书目单,其重要度PR2(i)可定义为:
其中DIS(j,i)定义为:
在实际应用中,由于某些读者推荐书目单可能与其他读者推荐书目单 值为0,故将公式2调整为:
其中a为衰减系数,设定为0和1之间,其本质是为了消除孤立读者,给每个读者增加一条指向所有其它读者的链接,并且给予每个链接一个由参数a控制的转移概率,在这里我们沿用PageRank中的取值a=0.8570。
3、 结语
本文主要探讨了网络数据挖掘在图书馆中的应用问题,并对于社会网络分析的应用进行了较为深入的分析,提出了具体算法。网络数据挖掘广泛应用于互联网。随着数字图书馆的不断兴起,其在图书馆领域的应用将更加广泛4。但是,图书馆相对封闭的信息环境制约着网络数据挖掘的应用。相信随着Web2.0和读者个性化需求不断得到重视5,数字图书馆技术的不断发展,网络数据挖掘将会发挥更加重要的作用。
参考文献
[1] 马费成,王晓光.信息资源管理研究及国际前沿[J].情报学研究进展.武汉大学出版社,2007.
[2] 刘晓忠.数据挖掘技术在图书馆建设中的应用[J].硅谷,2012(6).
【中图分类号】G420 【文献标识码】A 【论文编号】1009―8097(2009)06―0104―03
数据挖掘技术可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道的,但又是潜在有用的信息和知识的过程。通过这种技术把获取的信息和知识提供给决策支持系统。这种技术已广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等[1,2,3] ,随着信息技术的发展,数据挖掘在网络教学中的应用研究也逐渐深入[4,5,6] 。网络教学成为一种新型教学手段,理论上学习者可以在任何时间、任何地点以任何形式、从任何章节开始学习任何内容,实现个性化学习。但在网络教学实施过程中,教学内容和组织活动却不能随着学生的学习状况发生动态变化,导致了教与学脱离的现象,教学效果达不到预期效果。因此可以利用该技术对收集到的与学生学习相关的历史数据进行分析,从而可以为教师深入理解学生的实际学习情况,制定相关的教学目标供 其学习提供有力的决策支持,是提升教学效果的有力手段。
一 拟解决的关键问题
本文探讨 在现有的网络教学平台基础上,以在教学信息数据库中采集到的学生学习记录为样本,应用数据挖掘技术,挖掘有用的规则,探讨学生的学习习惯, 学习兴趣和学习成绩间的关系,从而及时了解学生对每一章节知识的掌握程度并根据每个学生的情况制定下一章节的教学目标,为其提供不同的教学内容,从而使教学更适合学生
个性的发展,实现网络分层教学,最终实现教学过程的动态调节。
二 数据预处理
由于人为的原因、设备的故障及数据传输中的错误,导致现实世界的数据含有脏的、不完整的和不一致的数据。数据预处理技术可以检测数据异常,调整数据并归约待分析的数据,从而改进数据的质量,提高其后挖掘过程的精度和性能。
本文数据源于《数据结构》网络教学课程,48节理论课,24节实验,4.5个学分。学生111人,其中06级信息与计算科学专业班合计64人,07级地理信息系统专业一个班计47人。针对1节提出的问题,本文通过对网络教学平台教学信息数据库中的学生信息表、学生学习进度表、测试信息表等进行数据挖掘,说明其在网络教学中的应用。各表结构如表1至表3所示(本文中学生信息经过掩饰处理)。
其中内容是指客观性考题,如单项选择题等。主观性考题,如算法设计之类考题可以以教师组织的BBS讨论为依据评分,在此以有效讨论次数(有实质性的讨论内容)计算。
首先去除数据表中的冗余信息,如学生信息表中除学号信息以外的各分项信息,每一章节学习进度表中的节、日期信息,每章测试信息表中的题号、内容、答案等信息;对某些汇总数据项进行离散化处理,如将测试信息表中得分汇总后分为(0,59),(60,85),(85,100)等 3个组并概化为不及格,合格和优秀三个层次;学习时间汇总后分为(0,2),(2,4),(4,6),(6,)等 四个组,单位:小时;学习次数汇总后分为(0,3),(3,6),(6,)等 三个组,BBS讨论汇总后分为(0,3),(3,6),(6,)并 概化为积极,参与和不积极三个层次[7];同时下一章节的教学目标制定为三个层次,内容呈现分别表示为A类、B类、C类三个层次的内容,提供给学生学习。然后检查数据的完整性及数据的一致性,对其中的噪音数据进行处理。经过数据预处理工作,得到一张描述学生学习过程信息的数据表格,表4是我们整理出的某一章节的学生学习情况数据。
三 数据挖掘过程
主要是利用关联分析、序列模式分析、分类分析和聚类分析等分析方法对数据库中的潜在规则进行挖掘。针对1节中提出的问题,根据国内外对各类模式挖掘算法的研究[8,9],本文采用FP-Tree关联规则挖掘算法进行关联规则挖掘和用于 分类模型判定树归纳算法进行数据挖掘。
1 关联规则挖掘
关联规则挖掘可以发现大量数据中项集之间有趣的关联或相关联系,通过这种挖掘技术对表4进行挖掘,可以发现学生的学习时间、学习次数及网络课堂讨论和学习效果之间的关系,使教师了解学生的网上学习行为和目标掌握程度,帮助教师调整教学计划,如设计有意义的讨论课题提升学生的学习兴趣,从而间接增加学生的学习时间和学习次数。
首先给出关联规则的形式化描述:设 是m个项的集合,D是数据库事务的集合,每个事务有一个标识符。关联规则就是形如 的蕴含式,其中 ,并且 。规则的支持度记为 ,是事务D中包含的 事务数与所有事务数之比,置信度记为 ,是指包含的 事务数与包含的 事务数之比。
给定事务数据库D挖掘关联规则问题就是产生支持度、置信度分别大于用户给定的最小支持度和最小置信度的关联规则。
表5是使用FP-Tree算法对学生学习情况表进行挖掘得到的一系列关联规则(因篇幅限制,本文仅列出部分内容)。
从上表可以看出,学习时间在6小时以上并且成绩为优秀的同学占全班的20.51%,学习时间6小时以上的同学中有34.78%的学生成绩为优秀。学习时间在2小时以下的并且成绩不及格的同学占全班的7.69%,学习时间2小时以下的同学中有75%的学生成绩不及格。学习时间在6小时以上,学习次数多于6次且成绩为优秀的学生占全班的7.69%,这部分同学中有75%也积极参与BBS讨论,而学习时间少于2小时,次数少于3次,基本不参与讨论的同学,不及格率为100%,这部分同学占全班的7.69%。比例明显偏高,需要调整教学的内容和设计讨论问题以提高学生的兴趣。从表中还可以看出,学习次数多于6次的学生中有92.31%的学生其学习时间一般也会超过6小时,这部分学生占全班的61.54%,通过关联规则的挖掘,可以掌握学生网上学习行为,从而为教师的教学策略调整提供依据,可以更好地进行学生的培养。
2 分类模型挖掘
著名的心理学家、教育学家布卢姆提出的掌握学习理论认为:“只要在提供恰当的材料和进行教学的同时给每个学生提供适度的帮助和充分的时间,几乎所有的学生都能完成学习任务或达到规定的学习目标”。
通过构造判定树可以建立学生分层教学模型,并依据判定树为学生提供不同层次的教学内容而 实现对学生的网络分层教学。分类模型判定树归纳算法主要表述为计算每个属性的信息增益,将具有最高信息增益的属性选作 给定样本集合的测试属性,创建树的结点,并以该属性标记,对属性的每个值创建分支,并据此划分样本。由于样本数据中存在噪声或孤立点,通过树剪枝去除不合理的分支,以提高在未知数据上分类的准确性。据此算法构造的判定树如图1所示。
判定树的第一层条件为每一章节的单元测试成绩,分别表示为优秀、合格和不及格。不及格的同学下一章节进入C类教学目标学习,优秀的同学则进入A类教学目标学习,合格的同学则根据学习的次数决定下一章节的教学目标。学习次数为0~2次的同学进入B类教学目标学习,3~5次的同学则需要根据学习时间判定,根据判定树可知,所有同学进入B类教学目标学习,这和我们日常的判断逻辑相符,因为学习次数较多,学习时间较长,但成绩却是合格的同学很有可能是因为方法不当等原因导致接受知识能力较差,进入A类目标学习显然是不合理的。当学习次数大于6次时,可以根据学生参与BBS讨论的次数决定学生的下一章节的学习目标,讨论次数0~2次的同学其学习目标定为B类,3次以上的同学其学习目标则定为A类,这类学生表现出对知识的渴求,兴趣较浓,理解知识的能力相对较强。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
根据判定树,可以根据学生学习本章节的实际情况对学生学习下一章节内容的效果进行预测,据此对学生进行分类,提供不同的教学内容供其学习,以提高整体教学质量。
参考文献
[1] 汤小文,蔡庆生. 数据挖掘在电信业中的应用[J].计算机工程,2004,30(6):36-37,41.
[2] 杨引霞,谢康林,朱扬勇等.电子商务网站推荐系统中关联规则推荐模型的实现[J].计算机工程, 2004, 30(19):57-59.
[3] 印鉴,陈忆群,张钢.基于数据仓库的联机分析挖掘系统[J].计算机工程,2004,30(19):49-51.
[4] 杨清莲,周庆敏,常志玲.Web挖掘技术及其在网络教学评价中的应用[J].南京工业大学学报(自然科学版),2005, 27(5):100-103.
[5] 刘革平,黄智兴,邱玉辉.基于数据挖掘的远程学习过程评价系统设计与实现[J].电化教育研究,2005,(7):67-69.
[6] 孙莹,程华,万浩.基于数据挖掘的远程学习者网上学习行为研究[J].中国远程教育,2008,(5):44-47.
[7] 龚志武.关于成人学生网上学习行为影响因素的实证研究[J].中国电化教育,2004,(8):32-34.
[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.
[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).
Application of Data Mining in Network Teaching
SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1
(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)
中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2012)06-0001-08
1 引言
当数据和黄金一样,成为一种新的经济资产[1],当科研处于以数据为基础进行科学发现的第四范式[2],当数据开始变革教育[3],这些无不宣告着我们已经进入了大数据(big data)时代。不同的学科领域,正在不同的层面上广泛地关注着大数据对自己的研究和实践带来的深刻影响,情报研究领域也不例外。
大数据,顾名思义是大规模的数据集,但它又不仅仅是一个简单的数量的概念,IBM公司指出,大数据的特点是4个V:Volume(大量)、Velocity(高速)、Variety(多样)及Veracity(真实),它提供了在新的和正在出现的数据和内容中洞悉事物的机会,使业务更加灵活,并回答以往没有考虑到的问题[4]。Gartner公司的报告也提出,大数据是大容量、高速和多样化的信息资产,它们需要新的处理方式,以提高决策能力、洞察力和流程优化[5]。
由此可见,大数据强调的不单纯只是数据量多少的问题,其背后隐藏了更为复杂和深刻的理念,这些理念包括:①将对数据和信息的分析提升到了前所未有的高度。这里的分析不是一般的统计计算,而是深层的挖掘。大数据时代,如何充分利用好积累的数据和信息,以创造出更多的价值,已经成为企业管理者、政府机构以及科研工作者首要关注的问题。“业务就是数据”、“数据就是业务”、“从大数据中发掘大洞察”等意味着对数据分析提出了新的、更高的要求。可以这么说,大数据时代就是数据分析的时代。②多种数据的整合和融合利用。大数据时代,数据的多样性是一种真实的存在,数据既包括结构化的数据,也包括非结构化的数据,表现方式可以是数据库、数据表格、文本、传感数据、音频、视频等多种形式。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在知识。只有如此,才能真正地提高数据分析的科学性和准确性。③更加广泛地应用新技术和适用技术。数据量大(Volume)、类型多样(Variety)、增长速度快(Velocity)是大数据的突出特点,这必然会带来数据获取、整合、存储、分析等方面的新发展,产生相应的新技术或者将已有的技术创新地应用于大数据的管理与分析。同时,大数据的这些特点也决定了传统的、以人工分析为主的工作模式将遇到瓶颈,计算机辅助分析或基于计算机的智能化分析,将成为大数据时代数据与信息分析的主流模式。
对于在数据分析领域扮演重要角色的情报研究工作而言,大数据的理念和技术既带来了机遇,也带来了挑战。一方面,在大数据时代,情报研究工作正在得到空前的重视,大数据为情报研究的新发展提供了机会,从更为广阔的视野来看待情报研究的定位,研究新技术新方法,解决新问题,将极大地促进情报研究理论与实践前进的步伐。另一方面,大数据时代本身也要求各行各业重视情报研究工作,这就必然使得众多学科有意识地涉足到以往作为专门领域的情报研究之中,并将其作为本学科的重要组成部分加以建设。文献分析(本质是文本分析)不再为情报研究所独占,以往情报研究领域积累的相关理论和方法很有可能优势不再。因此,如何把握住自身的优势,并抓住机会有所拓展,是情报学在大数据时代需要思考的问题。
2 大数据环境下情报研究的发展趋势
大数据带来的新观念,正在引报研究的新发展,而且,研究人员也在不断地从情报研究的实践中总结经验教训,引导情报研究的未来走向。英国莱斯特大学的Mark Phythian教授在2008年10月作 了题为“情报分析的今天和明天”的报告[6],指出:①获知情境是至关重要的。忽略战略环境、领导风格和心理因素等更为广泛的问题,将导致情报研究的失误;②要加强信息之间的关联。美国政府部门内部的信息共享障碍,致使分析人员无法获取充足的信息来支持分析活动,导致情报研究中的预测失败;③要汲取更多外界的专业知识。这一举措虽然不能保证分析的成功性,但将是竞争分析的重要信息来源。
综合大数据背景的要求和以往情报研究的经验教训,结合国内外同行的研究成果,本文将情报研究的发展趋势总结为以下五个方面:单一领域情报研究转向全领域情报研究;综合利用多种数据源;注重新型信息资源的分析;强调情报研究的严谨性;情报研究的智能化。
2.1 单一领域情报研究转向全领域情报研究
随着学科的深入交叉融合及社会发展、经济发展与科技发展一体化程度的增强,情报研究正从单一领域分析向全领域分析的方向发展。
首先,表现在各领域中的情报研究从视角、方法上的相互借鉴。从方法上看,社交网络分析方法、空间信息分析等其他学科的分析方法,广泛应用于军事情报、科技情报等领域,心理学等领域的理论也用于情报分析的认知过程,以指导情报分析及其工具的研发。同时,情报学中的引文分析等文献计量方法也被借鉴用于网站影响力评估。从技术上看,可视化、数据挖掘等计算机领域的技术,为情报研究提供了有力的技术视角,情报研究获得的知识反过来又给予其他技术领域的发展以引导。可见,无论从思想上、方法上、技术上,各领域之间的交叉点越来越多,虽然这种相互借鉴早就存在,但现在意识更强、手段更为综合。
其次是分析内容的扩展,这也是最为重要和显著的变化。在情报研究过程中,不仅仅局限于就本领域问题的分析而分析,而将所分析的内容置于一个更大的情景下做通盘考虑,从而得出更为严谨的结论。联合国的创新倡议项目Global Pulse在其白皮书“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是关键,基于没有代表性样本而获得的结论是缺乏外部合法性的,即不能反映真实的世界。在情报研究领域,一些数据往往因为一些不可抗力的原因而不完整,如早期的科技数据,可能由于国际形势等外部因素,导致一些国家的科技信息无法获取,基于这样缺失的分析样本来评估该国的科技影响力,如果仅就数据论数据,无疑是会得“正确”的错误结论,这时应针对这样的异常情况,将研究问题放置在当时的时代背景下,揭示背后的原因,从其他方面收集信息来补充,才能得出符合实际的结论。也就是说,必须要考察不同时间戳下的相关信息,再对分析内容加以扩充,这实质是一种基于时间轴的扩展。另外,将内容扩展至本领域的上下游则是一种更为重要的扩展。例如,考察某项技术的发展前景,如果仅就该技术本身来讨论,可能会得出正面的结论,但如果结合特定地区人们对该技术的态度、当地的技术水平、物理条件、发展定位等,却可能会得出相反的结论。这就说明,在很多领域中,环境不同,发展程度不同,要解决的问题也就不同。一些地区当前关注的问题不一定就是其他地区要关注的问题,某些欠发达地区当前不一定就必须照搬另一些所谓发达地区的当前做法。这需要通盘考察,分析相关思想、观点和方法产生的土壤、使用的条件,结合当前环境再做出判断,否则可能会对决策者产生误导。
2.2 综合利用多种数据源
综合利用多种信息源已经成为情报研究的另一大发展趋势。Thomas Fingar[8]从军事情报角度指出,军事情报界需要综合利用人际情报、信号情报、图像情报和外部情报,进行全资源分析(all-source analysis),即利用多种不同的信息资源来评估、揭示、解释事物的发展、发现新知识或解决政策难题。科技情报界也是如此,如利用科技论文和专利,发现科技之间的转换关系、预测技术发展方向,综合利用政府统计数据、高校网站、期刊、报纸、图书等来评估大学等科研机构。可见,综合利用多种信息源是从问题出发,系统化地整合所有相关信息资源来支持情报研究,信息源可以是学术论文、专利等不同类型的文献集合、文本和数据的集合也可以是正式出版物与非正式出版物的集合等。
这一发展趋势是由几大因素决定的。一是情报研究问题的复杂性。在大数据背景下,情报不再局限在科技部门,而成为全社会的普遍知识。公众对情报的需求使得情报研究问题更为综合,涉及要素更为多元,同时也更为细化。这导致单一数据源不能满足分析的要求,需要不同类型的信息源相互补充。例如要分析科技之间的转换关系,就避免不了涉及科技论文和专利这两种类型的信息源。二是各种信息源的特性。不同信息源可以从不同角度揭示问题,如专利、研究出版物、技术报告等,可以较为直观地反映研究者对某科技问题的理解与描述,而评论文章、科技新闻、市场调查等,可以反映出社会对该科技的观点、认知情况[9]。因此,各类信息自身的特性就说明他们之间可以、也需要相互补充。此外,从现实角度来看,通常会遇到某些信息无法获取的情况,这就需要别的信息加以替代,这就从实践角度说明了综合利用多种信息源的必要性。三是分析结果的重要性。以评估大学为例,评估的结果会引导各学校在比较中发现自身优势和差距,指导未来发展定位,同时也为广大学生报考提供参考。可见,研究结果对社会的影响是广泛而深远的,要做到分析结果的可靠性、科学性,必然先要从源头上,即分析数据上加以丰富完善。
综合利用多种信息源也意味着诸多挑战。首先分析人员要熟悉每一种信息资源的特性,了解相似信息在不同资源类型中是如何表现的,不同信息源相互之间的关系是怎样的。其次,针对待分析的问题,要选择适合的信息,并不是信息越多越好,类型越全越好,尤其是当问题含糊不清时,可能需要不断地调整信息源。再次,情报研究人员要能有效地综合、组织、解释不同信息源分析出的结果,特别是当结论有所冲突的时候,识别不当结果、保证分析结果的正确性是很重要的。
2.3 注重新型信息资源的分析
随着网络应用的深入,出现了许多新型的媒体形式。Andreas M. Kaplan等人将构建于Web2.0技术和思想基础上,允许用户创建交换信息内容的基于网络的应用定义为社会化媒体(Social Media),包括合作项目(如维基百科)、博客、内容社区(如YouTube)、社交网站、虚拟游戏世界和虚拟社会世界(如第二人生)等六种类型[10]。这类媒体形式依托于Web2.0等网络技术,以用户为中心来组织、传播信息,信息可以是用户创造性的言论或观点,可以是围绕自己喜好收集的信息资源集合等。由于社会化媒体的易用性、快速性和易获取性等特点,它们正迅速地改变着社会的公共话语环境,并引导着技术、娱乐、政治等诸多主题的发展[11]。这些通过庞大的用户社区来传播的高度多样化的信息及其网络结构,为洞悉公众对某一主题的观点、研究信息扩散等社会现象[12]、预测未来发展方向[11]等提供了机会,有助于发现有共同兴趣的社群、领域专家、热点话题[13]等,带来了网络舆情分析等研究内容。此外,这类信息结合其他类型的数据,产生了新的情报研究领域。例如,智能手机的普及和GPS的广泛应用,使得可以从社交网络和网络交互数据、移动传感数据和设备传感数据中获取社会和社区情报(social and community intelligence,SCI),揭示人类行为模式和社群动态[14]。
此外,机构知识库等作为一种反映组织或群体知识成果的智力资源,也正引报界的重视。网络信息联盟的执行董事Clifford A. Lynch[15]从大学的角度指出,成熟完整的机构知识库应包含机构和学生的智力成果(包括科研材料和教学材料)以及记录机构自身各项事件和正在进行的科研活动的文档。这暗示着学术界从过去只关心科研成果正逐步转向关注科研过程。从机构知识库中,可以发现隐藏其中的科研模式、揭示目前科研状况的不足,引导机构未来科研的发展走向等。但现有的机构知识库工具还缺乏帮助人们理解和分析这些资源的机制[16],在大数据环境下,加强这方面的研究也是必然趋势。可以预见,随着科技的发展和应用的深入,还会不断的有新型资源出现,并不断促进情报研究的发展。
2.4 强调情报研究的严谨性
情报研究活动在宏观层面上是一种意义构建(sensemaking)[17],依赖于分析人员根据已有知识构建认知框架(frame),通过对认知框架的不断修正来达到理解的目的[18]。这意味着情报研究活动本身带有很大的不确定性,很多因素影响着情报研究的有效性。如何使情报研究工作更加严谨,减少情报分析的不确定、提升情报成果的质量,正成为学术界当前普遍关注的问题。情报研究严谨性(rigor)不等同于分析结果的正确性,它衡量的是情报研究的过程,是指在情报研究过程中“基于仔细考虑或调查,应用精确和严格的标准,从而更好地理解和得出结论”[19]。美国俄亥俄州立大学的Deniel Zelik[20][21]从评估角度,给出了8个指标来衡量分析过程的严谨性:假设探索、信息检索、信息验证、立场分析、敏感度分析、专家协作、信息融合和解释评价。从这几项指标看,信息检索和融合是从分析信息源上消除不全面性;假设探索是要使用多种视角来揭示数据和信息;信息验证侧重于数据的溯源、佐证和交叉验证;立场分析强调分析的情境性;敏感度分析指分析人员要了解分析的局限性,目的是从分析方法上消除主观影响;专家协作是防止分析结果受分析人员自身的学科背景或经验带来的偏差;解释评价是要正确对待分析结论。可见,情报研究的严谨性意在消除人的主观偏见,用更为客观的视角对待情报研究。如果说之前的情报研究活动依赖专家的个人判断,带有较为强烈的主观色彩,那么走向严谨性的情报研究活动正逐步转变为一门科学。
在大数据背景下,情报分析的严谨性,不仅体现在理念上,还暗含了对技术的要求。面对海量数据,自动化的技术手段必不可少。当信息的检索更多的是借助检索系统,而不是人工的收集,信息融合更多依赖数据仓库等技术手段,如何在这样的分析环境中将情报研究的科学性落到实处,是需要关注的问题。可以看到,利用技术本身已经在一定程度上避免了人的主观性,但面对同样一个问题,可以有不同的技术手段,也可能产生不同的结果,如何避免由技术产生的偏见,也许通过多种技术手段或采用不同的算法,全方位地展示信息内容及其之间的关系,从而避免产生信息的误读,是一个解决方案。可见,在大数据时代,情报研究需要多种手段来加强其分析过程的科学性,而这又需要多种技术方法加以支持。
2.5 情报研究的智能化
大数据背景下的情报研究,对技术提出了更高的要求。正如美国国家科学基金会(NSF)的报告[22]所说,美国在科学和工程领域的领先地位将越来越取决于利用数字化科学数据以及借助复杂的数据挖掘、集成、分析与可视化工具将其转换为信息和知识的能力。对于情报研究来说,应用智能化技术能自动进行高级、复杂的信息处理分析工作,在很大程度上把情报研究人员从繁琐的体力劳动中解放出来,尤其在信息环境瞬息万变的今天,及时收集信息分析并反馈已经变得非常重要,这都需要智能化技术加以支撑。从信息源来讲,情报研究对象得以扩展,其中可能包含微博等社会化媒体信息,可能包含图片、新闻等,大量非结构或半结构化数据的涌入,必然需要技术将这些数据转化为结构化数据,以供后续分析。同时,多元化的信息,需要根据分析需求加以融合,这可能需要语义层面上的技术支持。从分析需求来讲,简单的统计分析已不能满足现在社会的决策需求,需要从大量信息中发现潜在模式,指导未来的发展,这就涉及数据挖掘、机器学习等技术。此外,要寻求情报研究的客观性,摒除过多的主观意愿,也需要多种技术来支撑。可见,这一发展趋势是大数据时代下的必然。而各国在积极建设的数字化基础设施,也在推动着情报研究的智能化,如欧洲网格基础设施(European Grid Infrastructure,EGI)[23]项目就致力于为欧洲各领域研究人员提供集成计算资源,从而推动创新。
目前,对情报研究中的智能化技术没有统一的界定,但概观之,可以将情报研究智能化的本质概括为定量化、可计算、可重复。定量化是针对过去情报研究更多的是依赖人的主观判断,即基于已有文字材料或数据,根据研究人员的经验等给出粗略的结论,如果说这是一种定性化分析,现在更多地依赖通过计算机自动化处理原始材料并获得潜在数据,并在此基础上辅以人的判断,可以说是一种定量化的分析。可计算是指将各种信息资源转化为计算机可理解、处理的形式,如从新闻、论文、专利等中,提取出科研组织、科研人员等实体,再基于这些结构化的、富有语义的信息,采用统计、数据挖掘等方法加以计算,获取隐含的知识。可重复是指自动化分析技术消除了许多主观因素,从理论上讲,如果分析数据等条件一致,分析结论也应该是一致的,这也体现了智能化技术为情报研究带来客观性的一面。
3 情报研究中的技术问题
情报研究的上述发展走向,决定了情报研究既不能仍然停留在定性分析上,也不能仅仅靠简单的统计替代情报研究中的计算技术,由此对情报研究技术提出了新的要求。美国McKinsey Global Institute在2011年5月了研究报告“大数据:创新、竞争和生产力的下一个前沿领域”(Big data: The next frontier for innovation, competition, and productivity)[24]。报告分六个部分,其中第二部分讨论了大数据技术,并围绕大数据分析技术、大数据技术和可视化三方面进行了阐述。在大数据分析技术中,列举了26项适用于众多行业的分析技术,包括A/B测试、关联规则学习、分类、聚类分析、众包(Crowdsourcing)、数据融合和数据集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、网络分析、优化、模式识别、预测建模、回归、情感分析、信号处理、空间分析、统计、监督学习、模拟、时间序列分析、无监督学习和可视化。这些技术绝大部分是已有的技术,也有部分是随着互联网的发展以及对大规模数据挖掘的需求,在原有技术的角度发展起来的,如众包就是随着Web2.0而产生的技术。
根据我们的理解,这些技术大致可以划分为可视化分析、数据挖掘以及语义处理三大类。这三大类技术也是当前情报分析领域应予以关注和深入研究的技术。
3.1 可视化分析
可视化分析(Visual Analytics)是一门通过交互的可视化界面来便利分析推理的科学[25],是自动分析技术与交互技术相结合的产物,目的是帮助用户在大规模及复杂数据内容的基础上进行有效的理解,推理和决策[26]。它不同于信息可视化,信息可视化关注计算机自动生成信息的交互式图形表示,关注这些图形表示的设计、开发及其应用[27],而可视化分析在此基础上加入了知识发现过程,关注自动分析方法及其选择,以及如何将最佳的自动分析算法与适当的可视化技术相结合,以达到辅助决策的目的。
目前的情报分析系统,虽然也提供了多种视图来揭示信息,但更多的是一种分析结果的呈现,系统内部分析、处理的机制对分析人员来讲是个黑匣子,分析人员无法了解分析方法、分析结果的局限性或者有效性,这无疑不符合情报研究严谨性这一发展要求。同时,现有的分析工具需要分析人员输入各种繁杂的参数,又缺乏对情报分析认知过程的支持,这就对使用人员的专业化程度提出了较高的要求,增加了分析的难度。而可视化分析则可以较好地解决这一问题,它整合了多个领域包括采用信息分析、地理空间分析、科学分析领域的分析方法,应用数据管理和知识表示、统计分析、知识发现领域的成果进行自动分析,融入交互、认知等人的因素来协调人与机器之间的沟通,从而更好地呈现、理解、传播分析结果[28]。佐治亚理工学院的John Stasko等人应用Pirolli 等人提出的情报分析概念模型[29],建立了一个名为Jigsaw(拼图)的可视化分析系统[30],并将其应用于学术研究领域(涉及期刊和会议论文)以及研究网络文章(如网络新闻报道或专题博客)领域,也说明了将可视化分析技术应用于情报研究的可行性。
将可视化分析技术应用于情报研究领域,有众多问题要解决。首先,在情报研究工具中,是以自动化分析为主,还是以可视化为主?Daniel A. Keim等人将待分析的问题分为三类,第一类是在分析过程中可视化和自动化方法可以紧密结合的问题,第二类是应用自动化分析潜力有限的问题,第三类是应用可视化分析潜力有限的问题。在研究这三类问题中交互程度对分析效率影响的基础上,Daniel A. Keim等人指出,应分析如何通过考虑用户、任务和数据集特点,来确定可视化和自动分析方法的优化组合,从而达到最佳的效果[31]。可见,要将可视化分析技术应用于情报研究领域,需要明确每类问题适用哪种组合方式。其次,情报研究领域适合使用哪些可视化交互手段?这可能包括原始分析数据、析取出的关系数据、深层挖掘的模式数据等的可视化手段,分析人员与系统交互的方式,分析过程的可视化展示等。第三,情报研究领域中的认知过程是什么样的,关注哪些问题,涉及哪些实体,在大数据环境下面临哪些认知困难,需要在哪些环节加以支持,这些困难能否通过技术来解决。此外,从现有的可视化分析技术来看,主要是将各个相关领域的技术以优化的方式整合起来,但在将来会产生一体化的可视化分析解决方法[32],这种一体化的方法可能是什么形式,又会对情报研究带来怎样的影响等等,都是在情报研究中引入可视化分析技术需要关注的。
3.2 数据挖掘
广义的数据挖掘指整个知识发现的过程,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涵盖了数据分析和知识发现的任务,从数据特征化与区分到关联和相关性分析、分类、回归、聚类、离群点分析、序列分析、趋势和演变分析等,吸纳了统计学、机器学习、模式识别、算法、高性能计算、可视化、数据库和数据仓库等领域的技术,并可以用于任何类型的数据,包括数据库数据、数据仓库等基本形式,也包括数据流、序列数据、文本数据、Web数据、图数据等其他类型的数据[33]。
从数据挖掘的涵义看,它与情报研究有着天然的联系;从数据挖掘的方法看,有其特定的含义和实现过程,可以有效地解决情报研究的问题。例如,情报研究可以借鉴关联规则发现的成功案例——超市的“啤酒+尿布”,尝试用关联规划来分析研究主题的相关性,从科技论文与专利的关联中发现科技的转换关系等等。但从目前的情报研究成果看,许多还仅仅停留在简单的频率统计、共词计算层次上,在知识发现的过程中,这些工作仅仅是数据挖掘的数据准备,还有待于更为深入的发掘。可见,数据挖掘能够也应该应用于情报研究领域,这不仅是数据挖掘应用扩展的结果,也是情报研究自身发展的需求。此外,由于较少有专门针对情报研究领域研发的挖掘工具,现有情报分析通常借助于其他工具,不同工具的功能不同,这就导致常常同时使用好几个分析工具,如在使用SPSS进行聚类分析的同时,还使用Ucinet分析社会网络。这带来的问题是,分析缺乏完整性,可能社会网络和其他信息之间有关联,因为工具的分割性,就导致潜在模式的丢失。由此,研发适用于情报研究的挖掘工具,是必要也是紧迫的,尤其是面对大数据的挑战,智能化地辅助分析人员,减少认知压力,是亟待解决的问题。
要解决以上的问题,首先需要研究情报分析任务,分析哪些问题是可以使用数据挖掘技术来支持的,这类问题有哪些共同点、特殊性,能否对未来可能的情报分析问题进行扩展,哪些问题不适用于数据挖掘技术,原因是什么等。其次,对于某类或某个分析问题,使用哪种数据挖掘技术或几种技术的组合才能有效地解决,涉及的算法是否需要针对该问题进行适应性改造,如何评价挖掘的结果等。第三,数据挖掘出现了交互挖掘这一发展趋势,即构建灵活的用户界面和探索式挖掘环境[33],这与可视化分析在某些方面上也不谋而合,这样的趋势会对情报研究带来哪些影响,如何在这一背景下,探索情报研究工具的新发展,寻找情报分析的新模式,值得我们关注。
3.3 语义处理
语义是关于意义(meaning)的科学,语义技术提供了机器可理解或是更好处理的数据描述、程序和基础设施[34],整合了Web技术、人工智能、自然语言处理、信息抽取、数据库技术、通信理论等技术方法,旨在让计算机更好地支持处理、整合、重用结构化和非结构化信息[35]。核心语义技术包括语义标注、知识抽取、检索、建模、推理等[34]。语义技术可以为信息的深层挖掘打好基础,即通过对各类信息的语义处理,在获取的富有语义的结构化数据上使用各种数据挖掘算法来发现其中的潜在模式。数据的语义性支持了机器学习等技术的内在功能[36]。
从现有的情报研究实践和工具看,语义支持的缺失是一个普遍问题,这其中又可划分为两个层次。对于传统的情报研究对象,如科技论文、专利等,有较为成熟的分析工具,但这些工具往往缺少深层次的语义支持。例如,要分析论文的内容主题时,需要从摘要等自由文本中提取出主题信息,在数据处理时,常常无法识别同义词、近义词等,需要人工干预。一些工具虽然在语义方面做了努力,但仍然存在诸多不足,例如在形成的主题聚类结果上,缺乏有效的主题说明,自动形成的主题标签不具有代表性,需要分析人员深入其中重新判断等。这在小数据集环境下,还可以接受,当面对大数据的冲击,这种半自动化的处理方法无疑是耗时又费力的。此外,对于新型情报研究对象,如网络新闻、博客等,已有如动态监测科研机构等的系统工具,但总体来说还处于起步状态,目前较多的还是依赖人工筛选出所需信息,并整理成结构化的数据,同样也不利于大规模的数据分析。这些问题的存在,使得消除语义鸿沟(semantic gap)[37],应用语义技术成为广泛需求及必然。
将语义技术应用于情报分析,需要关注以下几方面的内容。首先,分析情报研究任务的特点,了解它的语义需求,是否存在规律性的准则以供指导分析工具的研发,这既需要原则性和方向性的准则,也需要为针对多维度划分出的各类任务给出详细的规范,例如,对微博等社会化媒体,其中既存在高质量的信息,也存在辱骂等低质量的信息,区分这些信息并筛选出高质量信息,就成为在分析社会化媒体中的语义任务之一。其次,语义资源建设问题,即在情报分析领域中,要实现语义层面上的理解,是否需要建设语义资源,如果不需要,哪些技术手段可以代替,如果需要,哪种类型的语义资源可以便捷、快速、高效地构建,并且这种语义资源应该如何构建,如何使用才能有效地服务于情报研究工作。第三,信息抽取问题。科技信息涉及众多学科的专业术语、各种科研机构、组织等,如何使用语义技术将这些信息准确地提取出来并加以标注,尤其是针对不同类型的信息源,采用什么样的抽取策略等。第四,信息整合问题,即如何使用语义技术,把不同来源的数据对象及其互动关系进行融合、重组,重新结合为一个新的具有更高效率和更好性能的具有语义关联的有机整体,以便后续分析。
4 结语
正如本文引言中所谈到的那样,大数据的理念和技术为情报学领域中情报研究的理论和实践带来了机遇,也带来了挑战。机遇巨大,挑战更大,需要我们对此有清醒的认识。本文分析了大数据背景下情报研究的若干发展趋势,总结了情报研究中值得关注的技术问题,以期能为促进情报研究的理论和实践的发展添砖加瓦。
参考文献:
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
中图分类号:G642 文献标志码:B 文章编号:1674-9324(2013)09-0253-03
一、引言
21世纪是国家全面推进学生素质培养的时期,计算机专业课既具有较强的理论性,又具有较深的实践性。目前,计算机专业的教学过程中往往理论教育与实际脱节,很多学生通过了专业理论课的考试,却不能将理论付诸于实践,学生对课程知识并没有深刻的理解和消化,对课程理论的实际应用没有感观上的体验。经调查显示,60%以上的学生认为在校期间的计算机理论课的学习对就业和实际工作帮助不大,这给学生学习计算机理论的积极性带来了消极的影响,更有很多学生热衷于参加社会上的计算机培训机构,放弃在高校的课程学习。因此,在培养学生的理论创新能力的同时,提高学生的动手操作能力,加强学生理论联系实际的能力是计算机教学十分紧迫和必要的任务。
随着信息技术和网络技术的快速发展,在短短几年内数据仓库和数据挖掘就已经成为IT信息领域广泛应用和热点研究的领域。该领域主要是研究如何从浩如烟海的海量数据中有效地提取并挖掘知识,对其进行自动分析和汇总,是计算机行业中最热门、最有前景的领域之一[1]。数据仓库与数据挖掘课程也顺应计算机发展的需要,进入到高校计算机教育的专业课课程列表中。
本论文在深入研究了数据仓库和数据挖掘课程的内容和特点的基础上,采用B/S(Browser/Server)架构,即浏览器/服务器架构,开发了web课程教学实验平台。
二、数据仓库与数据挖掘学科教学现状
随着数据仓库与数据挖掘课程在各大高校成功试教后,近年来各大高校都为计算机专业都设立了数据仓库和数据挖掘课程,时至今日,其课堂理论教学已经比较成熟。然而,绝大多数学生在经过该课程的学习后,普遍反映虽然基本了解了数据仓库和数据挖掘相关理论知识,却缺乏感性认识和实践应用能力。这主要是因为该课程的实验教学较难开展,缺乏一个符合以下特点的教学实验平台。
市场中通用数据仓库和数据挖掘软件昂贵且难以使用,大量的专业术语、专业业务理论、数学知识和挖掘模型让人无从下手。因此我们需要的仅仅是一个实验平台,并非大型企业应用软件,只要学生能通过它更简易地完成该课程的实验环节即可。
1.可视化、易操作。可视化和易操作可以提高学生的学习兴趣,让学生更直观的参与到教学活动中来,而不是苦恼于如何使用该平成实验。
2.交互性。一个好的教学平台不仅是一个可以提供给学生传授知识的平台,还应该是一个可以和学生及老师有交互性的平台,并且使学生和学生有交互性,老师和学生有交互性[2]。
3.教学与实验相结合。我们需要不仅仅是一个数据仓库与数据挖掘实验软件,而是综合课程教学和课程实验的平台。教学与实验相结合、理论与实践并重,这才是计算机专业教育的核心。
4.拥有合理和充足的实验数据。对于一个实验平台来说,数据的缺乏将使得实验无法进行。尤其是对于数据仓库与数据挖掘这个特殊的领域,数据不仅要足够的多而且要合理,否则会严重影响实验结果和教学效果。
三、数据仓库与数据挖掘学科教学实验平台的构建
为适应教育发展需要,秉承深化教学改革的方针,改革数据仓库和数据挖掘课程原有的普通教学模式,启动了“数据挖掘课程设计平台建设”教学改革项目。该平台依托我校电信学院985平台的优良硬件环境,由远程开放实验平台服务器和终端PC机组成,其成本低廉、维护方便、部署容易。该实验平台服务器直接部署于本校的学院985实验基地,具有操作稳定性、鲁棒性和容错性。通过该实验教学平台,学生对该课程的学习过程将不受场地限制,只要通过网络就可以登录该平台。该平台主要框架如图1所示。
1.用户管理模块实现了对不同用户的权限设置、登录和注册等功能,超级管理员可以为普通学生用户分配权限。
2.实验平台模块给学生提供了算法模拟和试验的平台,主要分为以下两个部分。
(1)数据仓库的维度建模设计模块。雪花模型设计案例;星型模型设计案例;ETL抽取操作平台。
(2)数据挖掘算法实验模块。数据预处理程序实现算法平台;Apriori算法实验平台;ID3算法实验平台;BP算法实验平台;K-Mean和K-Medoid算法实验平台;C4.5算法和决策树算法实验平台;KNN算法实验平台;贝叶斯算法实验平台。
维度建模设计平台和数据挖掘算法实验平台模块是该平台的核心模块。
3.实验课程模块主要向学生介绍该实验课程的相关内容、教学大纲和教学任务,也包含数据仓库环境的具体安装和配置视频演示。
4.作业提交模块更是改变了传统的提交纸质作业的模式,让学生将动手完成的实验和相关作业通过该平台提交,一个学生一个账户,避免了作业抄袭和拷贝。学生提交的作业只要运行正确,按题目要求编程,不论采用何种语言或者何种算法都是可以的,并没有唯一性的标准答案。当实验课程考核的时候,学生能够通过作业提交系统向服务器提交指定课程内容的作业,供教师在线评阅和打分。
5.教学资源下载提供给学生自学的资料,给感兴趣的学生提供了进一步学习的捷径。
6.当有学生对实验环节和该课程有任何疑问,都可以登录在线答疑系统,给授课老师留言,这些信息都会以邮件的形式发送到授课老师的收件箱,从而实现即时的答复,让学生在第一时间接受老师的指导。当有问题重复出现三次以上,系统就会自动识别,将问题和答复展示在FAQ中,提供给更多的学生共享该问题和该问题的解答,避免重复提问,也给还未遇到该问题的学生共享和学习。在线答疑给学生和教师提供了交互、交流和学习的平台。
7.数据挖掘实验平台的在线代码编译环境主要采用gcc编译器,能够对学生提交的各种代码进行实时编译,给用户的感觉就像是在本地执行一样。它能够支持的在线运行编程语言包括java、C和C++等,给学生提供多样化的语言实现方式,体现了非机械化的计算机应试理念。
四、数据仓库与数据挖掘学科教学实验平台的教学效果
在数据仓库和数据挖掘课程中使用该教学实验平台,具有教育的先进性和优越性。
(一)建设了数据仓库和数据挖掘课程的实验教学体系
1.数据仓库和数据挖掘模型。本平台可以培养学生自己动手创建多维星型模型、多维雪花模型、缓慢变化维、ETL模型、数据立方体模型及其实例等,还可以增加学生对各类重要挖掘算法的特点和应用场景的理解,让学生在实验平台上体验基于数据仓库的主要数据挖掘算法。
2.模型评估。当学生创建完毕自己的数据仓库和数据挖掘模型后,可以通过调整不同的参数值和更改数据集来检验算法的输出结果,并通过记录在不同的应用场景下的参数值和结果值得到最优值。
3.优化创建模型和算法的性能。学生通过使用计算机领域中的一些经典优化技术,如创建位图索引、哈希索引、S-tree索引等来优化模型和算法的性能,并记录和比较不同优化技术对模型和算法的效率和响应时间的影响。
4.定期对学生所学实验内容进行测试,根据学生的实验测试结果对平台的远程实验操作功能进行改进和完善。
(二)部署和实施了基于网络的数据仓库和数据挖掘课程远程实验教学环境
本项目通过构建基于网络技术的远程实验教学平台,不仅给学生和教师提供这样一个教学实验平台,而且还实现了实验教学的网上开放式管理,改革原有相对封闭的实验教学模式为开放的实验教学模式,构建了一个符合实践教学环节需求、虚拟和真实环境相结合、基于Web的多应用场景的远程开放实验平台。
(三)基于采样评估证明了远程网络实验教学的可行性和优越性
根据采样评估结果,该系统体现了远程网络实验的可行性和优越性。在该平台真正投入使用之前,我们将一批学生分为两个组进行数据仓库和数据挖掘课程的学习,A组学生使用现有的课程教学方法,而B组学生使用该平台的远程实验教学环境。具体教学内容为多维数据模型和数据立方体的概念以及k-means聚类和Apriori关联分析算法。两组学生通过不同的教学方式学习后,对他们进行了问卷调查和统计,结果如图2所示。
从图2的数据结果可以看到,无论是从学生兴趣程度、作业完成度还是考试成绩的角度对两组学生的学习效果进行评估,使用该数据仓库与数据挖掘课程教学实验平台的教学方式都具有明显的优势。在实验过程中学生是主体,用所学知识发挥创造性思维进行实践。当实验取得结果时,不论结果成功与否,都能带给学生一定的鼓励,从而在某种程度上激发学生的创造力和积极性,真正加速问题解决和理论创新。因此,我们有理由相信该平台的使用可以极大地提高学生的学习兴趣,促进教学目标的实现。
五、结论
在计算机专业的教学中,如何提高学生的实践能力和独立解决问题的能力是当前高等教育发展的新形势下所面临的主要问题。本文首先介绍了基于数据仓库和数据挖掘课程的实验平台的整体架构,展示了该平台的优点,证明了该平台可以将课堂学习和课后练习、理论教育与工程实践有机结合,为实施更加行之有效的教学组织和教学管理模式提供了可能。只有教育者和学生充分认识到计算机课程中实验环节的重要性,更有效地利用现有的社会资源和计算机技术为我们的教育服务,专业学科教学模式和方法才能不断推陈出新,不断进步和发展。
参考文献:
[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12
1 科学数据开放共享中的出版商
1.1 科学数据开放共享
在科学研究过程中,有不同的利益相关者参与其中。这些利益相关者类别多样,性质各异,共同形成科学研究的生态系统。根据各利益相关者的职能,围绕研究人员,将这一系统进行分类研究,确定出4个利益相关者群体,即资助者、数据管理者、研究机构与出版商作为关键参与者,以促进和实现科学研究数据的开放共享。
在这一系统中,每类利益相关者都有各自不同的职能、驱动力及利益点,但总体利益与动机相同,即促进科学的进步。利益相关者的利益与行为动机与各自职能连接在一起,形成了科学研究系统的边界。该系统本质上受到外部和内部因素的双重影响:外部因素可能表现为政治、社会、经济、科学和文化体系等;内部因素包括政治意愿、经济及学术竞争、技术基础设施、法律、道德等因素。该系统的价值与动机是外部和内部因素共同作用的结果,其中外部因素控制资源输入到该系统中,内部因素控制这些资源的可用性和分配。如图1所示:
在此科学开放系统中,利益相关者群体职能众多并偶有重叠,总体上各利益相关方对研究数据的开放获取的意义已达成共识,但各利益相关方对实现开放研究数据的方式的认识并不一致。本研究主要探讨在推动科学数据开放共享中,出版商数据政策的现状、问题,并构建相应模型,提出相应建议。
1.2 出版商在科学数据开放共享系统中的目标
在促进研究数据开放共享方面,各利益相关方发挥不同的作用。出版商通过期刊向作者提供数据共享政策,在数据开放中发挥着重要作用。研究出版商的数据政策,是因为这是在研究过程中将数据政策与研究人员密切关联起来的点,为研究成果,研究人员有动力、有可能遵守数据政策。同时,研究发现,虽然包括出资者和研究机构都可能有适用于研究人员的政策,但遵守这些政策的研究人员的比例还很低。研究人员没有遵守数据政策的直接动力;此外研究人员在需要进行数据存档时,可能也没有合适的机构知识库可以选择。出版商提出的数据政策,是在研究人员完成研究过程后发表研究成果前,研究人员有可能、有动力遵守出版商的数据政策。
1.2.1 科学数据开放共享的价值
科学的思想与科学的证据互相佐证,研究数据和科学实践之间的联系是不言自明的,因此,推动开放获取研究数据,与促进科学严谨的目标相一致。更大程度地共享与获取数据,能加强科学的基础价值,即允许科学研究有效地自我校正,以便二次分析、检验、质疑或改进原有成果[3]。此外,开放获取政策通过减少重复工作,最大限度地减少研究人员用在搜索信息和数据方面的精力,因而改善了他们的工作条件。
JISC以英国高等教育和研究机构为例,指出研究数据的监护与开放共享具有如下利益[4]: ①研究人员能够更广泛地获得数据,从而促进更多的跨部门的合作,研究人员在行业、政府和非政府组织内有可能获得大量的教育和培训机会。数据的开放共享有助于实现数据使用和重用,降低数据的收集和复制成本,分担数据收集的直接和间接成本(如避免调查疲劳,从而提高响应率等),创造出在数据收集时未曾预想到的新的利用方式,进行数据挖掘等。②在项目申请拨款和评估阶段、出版和研究评估阶段,更容易发现欺诈和抄袭,更容易进行评估和同行审查。因此将有机会创造更加完整和透明的科学记录。③通过将研究人员、知识库、资助者与有价值的资源相链接,从而有更多的机会提高研究的可见度。
科学研究系统中的各个利益相关者群体认识到走向开放数据的利益,认同将数据的开放共享置于战略高度进行考虑。科学表现为知识积累的过程,数据在促进早期工作中起着重要作用。开放获取研究数据,通过避免重复劳动,促进协作,有助于显著加快这一科学过程,从整体上使科学成为更加透明的进程,实现推动公众参与,激励创新和改革公共服务的宗旨[5]。
1.2.2 基本情况
出版商作为利益相关者,越来越关注数据密集型研究,认同开放获取研究数据的意义。很多出版商认同布鲁塞尔宣言,即“所有的研究者应能自由地获取原始研究数据。出版商鼓励公开公布原始研究数据结果,将相关的数据集及子数据集与论文共同提交给期刊,应尽可能让其他研究人员自由获取”[6]。很多出版商的数据政策为强制性政策,要求作者将支持出版物的研究数据存储在经认证的知识库中,实现开放获取。研究表明,如果期刊具有强制性数据政策,并且有可获取数据的声明,那么在线找到该数据的可能性,几乎是没有类似政策的期刊的1 000倍[7]。
尽管目前出版商已开始重视出版物的开放获取,将开放获取作为一种出版的商业模式,不过出版商参与研究数据的出版,特别是开放获取研究数据,目前尚未形成规模。出版商关注研究数据及其开放,重要原因在于数据为出版商的主要产品即出版物增加了价值,数据有助于验证研究成果,从而增强了所发表研究成果的可信性,而可信度对于研究具有重要意义[2]。此外,资助机构的政策要求公开获取研究数据,实质上向出版商施加了压力,出版商需要参与到研究数据开放获取中,帮助作者和研究机构符合出资人的要求。现在,领先发展的出版商开始与其他利益相关方合作,试图挖掘研究数据的潜能,形成以数据为基础的新产品和服务,对研究数据进行同行评议,开展提高数据质量的其他服务。
2 出版商主要数据管理政策
本研究根据STM的年度报告[8],确定出以下出版商为主要分析对象(见表1)。这十大出版商所出版期刊占到2014年所有出版期刊的45.2%,另外本研究将开放获取出版商,科学公共图书馆(PLoS)、生物医学中心(BioMed Central)的数据开放政策考虑在内。
2.1 出版商数据政策现状
2.1.1 将开放获取作为默认情况
出版商将数据的开放获取作为订立政策的基础,如PLOS研究数据开放获取强制性政策[9],指出除了极少数例外情况,支持PLOS出版物的所有研究数据都必须开放获取。作者在向PLOS提交稿件时,要同时提交数据可用性声明,在声明中表明遵守PLOS的政策规定,在手稿成功提交后,数据作为最终手稿的部分内容。PLOS要求作者将数据存储于推荐的经认证的数据中心或知识库。小数据集可与稿件一并上传。PLOS的编辑和投稿指南,向研究人员提供指导,协助研究人员遵守期刊开放数据政策。在限制数据获取的情况下,PLOS有权修正说明,联系作者的机构或资助者,甚至撤销出版。
2.1.2 新的出版形式的出现
出版界越来越关注开放数据,产生了一种新型出版产品,即数据期刊。数据期刊的出现,与数据可以单独紧密相关。数据的单独可以确保数据作为科学记录的基本组成部分,以可理解的形式向科学界提供。数据期刊是同行评议的开放获取平台,用于、分享和传播各学科的数据。发表的数据论文包含数据集的具体相关信息,如收集、处理方式等。发表的数据论文与认可的知识库互相关联,数据论文引用存储于知识库或数据中心中的数据集。正如澳大利亚国家数据服务中心(ANDS)在其数据期刊指南中所指出的,“从根本上说,数据期刊寻求促进科学认证和再利用,提高科学方法和结果的透明度,支持良好的数据管理方法,并为数据集提供一个可访问的、永久的、可解析的路径”。ANDS指出,数据论文的出版过程包括对数据集的同行评议,最大限度地提高了数据再利用的机会,并为研究人员提供了学术认可的可能性[10]。
2.1.3 同行评审
对研究数据与数据出版物开放获取的关注,彰显了研究数据的科学质量及研究数据同行评审的重要意义。在此背景下,一些出版商将同行评议的范围扩大到包括数据在内的同行评审。M. S. Mayernik等2014年进行了有关“数据同行评审”的研究,提出因为出版物或资源类型有所不同,进行同行评审的方式也必须有所变化。研究者对几种类型的评审资源进行了区分,包括在传统科学论文中分析的数据,在传统科学期刊上的数据文章,以及通过数据期刊的开放获取知识库与数据集。M. S. Mayernik等针对数据的同行评审、数据的质量保证过程确定了一些共同因素,包括:可通过数据中心或知识库获取数据集;数据集有足够的信息以备评审;期刊有明确的方针指明审核的要点,指导评审者进行数据审查等[11]。
开放考古学杂志(JOAD[12-13])对所有提交的数据论文采用同行评审程序,评审内容包括论文的内容与存储的数据。论文的内容指与数据集的建立和重用相关的信息,以及对数据集的描述。存储的数据指以可持续性模式提交到存储库的数据,包括其许可方式。
2.1.4 数据引用
除对数据进行同行评审外,出版商还逐步引入数据引用政策,以促进研究数据的标准化使用。研究数据对研究过程具有重要价值与意义,为扩大高质量研究数据的传播,形成数据利用的规范方式,FORCE11[14]制定了数据引用的主要原则。FORCE11的引用原则的前提是数据引用需要实现人类和机器均可读。该数据引用原则可能并不全面,主要目的是鼓励各学科制定体现自身特点的引用方式。
FORCE11原则包括:说明数据引用的重要性;通过数据引用促进学术信用;数据引用要实现机器可操作性,包括全球永久唯一标识符;数据引用要促进对数据本身的获取;数据引用应该具有持久性;便于识别,易于获取,可以验证;具有互操作、灵活性等特点。
2.1.5 内容发现和链接服务
出版商逐渐把发展方向转移到内容发现和链接服务,专注于文本与数据挖掘(TDM)工具,以便能开发内容,进而提供相关服务。出版商越来越关注数据挖掘是研究人员利用大型数据库的内容、数据和出版物的需求的直接结果。一份文本和数据挖掘专家小组的报告指出,TDM是一种重要技术,可用于从指数级增长的数字数据中,分析和提取新的见解和知识[15]。该报告的结论是,因为研究人员的技能和技术不断提升,所研究的数据集的复杂性、多样性及规模不断扩大,因此TDM有可能会更加重要。但对于利用文本与数据挖掘工具是否应有所限制,目前仍有争议。
2.2 期刊数据政策问题
2.2.1 数据格式与文件大小的差异
期刊要包括支持文章结果的所有数据,往往是很难实现的。研究的方法不同,产生的数据也大不相同,数据的格式和文件大小差异巨大。定性研究生成的数据,多以文本形式存在,例如实地观察笔记,或采访或报道的文字记录等。定量研究生成的数据,多以电子表格的形式保存。一项研究可能产生多种类型的数据,而论文可能包括附加文本、数值数据集和数字图像,这些都可能增加论文的大小。因此出版商表现出对集成到每篇论文中的数据集大小的关注。某些出版商开始尝试出版在线期刊文章,以包括多种数据,例如爱思唯尔的有关未来的文章的探索[16]。然而,并不是每一种期刊都有包括各种数据的能力。这就要求期刊的办刊方针应清楚说明,作为论文组成部分的数据,在何种程度上可以包括在论文中。
2.2.2 机构知识库的成本
为解决出版商服务器超载的问题,将期刊文章的重要数据链接到一个特定的机构知识库,可能是一个合理的选择,但这将相关的长期运营成本转嫁到了机构中。但资助者目前的基金中并不包括这部分资金,而机构可能也并不愿意在当前的管理费用中增加这种支出。这就使得在机构知识库中存储科学数据的可持续性有待探讨。
2.2.3 研究人员对数据开放的认识
许多研究人员并不知道相关的知识库,为此期刊数据政策应说明,数据是否应该在认可的知识库中存储,是否要使用永久统一资源定位符(URL),是否要采用某种形式的数据引用。数据的时间也是一个需要关注的问题,研究人员并不关心在出版过程中的什么时候数据可被公开访问,而是关心在研究过程中何时数据应被公开访问。研究论文并不是在研究结果全部产生后才会形成,而是在研究过程中逐步产生的。在的同时,是否适合研究数据取决于多种因素,诸如某些形式的数据有敏感性,要保护受试者等因素。
3 构建期刊研究数据策略模型框架
3.1 出版商期刊政策的基本要求
有效的政策制定过程必然需要将注意力集中于数据共享过程中各利益相关方的意见,而目前的数字基础设施在不断变化,出版商、知识库和系统之间,并没有强有力的措施鼓励共享数据。共同点包括:①出版商共享数据的方式差异很大;②在出版过程中,出版商对所接受的数据类型、数据应存储的地点、应存储的时间等说明,模糊不清;③研究人员普遍赞成共享数据,但研究人员不知道该如何克服共享障碍;④研究人员认为出版商和期刊有关数据格式和存放地点等清晰的政策,将有益于研究;⑤出版商也认为在数据的关联与嵌入方面存在障碍。
科学数据共享的许多问题,能够在出版过程中通过期刊强有力而明确的政策加以解决。因此,本研究的目标是确定能推荐给期刊使用的政策模型。研究收集到的期刊政策信息,对材料进行分析后,归纳出目前主要的政策要求,如表2所示:
3.2 框架模型
基于以上所列出的观察,形成基本的期刊研究数据政策的模型框架。由资助者和研究机构作为一方,与出版商的另一方进行合作,发展数据政策。表3为所构建的期刊研究数据策略模型框架。
3.3 实施方式
3.3.1 逐步制定出版物的支持性数据的强制性开放共享政策
出版商应该支持期刊编辑制定研究数据的强制性政策,从而提高研究过程透明度,扩展研究数据的潜力。数据的编辑政策应解决诸如文档、元数据、数据出版格式、许可、引用等问题。编辑政策要求作者在文章提交过程和同行评议过程中,提交数据的可用性描述。对提交的文章不符合规定的情况,政策应提出对应的措施,如撤销发表的文章。
3.3.2 与认证知识库和数据中心协作,简化数据提交流程
出版商可按照相关标准考查知识库与数据中心的可信度,与符合数据认证标准的数据中心与知识库协作。类似的知识库或数据中心可以是主题明确的学科知识库,也可以是机构知识库或综合知识库。二者的合作应该会产生积极影响,为研究人员和研究机构提供高品质的产品和服务,服务具有可操作性、技术上无缝的特点,从而实现以开放格式传播和保存高质量的学术产品和研究数据。对于没有公认的数据中心或知识库的学科,出版商对研究人员提供指导和帮助,提供适合存储与获取的机构知识库建议,或提供商业数据服务。在这方面,出版商的角色应该是更多地促使学术团体建立资源库评估准则,从而帮助研究人员选择合适的存储库。当学术界建立起知识库的认可标准,出版商就可以通过期刊政策执行这些标准。
3.3.3 数据作为一流学术成果,接受同行评议
出版商的主要职责之一是确保出版物的高质量,而研究数据同行评审制度的建立,有助于提升出版产品的品质。同行评审过程,应详细说明评审的标准,要评估研究数据的技术与质量问题,技术方面如考量数据集的完整性和一致性,收集数据的标准,使用的软件等;研究数据的科学质量则由研究团体通过出版前与出版后的同行评审进行评估。同行评审流程中,出版商也应该探索对评审者的激励方式,包括支付酬金,邀请编写特稿,加入编辑委员会,甚至聘用一些专家进行内容评审。
3.3.4 发展有关研究数据引用的策略
研究数据通过传统的出版过程传播,为实现数据的长期可重用,需建立并使用数据的引用标准。在这方面,出版商应要求出版物及相关的数据可引用,并为数据的引用提供明确指导。在说明数据引用时,出版商可参照一些已有的实践,如Force11[14]的原则,参与DataCite[17],加入到研究界和编辑讨论的过程中。数据引用应包括DOI,以及使用许可信息,如创作共用许可,数据的引用方式最好是机器可操作的,可让用户知道可以如何处理研究数据。
3.3.5 建立许可政策鼓励进行文本数据挖掘
出版商的编辑政策应以清晰的方式,说明研究数据的与获取方式,如默认或建议开放获取等。考虑到文本数据挖掘工具可带来显著经济效益,鼓励出版商调整策略,允许研究人员在研究中使用这种技术。
关键词:
房地产批量评估,标准价调整法,多元线性回归模型,数据挖掘
根据房地产批量评估技术中人工参与程度的多少,现行批量评估技术方法可分为:以人工为主、以计算机技术为主和以人工与计算机技术相结合三类。本文将对此进行讨论,对如何选用房地产批量评估技术方法进行研究。
1以人工为主的技术方法之标准价调整法
1.1标准价调整法的概念标准价调整法,作为市场比较法派生出来的一种方法,类似于城市动拆迁评估中的基准价格修正法和香港的指标估价法,但又有其自身的特点。标准价调整法可定义为:一种批量估价方法,在一定区域范围内进行估价分区,在每个估价分区内设定标准房地产并求其价值,利用房地产价格调整系数将标准房地产价格调整为各宗房地产的价值。标准价调整法适用于估价对象物业属性和估价特性较为近似的物业,尤其适用于小范围且价格影响因素少的楼栋批量评估。
1.2标准价调整法在不同物业类型中的应用标准价调整法的实施涉及到:估价分区的划分、标准房的设定、价格修正系数的设定以及标准房价格的评估。无论应用于哪种物业类型,这四个步骤必不可少,差异在于各步骤的具体实施方法不尽相同。在住宅物业的评估中,往往以小区作为估价分区的划分,在一个小区内根据一定规则设定一个标准房,再由有经验的估价师根据实地调研情况设置标准房与其他房屋之间的价格差异系数。最后仍由估价师定期对标准房进行估价,并通过已设定的系数求得所有物业的价格。在办公物业的评估中,差异在于分区是以楼栋或项目来划分,后续步骤和住宅一致。在集中型商业物业或工业物业中,都可以借鉴上述方法来进行操作。但在沿街零售型物业中,由于沿街零售性物业分布广泛,没有明显的集中趋势,并且价格影响因素的差异较大,导致标准价调整法的应用也与其他物业类型有较大不同,主要表现在估价分区的划分和价格修正系数的设定这两个环节。现有的技术方案一般采集两级调整的方案。按商圈(或类似因素)将城市区域划分成诸多估价分区,在每个分区中设定一个标准商铺,称为区域基准商铺。之后在分区内再进行一次估价分区的划分,这一划分以路段为分区,在每个路段中设定一个标准商铺,称为路段基准商铺。估价人员经过现场调研后,需设置两级修正系数,即区域基准商铺与路段基准商铺的价格调整系数,以及路段基准商铺与路段内其他商铺的价格修正系数。最后经估价师定期对区域基准商铺进行估价,并通过两级系数的修正求得所有商铺的价格。
1.3标准价调整法的优点①在规模较小的城市中,可以实现绝大部分物业的批量评估需求,具有较强的实用性。②可以达到较高的批量评估覆盖率。③估价准确性较好,并具有较好的质量可控性。④除建设初期投入的人员成本和时间成本较大,后续维护的成本适中。
1.4标准价调整法的缺点①由于人工作业的工作量太大,不适用大、中型城市。②对估价人员的经验要求较高,尤其是系数设置与标准房的价格评估等环节对质量的要求很高。团队运作时,需要具备较高的质量管理能力。③不同物业间的系数关系可能受到市场、规划等因素的影响而改变,需要定期进行监控和维护,有一定的难度或容易疏忽和遗漏。
2以人工为主的技术方法之多元线性回归模型
2.1多元线性回归模型简述多元回归分析是目前在国外批量评估中占主流的校准技术,包括线性回归分析和非线性回归分析。其基本原理是:在大量样本的基础上,通过对变量、误差的假定,依靠最小二乘法来拟合因变量与自变量关系,从而建立数学模型。多元回归是统计学方法,运用时要和经济学理论结合,实践中对多元回归模型的应用是基于特征价格理论。国内关于运用特征价格理论来进行房地产价格批量评估也有较多的研究和学术论文,但绝大多数还处于理论研究阶段。
2.2多元回归分析的主要步骤多元回归既可以用来预测售价,也可以用来预测租金,甚至可以用来统计其他中间参数。在步骤上不同类型的物业没有明显区别,只是在变量的选择与量化上有所不同。为便于表述,下面以预测办公物业价格为例来进行阐述。①选取样本:为了训练预测办公物业价格的模型方程,在目标范围内选取一定数量的样本,调研其价格信息和基础信息。这里的重点是样本对总体的代表性以及样本数据采集的准确性。②构建办公物业价格影响因素体系:通过调研分析以及房产专家意见调查,归纳出可能影响办公物业价格的特征变量,并进行赋值量化。③模型拟合:观察、分析特征变量的变动规律,采用统计分析软件进行分析,对模型和特征变量赋值不断地尝试和修正,找出合理的价格和各特征变量之间的定量关系。④模型检验:最终得到的模型是否成功,取决于经济意义检验、统计检验、计量经济学检验以及模型预测检验。其中统计检验包括了拟合优度检验和显著性检验;计量经济学检验包括多重共线性检验及异方差检验等。但凡通过上述所有的检验,即可认为模型已成功建立。⑤模型应用:对办公物业的特征变量进行赋值,代入最终的模型进行自动计算,即可评估办公物业的价格。
2.3多元线性回归模型的优点①多元回归方法所涉及的工作量主要在于特征变量的数量以及特征变量的赋值容易程度,受城市规模的影响较小,因此可以适用于大中型及以上城市。②多元回归方法通过拟合因变量与自变量关系从而建立数学模型,这个过程与何种物业类型无关,因此理论上多元回归方法适合各类型物业的批量评估建模。③通过“调整R方”和“标准误差”两项指标,基本可以判断和掌握模型价格估计的准确度,并且可以对模型进行持续改进,从而保证批量评估的准确性。④在市场稳定时期,由于自变量与因变量的关系也较为稳定,因此模型更新维护的成本较低,从而价格更新的成本也较低。
2.4多元线性回归模型的缺点①在不同区域或不同市场,价格的影响因素不尽相同,建立的回归模型也不相同。因此对每个城市每个物业类型的市场需要分别建立回归模型。②多元回归的建模研究过程中,在理论假设、建模方法、数据采集等各环节中,需要综合的知识、经验和技能要求。除了房地产估价师所需具备的估价理论知识、实务经验、调研及价格判断能力外,还需要统计学、经济学等多学科知识。对人员和团队的综合能力要求很高,而这往往是传统估价机构所欠缺的。③对样本数据的准确性要求较高。如果没有准确的样本数据,建立科学的经济学模型则为空中楼阁。而要获得准确的样本数据,长久以来一直是一个难题,其中有人为的因素(如交易避税),也有客观的因素(如商业物业的交易活跃度低)。④在市场波动大的时候,原有模型可能失效或者预测能力大幅下降,而模型的迭代或维护周期较长,可能无法及时调整。
3以计算机技术为主的技术方法
房地产批量评估领域中以计算机技术为主的技术方法主要是基于大数据的数据挖掘。这一技术的应用最早开始于房地产互联网企业,如搜房、安居客等房地产房源网站,后来逐步被引入到房地产批量评估的技术或产品研发中来。
3.1数据挖掘的方法和原理首先,数据挖掘的前提需要有大量的数据可供挖掘。随着互联网在各行各业的不断渗透,房地产中介行业中出现了大量房源网站,并逐步成为了房地产经纪人房源招揽客户的主要渠道。一个房源网站中可以搜索的房源数量多达数十万甚至上百万条,并且每天都有数万条以上的数据更新。这样的网站有好几家,为房地产的数据挖掘提供了可行的前提。其次,结构化的数据为数据的采集提供了便利。在房源网站中,房源已经按小区进行了分类,经纪人哪个小区的房源,则该房源将展现在该小区的搜索项下。至于面积、房型、价格、楼层以及装修等参数,也都以格式化的方式来展现。因此,利用互联网爬虫等抓取技术,可以方便的将这些网站的房源抓取下来,并建立房源案例数据库。最后,是数据挖掘工作。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。根据上述定义和描述可以发现,数据挖掘的核心是算法,而这个算法在不同的批量评估系数或产品中都不相同,算法的优劣也决定了不同系统或产品的优劣。
3.2数据挖掘方法的优点①高效无疑是数据挖掘方法的最大优点。一旦完成对算法的研究,价格估算的工作都可以交由计算机来完成。②对整体市场价格运行的反映具有较高的准确度。
3.3数据挖掘方法的缺点①对微观市场价格运行的反映可能存在较大偏差。微观市场中,例如一个住宅小区,其挂牌房源的数量就很有限了,即使规模最大的小区,也就是几百的数量级。这样大数据挖掘的数据数量前提已不满足,从而影响了对微观市场的价格估计。②批量评估的覆盖面不完整。互联网数据虽然总量巨大,但并非面面俱到。以住宅小区为例,一些体量较小的小区,或者一些远郊区域,可能无法在互联网上被搜索到。因此,基于互联网数据挖掘的批量评估势必在覆盖面上存在缺陷。
4以人工与计算机技术相结合的技术方法
房地产批量评估,尤其是涉税的批量评估对评估系统的要求主要有:全面覆盖所有物业、估价结果准确以及系统维护成本适中。根据前文对各方法的论述,单一方法很难实现上述要求。如标准价调整法若在大型或超大型城市中应用,将面临很高的运营成本;多元回归建模的更新维护周期较长,当市场出现快速波动时可能无法及时调整;基于大数据的数据挖掘在估价精度与覆盖面上都有所欠缺。总之,无论从技术上论证还是从实施效果来看,多种方法的有效结合是较为理想的,也是房地产批量评估技术的发展趋势。实践中各方法的结合已有普遍应用,并且各有巧妙,方法不尽相同。下面就几种简单的组合方式进行讨论。
4.1标准价调整法与大数据挖掘技术的组合大数据挖掘可以满足一些活跃小区的价格估算,因为活跃小区的挂牌房源较多,能满足算法所要求的数据量前提,而不活跃的小区则无法为算法提供足够的“原材料”,因此不适用数据挖掘的方法。这时就可以运用标准价调整法来弥补。按照标准价调整法的原理,在不活跃小区的临近或相似区域内设置一个标准房,经人工调研后设置标准房与不活跃小区价格的调整系数。这样在算法得出活跃小区价格的同时,可以利用预先设置好的系数一并计算不活跃小区的价格。此外,在算法可以计算的活跃小区的价格中,也有可能存在价格偏差。这时也可以应用标准价调整法的思路,设置活跃小区间的价格调整系数,来检验算法所得结果的合理性。这一组合的应用前提主要是看大数据挖掘的应用前提是否存在,即是否存在大量数据可供挖掘,因此适合房地产市场规模较大,“互联网+”比较发达的城市和地区。此外,在结合了大数据挖掘技术后,标准价调整法可以应用到大中型及以上城市,克服了其原有的一大弊端。
4.2多元回归模型与大数据挖掘技术的组合除了对人员的能力要求以及对样本数据的质量要求较高以外,多元回归模型最大的弱点在于迭代问题。市场不断变化,模型不可能一成不变,当市场发生变化并导致变量之间的关系也发生改变时,原有模型的价格预计精度必然下降,此时必须对模型进行重新构建。问题在于市场价格变化未必会导致变量间的关系也发生变化(或变化很小),或者当变量间关系发生变化时,人员主观上可能无法及时发现。当主观能够感受到变量间的关系出现变化时,往往已经有了很大的变化。此时再进行模型的迭代就已近晚了,之前的价格估算可能已经出现了错误。大数据挖掘技术可以很好地弥补上述的缺陷。大数据挖掘不仅可以直接计算某些具体变量,任何数据内在的规律和关联都可能应用大数据挖掘的方式进行探索和发现,并且能对极为细小的数值波动进行反应。利用数据挖掘的这一特性,可以建立对变量的波动监控,当波动超过一定的预设阀值即可启动模型的迭代更新。这一组合的应用前提同样取决于大数据挖掘的应用前提,除了城市规模等情况限制外,如商业物业、工业厂房等物业市场也不适用。
4.3标准价调整法与多元回归模型的组合标准价调整法往往适用于特性相近的物业,如在一个小区中设定一个标准房,再设定标准房与其他房屋的价格修正系数。在价格更新时,求取标准房价格后,即可得到小区内所有房屋的价格。但当城市规模很大时,也就是有很多小区时,必须要求取所有小区的标准房价格,如仅以人工来评估得出的话,成本非常高。此时在求取小区标准房价格方面,采用多元回归模型的方法可以极大地减少人工和时间成本。由于标准价调整法和多元回归模型都属于以人工为主的技术方法,因此理论上的应用几乎不受限制。在结合多元回归模型后,标准价调整法也可扩展应用到大中及以上城市。从上述三个组合中可以看到,原单一技术的某些弊端可以被克服,整体技术方案的适用范围和效果可获得较大提升和改进。实际研究和应用中可能有更多种的技术组合,且并不限于本文论述的主流技术方法。多种技术组合应用是房地产批量评估技术探索和创新的主要方向。
5房地产批量评估技术的选用
无论是单一技术还是多种技术方法的结合应用,房地产批量评估技术的选用依据主要是数据状况、结果的质量状况以及运行成本。数据状况主要指数据的数量和质量。就技术方案来说,侧重点有所不同。例如在多元回归模型中,对于样本案例的参数质量要求是所有技术方案中最高的;而大数据挖掘技术则对数据的数量要求最高。现实中不太会碰到数量又多质量又好的数据状况,因此在技术选用时首先需要考虑是否可以稳定获得所需要的数据。至于结果的质量状况和运行成本,很难设定一个标准线。只能根据不同的需求目的来设定质量目标,以及根据组织的投入产出效益来选择可行的技术方案。以上海城市房地产估价有限公司开发的VISS系统的运行情况来看,其在住宅物业批量评估方案中采用了标准价调整法与大数据挖掘相结合的方法,使其系统的评估精度基本控制在正负6%的误差范围,极端误差范围为正负10%。对于上海12000多个住宅小区,其价格更新周期为每月,其数据维护人员仅8-10人,每次价格更新的工作周期仅为两周。在其新研发的办公物业批量评估方案中,更是结合了标准价调整法、多元回归模型以及大数据挖掘三种方法,使其系统的评估精度可以控制在正负10%的误差范围,极端误差范围为正负15%。对于上海3000多栋写字楼物业,可以实现3个月的价格更新周期,而数据维护人员仅3人。因此,在选用何种技术方案时,主要有四个评价因素。一是技术方案所需的数据是否可以稳定获得;二是批量评估的价格精度是否满足目标需求;三是批量评估的物业覆盖面是否完整;四是批量评估的运行维护成本企业(或组织)是否可以承受。以此为标准,运用多方法结合的思路进行技术的研发和创新才是房地产批量评估技术发展的正确道路。
采用计算机科学技术、现代信息技术和新的数学理论和工具处理复杂的信息,从各类文本、数据、表格、图像、视频等浩瀚的数据海洋中挖掘规律,发现有用的潜在知识,指导人们进行科学分类、预测、决策,是多年来美国及国际计算机、信息科学和数学家一直在探索的研究领域。知识获取、知识表示和智能化的人机交互,甚至实现计算机可视化信息处理,建立新颖的知识库,从而获得领域信息和知识分析结果,将有助于商业活动、生物信息处理、蛋白质结构分析、科技研究动态分析,有助于科学家在复杂的科研信息中开辟新的未知领域,提供快速独立科学判断的客观依据,探讨和预测学科知识的发展前沿,准确把握学科研究方向,从事科学创新和研究。
多年来,我一直在智能信息处理这一研究领域进行探索。这次联系到美国德雷克塞尔大学信息科学技术学院Tony• H教授,在他的指导下进行数据挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。
Tony•H教授现担任国际学报《Data Mining and Bioinformatics》和《Granular Computing》等的主编和国际粒计算会议的程序委员会主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等内容,是近年来在世界智能信息分析中最具特色和影响力的研究领域。从2000年至今,他在这一研究领域中发表的研究论文达60多篇,出版的研究专著为3部。在为期一年的时间里,我与Tony•H进行了很好的合作研究,采用新的研究方法,对前沿领域进行了有益的探索研究,并接受了Tony•H等教授们的研究思想、研究方法、教学思想和教学方法的熏陶,对相关课程的教学方法、教学手段、教学组织方式进行了深入的交流和探讨。此外,我还以志愿者的身份参加了在美国举办的两个大型的全球性国际会议:美国工业数学联合会举办的2006年国际知识发现与数据挖掘会议(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);国际知识发现和数据挖掘会议(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。
这次访问研究使我开阔了眼界,接触到很多当今信息科学研究领域中最先进的思想和方法。对Rough Set Theory、Data mining、Bioinformatics等前沿性探索和预测的科学研究也有了更深入的认识。同时,能够有机会和这一研究领域的世界知名专家和教授进行面对面的学术交流与探讨,参加各种类型的学术研讨会,我觉得受益匪浅。我所感受的学术氛围、学到的教学思想和教学方法是一笔宝贵的精神财富,我会将他们直接应用到自己的教学和科研中。下面就我在访美期间印象深刻的几件事谈谈体会,以期对我们的工作有所启示。
2优秀的学习环境
2.1优美的校园环境
我所访问的德雷克塞尔大学地处美国费城的市中心西部,紧邻世界著名的宾法尼亚大学(世界上第一台电子计算机ENIAC在这里诞生,现在这里还保留有部分元件的展览)。虽然离市中心较近,校园也没有围墙与外界明显隔开,由跨南北东西几条街和大道的建筑组成,但校区及周边环境寂静优雅。校园中央有一座代表性的龙雕塑,路边插的许多旗杆上挂着印有龙的图案和Dragon字样的杏黄校旗,几只松鼠在校园内的树上自由地跳跃活动,小道边或树下都设有长凳,供教职工或学生休息、讨论。
教学楼、实验楼、办公楼、图书馆、体育馆内中央空调处于恒温状态,非常适合工作学习。每栋楼的大厅或较宽的走道边的墙壁上都贴有各种名言及名画,营造着好的学习环境,渲染着极其重要的文化氛围。大厅内布置有椅子和圆桌,在上课、实验或面谈之前,教师或学生可在此休息等待,这一点的确做到了以人为本,给我留下了十分深刻的印象。
体育馆内各种体育设施齐全,如健身、跑步、球类等,全年对学生免费开放。游泳也只需支付少量的费用(3个月只需25美元),全天多时段使用。
9月迎接新生、校际间的篮球比赛等活动举办得井井有条,充满生机。
2.2完备的信息化建设
首先,信息化建设表现在数字资源的建设上。图书馆大厅内设有很多计算机,学生可在此上网浏览,查阅资料。书架周边靠墙处设有自习的桌椅,供有网络插口,学生可链接自己的笔记本电脑。图书馆资料丰富,如果在本馆找不到相关资料,也可请图书管理员在馆际间查找,将返回的电子文档通过邮件发送到学生校园网内的电子邮箱中,十分方便。
校园无线网覆盖了整个校园,教室周围也预设了网线插口,在教室内上课或自习的学生均可免费无线或有线上网。在校的本、硕、博学生都有自己的校内学号,凭该学号可直接在自己的实验室登陆校园网的电子图书馆,查到仅在校园网上提供的论文资料。学生还可从校园网中心服务器上下载以学校或机构名义购买的正版软件,这一点国内很多高校还没能做到。
其次,信息化建设也体现在师生信息素养的建设上。无论在信息意识、信息知识、信息能力,还是在信息道德上,师生们都显现出十分成熟的高水平。良好的信息化数字资源建设为师生的教学科研提供了良好的保障,师生们利用简单的搜索机制或便捷的馆际服务就可查到需要的资源。虽然本校师生可从校园网上下载正版软件,但每个人都遵守不宜外拷的基本原则,这也体现了良好的信息素养。
3教师教学与学生学习
3.1教师教学情况
美国高校一般一年分为4个学期,每个学期大约3个月。按照校方的要求,每个教师至少3个学期要有教学任务,而且必须在每个学期完成平均3门课程的教学,个别教师甚至在一个学期要承担4门课程的教学任务。一门课的教学约32学时,这样,每个教师每学期(一学期不到3个月)约完成72~96学时的教学工作量。除非有科研课题,可以用科研任务充抵教学工作量,否则,教学任务就是相当饱满的。除了承担教学工作外,每个教师还要承担科研、指导硕士及博士生进行研究的工作。年轻教师除了要完成教学任务,还要进一步深造,提高自己的学位和水平。教师的教学情况由学生来评价,学生填写调查表格,收齐后交由学院教学秘书统计,最后由学院将统计结果通报给教师本人,类似国内高校的学生评教。所以教师同样很有压力,他们对教学一丝不苟、敬业,并非普通人所想象的美国教师工资高、工作轻松。
在课下,教师必须将所授课程的内容介绍、大纲、演示文档资料、习题等组织好,全部挂在校园网的个人主页上,以便学生随时浏览。备课、批改作业、设计实验题目等各个环节,教师都要十分认真地对待,每周有一次约定学生到办公室进行问题讨论或答疑,保证教学任务圆满完成。教师对实验项目的设计循循善诱,既不是全盘托出,也不是仅给一个题目,让学生冥思苦想地琢磨。除了将学生建立成团队,教师还布置与课程相关的大量文献和资料阅读,并要求学生写出读书报告。对于课程结束或评定成绩用的大作业,甚至要求每个学生制作成演示文稿,并加以汇报、讨论。我看到一位叫爱德华(中译名)的老师,他承担了数据库、软件工程等多门课程的教学任务,每天都在办公室工作到很晚,有时甚至在教学楼大厅的休闲式自习间伏案研究。
在课上,每门课程开始的第一节课,教师就将学生分组,形成一个一个团队。在布置学习和研讨课题后,教师要求学生先独立思考,不明白的东西可在团队内讨论,有问题还可及时问老师。也就是说,每门课都在培养学生的团队协作精神。教师在课堂上的演示文稿经过精心准备,图文并茂,层次分明,令人赏心悦目,但他们也不完全拘泥于演示稿,也在黑(或白)板上演绎关键的内容,突出重点,使学生感到他们备课充分,对教学内容十分精通。
3.2学生学习情况
在美国读书的学生,普遍感到课外阅读任务较重。学生不光要学好课内的基本教学内容,还要阅读文献,查找与主题相关的资料,并加以整理、归纳、汇总。这培养了学生自主学习的意识,清除他们完全靠老师课堂讲授的依赖心理。
课堂上,学生们会踊跃发言,认真记笔记,回答老师的提问,在老师的引导下完成课堂练习。下课后,学生到图书馆查阅资料或自习,也会在网上下载老师在主页上布置的作业,按时完成后及时提交给老师批改。如在课程结束时,教师会给学生布置大作业,学生要在一定时间内当面交给老师,并接受面试提问,作为考查依据的一部分。在接到作业任务后,学生要认真对待,完成后连带其他作业一起交给老师。老师根据学生的总体完成情况给出五级分制的成绩。
我曾遇到一位硕士生,她就接到这样一个大作业。老师给的任务是一个较大的程序,要求她调试运行通过。经过一周的调试,程序始终没能运行成功。在快要到期时,她正好碰到我,听说我是从事这方面教学工作的,就向我请教。我很想了解美国教师采用什么样的教学方法,出什么样的题目让学生做,于是答应帮他。我仔细阅读分析和反复测试网上下载的源代码,终于找出了问题所在。原来老师在程序中故意预设了两个问题,这是学生在学习此类程序设计语言时容易忽略或犯错的问题,程序在编译中并不报错,但就是运行结果不正确,得不到期望的结果,学生找不到出错的地方,感到很困惑。经过修改,程序很快调试运行通过,进一步优化和调整后,她交给了老师。老师看了她的程序运行结果,并问了她的体会,得到非常满意的回答后,表示十分高兴。
其实,这就是教师在主导学生去主动学习,自己找资料,自己研究问题,形象地讲,就是“逼”学生好好学习。这样可以解决学生遇到较难问题时无从下手的迷惑,循循善诱他们找到解决问题的方法,避免了“越俎代庖”。
4 硕士生和博士生的培养过程
在硕、博研究生的指导过程中,如何对学生加以良好的指导,始终是困扰国内外导师们的问题,至今仍无绝对规范。
从导师与学生一见面,指导工作就已开始。导师一般提供很多必要的帮助,如帮助开设相互联系的校园邮箱,确定联系方式和时间,根据学生的知识结构制定研究方向等。作为一项基本约定,指导教师每周要有一个下午与学生见面,由学生汇报学习和研究情况,导师当面给出指导意见。导师有时还会帮助学生查找并提供最相关的研究论文或资料,必要时将研究论文的电子稿发送给学生,甚至将论文复印件放在学生的信箱中――这绝对有别于国内有的指导老师因兼职过多或担任其他职务,指导缺乏或持久不到位现象。这种指导方式加强了导师与学生的交流,也便于将学生引导到相关研究领域的最前沿,而导师也始终站在研究的最高点。而通过不断的交流和指导,学生能很快系统地了解相关领域的研究进展,较早找到问题的抓手,有兴趣地开展有意义的研究,往往容易产生创新型成果,包括理论和应用性实验成果等,并能。
当学生或导师认识到某个研究点的价值所在时,就会着力加以深入研究。如导师要求学生认真阅读研究后再来参加讨论,甚至有时要求学生将讨论内容制成演示文档讲解,这样他们对重要的概念和研究结果的掌握就会更加透彻,文献跟踪程度和研究思路水平就会得到提升。这种有意识的训练大大强于“散放式”的指导方式。
5良好的学术氛围
学科建设和课程教学离不开学术研究。在德雷克塞尔大学,给人留下深刻印象的就是每个教授(正教授、副教授和助理教授)都将自己的研究方向和最新论文或成果以一幅画的形式贴在工作室的外墙上,上面有个人简介、主要方法和结果说明。这样就打出了自己的招牌,便于他人了解自己。此外,每个教授甚至普通教师都在校园网上建有自己的主页,对自己的教学科研工作进行介绍,并将研究论文、著作等目录列在其中,便于与他人交流或沟通。教师也经常根据教学内容联系国际国内的专家做学术报告,始终用新知识武装学生的头脑。
重视营造活跃的学术氛围,并使学术交流制度化、经常化,是我在美做访问学者期间感受最深的一点。每个系或学院基本上每周都举办1~2次学术研讨会,主讲者有来自世界各地的专家教授,也有某个研究领域资深的校内教师。每次学术研讨会的时间大都定在中午12:30,12:00就开始提供免费的午餐。这样既充分利用了时间,又解决了听报告者的午饭问题,也通过免费午餐吸引了不少听众,特别是一些来自第三世界国家的“穷”留学生们。通过网上邀请,大多数感兴趣的学生甚至老师都会来参加研讨会,在这里了解一些最新的研究进展和报告人的研究思路,并能与主讲人交流自己的研究体会,视野随之开阔,思想也随之富有。有时,一些大的跨国公司或政府部门(如安全部门)的技术专家也被邀请来做专题报告,这样学术交流的氛围就比较活跃,研究工作也不会是一潭死水。
6结语
在美国德雷克塞尔大学访问进修一年,我目睹了该大学在环境建设、教学科研等方面的好的做法,开阔了视野。回国后,我给我的学生们讲解我的所见所闻,也给他们留下了深刻印象。这次进修不仅使我在业务上得到进一步修炼,也获得了不少“精神财富”,如下所示:
(1) 抓实抓好教学工作的每个环节,是高校教师的永恒主题。任何一个环节,如教学方法、教学手段、实验项目设计、主导学生学习、提出学习要求、组织讨论答疑、批改作业等方面的提高,都会大大提高教学质量和教学效率,取得事半功倍的效果。
(2) 指导学生方向和过程并重,确保处于研究前沿。指导学生,特别是硕、博士生的导师,不仅在一开始就要帮助学生确定研究方向,而且要定期开展学习检查和交流活动,必要时还要为学生提供前沿性的研究论文或资料,以便将他们早日引导到国际国内的前沿阵地,保持在高新水平上从事研究工作,取得创新性的研究成果。
(3) 创造活跃的学术氛围和良好的学习环境,是高校各级领导及教师的基本责任。只有将教师和学生置于始终向前的滚滚波涛中,教学和研究才会具有不可估量的创造力,才会在科学的道路上获得可持续发展。
【中图分类号】G40-057【文献标识码】A【论文编号】1009-8097(2015) 06-0089-07【DOI】10.3969/j.issn.1009-8097.2015.06.014
引言
2011年以来,在美国顶尖大学中迅速发展起来并迅速影响世界的MOOC(大规模开放在线课程)模式无疑给“在线学习”这一学习形式树立了成功应用的典范,该模式证明了只有当大学的课程、课堂教学、学生学习进程、学生体验、师生互动过程等被完整、系统地在线实现…,特别是当辅导教师的存在以及相关系统指导活动实现时,在线学习才是有效的。这从一个侧面说明,在线学习并不是纯粹的学生自主学习,还需要充分发挥辅导教师的主导作用。
在线学习模式下,师生活动在时空上相对分离,尽管有同步教学活动发生,但更多时候是异步教学活动,因为异步教学更有助于满足学习者的个性化学习需要。不同于课堂面授教学,辅导教师难以把握一门在线课程学习者学习开展情况的全貌。但是,通过在线学习平台对学习过程的记录,辅导教师了解课程的教学过程是可能的,而且基于学习过程记录开展在线教学的反思以不断改进在线教学这一做法也是必要的。一文献探讨
“教学反思”,顾名思义,反思对象就是教学过程,反思的基础是对教学过程的忠实记录。波斯纳(Poser)将教师的成长发展与其对自己经验的反思结合起来,提出了一个教师成长的公式:经验+反思=成长。由此可见反思对教师成长以及专业发展的重要性。
教学反思的方法是多样的。王映学、赵兴奎指出教学反思的途径主要有录像反思、日记反思、从学习者角度反思、与同事及专家的交流中反思以及通过向学生征询意见反思。张大均将教师成长的途径从观摩教学、微格教学、教学决策训练和教学反思几个方面来说明。俞国良等则将教师的反思训练列为录像反思法、对话反思法和教学反思法。从上述方法中可以看到,教学反思的基础是对教学过程的忠实记录。在“日记反思法”中,第一步就是对教学中包含问题的教学事件进行详细、忠实的描述。在“从学习者角度反思”中,第一步就是“简要记下学习发生的时间、场合、涉及的学习内容和培训(讲授或主持)人员”。在微格教学法中,则通过录像设备记录教学全过程。
在信息化网络时代,教师可以利用现代教育技术手段来实现教学过程的忠实记录,进行有效的教学反思,从而更好地促进自身的专业发展。各种新的网络技术工具给我们的生活带来了新的便利,同时也为教师提供了新的教学反思工具。近年来兴起的学习分析技术可以成为教师开展在线教学反思的有力工具。学习分析技术是对学生生成的海量数据进行解释和分析,以评估学生的学术进展,预测未来的表现,并发现潜在的问题。对教师而言,学习分析技术可用来开展更为深入的教学分析,以便教师在数据分析的基础上为学生提供更有针对性的教学干预。在线学习中,在线学习平台详细记录了师生行为,犹如课堂教学录像。借助学习分析技术,分析师生行为记录数据,可以再现在线学习过程,使教师能够把握在线教学过程全貌,并了解每个教学环节、重要教学活动以及每个学生的种种细节,使原本模糊的印象数字化、清晰化,辅助教师反思其在教学设计、资源制作、学习引导、学习评价等方面的可取之处与不足之处。
因此,本文选取基于Moodle平台的在线课程为样本,应用学习分析技术,具体包括话语分析、社会网络分析等分析技术,统计分析与可视化、聚类、预测、关系挖掘、文本挖掘等数据挖掘方法,以及SSAS、SPSS、ucrNET、EXCEL、ICTCLAS中文分词系统等工具,从一位辅导教师的视角,开展基于学习过程记录的在线教学反思研究,探索一种全新的教学反思形式。
二 研究样本
本文选取国家开放大学主办的网络教育从业人员培训班为研究对象。该培训班依托Moodle平台开设(网址:http://),有“学生支持服务”、“在线学习辅导”和“在线课程设计”三门课,每门课的培训时间为6周,学生通过Moodle平台开展在线学习,辅导教师提供全程的在线辅导。本文具体选择“在线学习辅导”课程第五期培训班作为研究样本。
三 数据分析与培训反思
1 重温整个教学过程――师生群体平台访问行为分析
通过对平台模块访问、模块访问序列以及师生活动时间分布情况的分析,重新回顾教学过程,并对一些突出的数据表现加以解读,使原本时空分离的师生活动再度整合,还原辅导教师的教学过程与学生学习过程的原貌。
(1)平台模块访问总体情况
表l是该期培训过程中,师生访问Moodle平台各模块的频次统计结果。
从统计结果可知,师生最常访问的模块是“forum”,占总活动频次的近50%,说明课堂讨论是最主要的学习活动,也是这门基于讨论的探究式课程学习的突出特点。其次就是“wiki”、“resource”和“assignment”三类行为。这三类行为的频次和比例较为平均,是位列“Forum”之后的重要学习活动。在讨论的基础上,课程设计中的“wiki”其实是为了给学生协作式小组学习的机会,是除“forum”外学生之间重要的交互空间。“resource”(浏览资源)是学习内容重要的组成部分,在此基础上参加讨论和wiki协作学习,最终的学习成果以“assignment”(小论文、大论文)的形式呈现。这几个模块的频次和比例分配较为合理,较好地还原了教学过程。
(2)平台模块访问序列分析
我们已经了解了不同模块的访问频次,下面我们再来了解一些师生访问平台模块的路径。
这里采用Microsoft顺序分析和聚类分析算法,数据来源则是用户每天浏览课程页面产生的过程数据。笔者选取5个频繁访问模块包括forum、wiki、assignment,resource和user(course除外,因为在该模块主要发生登录行为,并没有实际的学习行为)的数据来分析模块访问序列,得到如图l所示结果。由图l可知,从user、resource、assignment、wiki四个模块跳转到forum的条件概率均比较高(分别为0.40、0.32、0.26、0.16),可见forum是一个活动中心模块,也是一个重要的活动中介模块,诸如resource、assignment、wiki等活动可以从中再次启动。而在由forum跳转到其他模块的情形中,forumresource的转换组合的发生概率是最高的,达到0.06。在发帖参与讨论的过程中,发现问题、深入思考再继续学习相关资源,这符合学习常规,也形成了讨论带动资源的学习两者之间的良性互动,从而实现深度学习和反思。另外,resource模块对其他模块的支撑作用还表现为assignmentresource,这一条件概率达到0.13,即学生在做作业的过程中要求助于资源模块,这也是符合学习常规的。
(3)不同时期各模块访问特点
接下来结合时间维度,了解不同时期平台各模块访问特点,以了解不同时期师生关注重点的变化。计算出本期培训不同周此平台模块访问频次分布情况,并绘制师生在主要学习模块的活动频次占比随时间分布的折线图,得到如图2所示结果。
从图2可以看出,除高频访问模块forum外,在正式学习开始前两周及第1周,学生的访问重点user模块和resource模块反映出学生在熟悉人和内容。这启示我们,在网络课程开始之前,辅导教师可能需要提前两到三周就介入课程的学习,实时跟踪学习进程,为他们提供相应的服务来进行预热,这对于后面课程学习的顺利发展和学生积极性的保持都很有帮助。进入第2周,开始主要的学习活动,主要模块则是wiki以及forum。到第3周,wiki活动达到顶峰一一第3周出现本课程第一次wiki协作式小组学习活动,所以这时达到顶峰是正常的;另外,这些学生从没有接触过基于wiki的小组写作式学习,所以他们有很强的好奇心和强烈的兴趣参与。到第4周,assignment活动达到顶峰。这实际上是学生提交的第3周布置的assignment(小论文),这是本课程第一次提交assignment;课程结束后的三周,assignment模块的活动逐渐增强,伴随着resource模块活动的增强,forum活动相对减弱,进入做作业(撰写大论文)的状态。
2 聚焦重点教学活动一一师生论坛交互分析
师生在论坛的讨论发言是本课程的一项重点教学活动。通过这一活动,相关教学信息得以传递,各种其他教学活动得以依次展开,课程知识也在这里不断呈现,支持服务也在这里相继给出。
(1)师生交互的数量与内容
该课程讨论活动在6个学习单元分散展开,本期培训班发帖数量累计743个,如表2所示。由表2可知,辅导教师的发帖量基本呈缓慢下降的趋势。从该趋势我们可以看到,在第1周“学习指南”和第2周“第一单元:什么是在线辅导?”两周的教学中,由于是在线教学的开始阶段,辅导教师需要更多地引导学生进行讨论,投入相对更多的时间。从第3周开始,数据显示,辅导教师的发帖量开始有所减少,从将近50%的比例下降到40%左右。这是因为,经过前两周的学习,由于辅导教师的有效引导,学生保持了较高的积极性,效果明显。从第3周开始,辅导教师有意减少了发帖的量,注意留给学生更多的时间思考并参与讨论,这时候学生明显上升到了讨论的主角这一角色,这说明辅导教师对于讨论的把握和控制比较成功。
(2)师生交互发帖的内容
作者采用傅骞、魏顺平等研发的术语提取算法从所发帖子中提取了约240个术语,如表3所示。这些术语的出现频次为4909次(其中辅导教师使用976次,约占20%);在481个帖子中出现(其中教师帖为204个),占帖子总数的65%。从另外一个角度说,有1/3左右的帖子没有出现任何术语。由此可见,论坛的主要功能是开展课程知识讨论,次要功能则是激发并维持学生的学习动机,引导、鼓励学生不断参加学习。
在前10位术语中,“辅导”出现了3次,“在线(远程)”出现了4次,这比较好地体现了本课程的特点,即在线学习辅导。而排在前两位的是“辅导教师”和“电大”,这更能说明这次培训的内容和对象的特点。无一例外,本次培训的对象全部来自电大系统,所以他们对本系统是最关注的,另外他们对如何做好“辅导教师”也是最关心的,所以他们选择了这门课。从这些术语可以看出,本期的讨论比较成功,课程的设计也比较合理,能够满足学生的需求。
接着,作者对各单元使用的普通词汇(包括动词和名词等实词,不含虚词,不含术语)使用频次进行统计,以体现辅导教师的语言艺术和辅导特色。其中使用频次排名前十的普通词汇分别是“同学、加油、学生、谢谢、可以、学习、问题、课程、研究、讨论”。“加油”和“谢谢”这两个词的大量使用反映了辅导教师为学生提供的情感支持。辅导教师时时刻刻不忘鼓励、支持任何一位学生的发言和进步,处处对他们的讨论表示感谢,无论发言是否精彩,无论对他们的观点是否赞同,都通过“加油”和“谢谢”表示感谢。
(3)师生交互的动态过程与静态结构
我们从师生交互发帖时间分布以及师生交互网络分析来了解师生交互的动态过程与静态结构。本培训课程设有6个单元外加大论文指导环节(实际上是7个单元),计划教学时间是6周,一个单元用时一周。理想情况下,学生应该在规定的学习时间内完成相应单元的活动,但事实并非如此。以每个单元的“话题讨论”为例,某个单元的话题往往要持续3周才会真正结束。各单元讨论活动随时间分布情况如表4所示。
表4中带*号的数字部分是在单元规定学习时间内的发帖数量,但是每个单元在规定学习时间后,在随后的2至3周还陆续有帖子发出来。于是从第3单元开始,将会有3个单元的活动叠加在一起。出现这种叠加现象,可能较大程度上是由工学矛盾造成的。学生不能及时完成本周的学习活动,所以会往后拖延。其实,从学生的角度是可以理解的,这也要求我们的在线教学要有一定的灵活性。同时,也恰恰是在第3周开始出现第一个assgignment(小论文),学生的负担开始加重。正是当“新债旧债”交织在一起的时候,出现了连锁式叠加的现象。当然,这种现象也会无形中增加辅导教师的负担。
根据辅导教师和学生发帖、回帖的关系,借助UCINET社会网络分析工具,可绘制师生交互网络图,如图3所示。从图3可以看出,所有24个成员(包括辅导教师,如图中编号为68的正方形节点)均在一个网络中,不存在孤立的成员。
中图分类号:R058 文献标志码:A 文章编号:1673-8454(2016)03-0094-03
一、引言
伴随着大数据时代的到来,数据资源的承载形式、数量与类型都发生了巨大的变化,大数据同过去的海量数据有所不同,其基本特征可以用4个V来概括(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。大数据技术是从各种各样类型的巨量数据中,快速获得有价值信息的技术,解决大数据问题的核心是大数据技术。“大数据”不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析处理系统。大数据最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息,所以大数据的分析方法在大数据领域就显得尤为重要,是决定最终信息是否有价值的决定性因素。基于大数据的特点,大数据分析存在的方法理论通常包括如下几个方面,如图1所示。大数据时代获取价值信息的难度增大,因此,对图书馆馆员的专业级信息素质提出了更高的要求,馆员需要学习和掌握数据采集、资源组织、统计分析和数据挖掘等多种大数据知识与技术,以便能为读者提供高质量的信息服务和知识服务。信息素质(Information Literacy),是指明确信息需求、选择信息源、检索信息、分析信息、综合信息、评估信息、利用信息的能力。信息素质的内涵包括4个方面――信息意识、信息能力、信息道德和终身学习的能力。信息素质是1974年由美国信息工业协会的会长Paul Zurkowski首先提出的,发展到今天,最为广泛性的解释是作为具有信息素质的人,必须具有一种能够充分认识到何时需要信息,并且有能力有效地发现、检索、评价和利用所需要的信息,解决当前存在问题的能力。
二、平台架构方案
本平台基于B/S模型,采用+SQL Server +IIS技术方案,充分结合主流的多层平台架构技术,具备分布式、并发事务处理等能力,平台架构模型如图2所示,客户端使用浏览器形式,因而不需要安装特殊的客户端软件,使平台在易用性、管理及运行等方面变得更为简单、便捷,同时,平台亦具有良好的可靠性、适应性和可移植性等特点。
三、平台功能模块构成
本平台主要包括课程管理、测试管理、在线讨论与留言管理、专家讲座和用户管理等5个主功能模块,其中各功能模块又下设多个子功能模块,平台功能结构如图3所示:
(1)课程管理模块:是平台的核心功能模块,包括课程管理、课件及资源下载、数据挖掘技术与工具、案例分析管理、多媒体视频管理和常用术语等6个子功能。课程管理模块使馆员在有限的时间内,能自主地学习信息素质的基本知识,学会信息技术,提高信息服务能力。
课程管理模块主要完成课程的展示、上传、下载、修改、视频在线实时点播和点击量统计等任务。信息素质课程包括:数据采集、数据存取、基础架构、数据处理、统计分析(差异分析、相关分析、T检验、偏相关分析、距离分析、回归分析、曲线估计、因子分析、聚类分析、快速聚类法与聚类法、判别分析、多元对应分析或叫“最优尺度分析”、Bootstrap技术等)、数据挖掘(分类Classification、估计Estimation、预测Prediction、相关性分组或关联规则Affinity Grouping or Association Rules、聚类Clustering、描述和可视化Description and Visualization)、复杂数据类型挖掘(Text、图形图像、视频、音频等)、模型预测、结果呈现(云计算、标签云、关系图)等类型。
课件及资源下载功能主要完成课程课件、教材、参考文献和教学大纲等资源的显示、上传、下载等操作,模块中集成了大量的培训课程课件、数据库的培训课件以及第三方的培训课件。
检索知识与检索技巧模块主要包括检索技术等相关文章的展示、上传、下载和更新等任务。
案例分析管理主要完成典型案例的显示、增加、修改、删除和查询等操作。
多媒体视频管理包括教学视频和专家讲座视频两部分,平台所支持的培训视频格式为.avi、.mp4、.flv和.rm等。
常用术语模块包括各种信息知识和技术概念、重要人物、专有名词、组织机构名称缩写以及英文对照等信息,馆员可以利用术语表更顺畅地进行学习。
(2)测试管理模块:包括仿真练习和在线自我测试2个功能,用于馆员对所学的信息知识和技术等进行课程复习、内容巩固、知识扩展及自我测试;有助于馆员了解自己信息素质的实际水平,并有针对性地专门强化某方面能力。
(3)留言、咨询管理模块:该模块开拓了馆员与教师之间进行交流的虚拟空间,通过该功能双方可以通过同步或异步交流方式,实现信息交换和信息共享,是馆员完成自主学习不可或缺的环节。
(4)专家讲座模块:模块完成讲座视频的上传、下载和播放等功能,讲座主要包括数据库的使用、检索挖掘工具使用,专家讲座有利于馆员增加对热点知识、前沿知识、处理技术及技巧的学习与掌握。
(5)用户管理模块:主要完成用户的登录管理、新用户的注册和密码找回等功能。平台中的用户被分为馆员、教师、专家和系统管理员四种类型,每种类型的用户都具有不同的权限,查看、管理不同的功能模块及其子模块。平台中的密码均以密文形式保存,加强了平台的安全性保障。
四、平台核心模块的实现
图书馆馆员信息素质教育服务平台的前台主界面,如图4所示,后台管理界面如图5所示。
课程管理模块的实现:主要实现了课程和相关视频的查看、上传、下载、课程评价和点击量统计等功能。这部分内容是经过精心设计、安排的,不但包括管理学的内容,例如管理学的经典案例分析、决策、预算、控制等课程内容,还包括信息检索、重组、评价与利用等内容,主要培训课程包括信息素质概论、信息检索、数据挖掘、信息资源和信息评价与利用、大数据技术等,还包括如何查找期刊的影响因子,如何查找哪些期刊被SCI收录,科技文献类型有哪些、如何识别,如何查找哪些期刊被EI收录,如何查找论文被引用的情况,如何查找各学科核心机构、科学家和研究热点,如何查找全球学者信息,如何定期获取所需某种期刊的目次信息,如何利用网络学术交流平台等检索技术。前台课程信息展示列表如图6所示。
留言、咨询管理功能模块的实现:该功能是平台的主要功能之一,实现了教师或专家与馆员之间的答疑、讨论等任务,通过该功能教师与馆员能够进行一对一的沟通与交流,同时该模块还具有历史记录的增加、删除、修改和查询等操作功能。留言管理功能的留言板窗口如图7所示:
五、平台应用分析
信息素质教育服务平台已成功进行相关系统测试,已与部署完成,运行状况稳定,平台性能表现良好。平台的构建与应用给图书馆馆员在信息服务工作中带来了如下几方面的益处:
(1)平台的应用使图书馆馆员学会了在大数据时代如何获得各种各样的信息源、如何有效地管理各种信息。
(2)平台的应用使馆员掌握了信息检索的技巧与策略、信息伦理与科学道德等知识。
(3)平台的应用提升了馆员对信息的整体认知,拓宽了馆员学习信息知识和技术的渠道,是集中信息素质教育培训的有力补充。
(4)平台的应用节省了馆员学习的成本,突破了集中培训的地域空间与时间上的限制,馆员可以通过手机、电脑等终端设备进行自主学习,有效地提升了馆员的信息素质。
(5)平台的应用也方便了培训课程、讲座等信息的管理、查询、统计和分析等工作。
六、结束语
图书馆馆员信息素质教育服务平台是集信息检索知识及技巧、文献写作、信息能力自测、信息交流答疑于一体的信息服务空间。通过系统化的教学指导、大量的案例及讲座视频等让馆员学会专业级的信息检索、采集、预处理,统计和分析、数据挖掘等大数据技术,以提高自身的信息素质、提升信息服务能力与水平。
参考文献:
[1]黄丽霞,蒋永福,傅荣贤.基于新建构主义的高校信息素质教育模式研究[J].图书情报工作,2014(7):35-39.
[2]崔雷,刘伟,闫雷,张晗,侯跃芳,黄莹娜,张浩.文献数据库中书目信息共现挖掘系统的开发[J].现代图书情报技术,2008(8):70-75.
[3]梁作明,张悦忍.大数据背景下高校图书馆的应对策略[J].中国管理信息化,2014(23):108-109.