时间:2024-04-04 10:28:05
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇生物信息学的定义范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
一、 引言
随着后基因组时代的来临,高通量生物技术的发展,生物医学的实验手段和研究方法均发生了巨大的变革,生命科学研究中不断涌现出海量的生物数据,包括基因组数据、蛋白质组数据、功能基因组数据等。这些生命组学的数据使得生物医学研究者以系统生物学的角度来研究生命现象[1-6],同时它们的迅速增长,带来了数据的存储与传输、数据处理、数据获取及数据的理解与应用等等一系列的问题,这些问题促进了生物信息学的产生和快速发展[7-13],也吸引了来自数学、生物学、化学、药学、信息学等各个领域的研究人员广泛关注并取得了大量成果[43-49]。生物信息学定义为应用信息科学技术来理解、组织及管理生物分子数据,旨在为生物研究人员提供一些工具及资源,方便他们获取生物数据,分析数据,从而发现生物世界的新知识[14]。它是一门新兴前沿交叉学科,吸引着各种有影响力国际组织的重大的关注,ORACLE、MICROSOFT、Google等公司也先后加大力度投入生物信息学领域的开发和研究[15-17]。由于这一领域有着极大的潜力,美国国家标准技术协会(NIST)和美国国防部高级研究计划局(DARPA)及美国计算机协会也相继投入这一领域的研究。为了强应这一潮流,抢占学科发展的制高点,同时培养生物信息学人才,很多学校新增设了生物信息学这门课程。接下来我们将结合实际中的教学谈几点体会及相应的一些尝试探索。
二、生物信息学的特点
生物信息学在我国是一门新兴前沿学科,它是信息学、生物学、数理统计等多学科的交叉、结合的产物。它需要多个领域的专家通力合作。传统的生物学研究实质是一门实验科学,需要对实验数据进行处理与分析,从而新现象、新的生物学规律,从而分析、归纳和总结,提炼出新的生物学知识。然而随着生物科学与信息技术的高速发展,生物数据的积累速度不断加快,特别是人类基因组计划顺利实施,使得生物分子数据量以超过摩尔定律的速度迅速发展。利用这些丰富数据,通过分析、处理揭示数据背后的生物学意义,是生物学家、数学家和信息处理人员面临的一个严峻的挑战。生物信息学就是为迎接这一挑战而发展起来的一门新交叉学科。下面结合几方面谈谈生物信息学的特点。
生物信息学研究对象
生物体是一个复杂的系统,同时也可看作是一个信息系统控制着生物的遗传、生长、和发育。生物分子是生信信息的载体,对于生物信息学而言,主要研究两种载体,即DNA分子和蛋白质分子。携带着三种信息,遗传信息、结构信息及进化信息。
DNA分子作为遗传信息的载体,它的核苷酸序列上存储着蛋白质的氨基酸序列编码信息,存储着基因表达调控信息,携带着遗传信息,主要存储在DNA四种字符组成的碱基序列中,控制生物体性状的基因是一系列DN段。这些遗传信息的传递与表达促使生物体不断生长与发育。DNA通过自我复制,不断传递着遗传信息使生物体得以繁衍,基因通过转录和翻译,使得遗传信息得以在生物体中表达,从而后代表现出与亲代相似的生物性状。基因表达中,遗传信息从DNA传到RNA,这一过程称之为转录,然后从RNA传递到蛋白质,这一过程称之为翻译,在表达中,基因控制着蛋白质的合成。
蛋白质是机体各种生理活动的物质基础,蛋白质分子是大分子化合物,其基本单位是小分子的氨基酸,组成蛋白质的氨基酸有20种, DNA序列中三个连续的碱基为一个蛋白质的氨基酸编码。碱基字符序列与氨基酸字符序列组成了基本的生物信息,分析这些生物信息有助于认识生命活动的规律及生命本质。
总而言之,生物分子信息具体表现为DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功勇数据,生物信息学则综合利用信息科学、生物学与数理科学的研究方法来收集、存储、处理、分析与解释海量生物信息。生物信息学把基因组DNA序列信息分析作为源头,破译遗传语言,认识遗传信息的组织规律,识别隐藏在DNA序列中的基因,掌握基因的调控与表达功能,获得蛋白质的编码信息后进行蛋白质空间结构模拟和预测。
生物信息学研究的主要内容
生物分子信息的收集与管理。生物分子数据量巨大,如核酸序列的数据以千兆计。因而有组织搜集和管理这些数据是各项工作的前提,便于一些研究人员共享这些数据,及时得到最新的实验结果,需要把这些数据整理成生物信息数据库,同时要不断更新与管理这些收集的信息从而使这些数据的一致性、可靠性和完整性得以保证。
数据库搜索及序列比对。搜索同源序列在某种程度上就是通过序列比较寻找相似序列,这可使研究人员通过搜索序列数据库找到与新序列同源的已知序列,并根据同源性推测该新序列的生物功能。而序列比对则是为了判断两个序列之间是否具有足够的相似性。从而判定二者之间是否具有同源性。
基因表达数据的分析与处理。基因表达数据反映基因转录产物在细胞中的丰度,通过这些数据可以用来分析哪些基因的表达发生了改变,基因之间有何相关性,基因的活动的受限,基因的功能,提供疾病发病机理等等,是生物信息学研究中的热点与重点。
生物医学信息学的定义
根据美国医药信息学会(American Medical Informatics Association, AMIA)的定义:Biomedical Informatics (BMI) is the interdisciplinary, scientific field that studies and pursues the effective uses of biomedical data, information, and knowledge for scientific inquiry, problem solving and decision making, motivated by efforts to improve human health.
生物医学信息学(BMI)是一门研究如何有效利用生物医学数据、信息和知识的跨学科科学,以满足科学查询、解决问题和制定决策的需求,并通过不断的努力,推动和提高人们的健康。
生物医学信息学的关键属性
生物医学信息学主要从事生物医学数据、信息、知识的产生、存储、获取、使用及共享的理论、方法和过程的研究、开发和应用。
生物医学信息学建立在计算机技术、通讯技术以及信息科学的基础上,是IT技术在生物医学领域上的应用。
生物医学信息学在方法学上可以支持从分子水平到大众水平的研究、推论、建模、模拟、实验和转化。覆盖从基础医学、临床科研,到临床诊疗、公共卫生等多种生物医学领域的研究和应用。
生物医学信息学认为生物医学信息的最终使用者是人。因此,社会科学和行为科学对于技术性解决方案的设计和评价,以及对于复杂经济、伦理、社会、教育和组织架构的演进,起到了非常重要的影响作用。
BMI各应用领域的相互关系和区别
在生物医学信息学领域有很多看似非常相近的术语和名词,很容易被混淆和乱用,例如:信息学、医学信息学、生物信息学、卫生信息学、生物医学信息学、公共卫生信息学等等。如何理解这些术语?它们之间的区别和联系又是怎样的呢?
Shortliffe教授解释说:生物医学信息学是一门基础性生物医学科学,是一门应用潜力非常广泛的科学。生物医学信息学研究和发展的推动力,是生物学和医学领域的临床、科研和实践中所遇到的各种问题。生物医学信息学将生物医学的理论和方法与计算机、信息和通讯技术相结合,以创新和发展新的方法和理论为目标。这些核心理论和方法包括数学建模、数据库理论、认知科学、统计学、数据挖掘,自然语言处理等等,反过来又促进生物医学科学和健康科学的研究、应用和创新。
生物医学信息学理论、方法和技术首先被应用到临床医疗、诊断和护理等临床医学领域,同时也被应用在牙科和兽医学领域。这些领域关注的是患者个体,是以患者为中心实现临床相关信息的采集、集成、共享和应用,因此被称为临床信息学。
与临床信息学紧密联系在一起的是公共卫生信息学,它的应用不是针对单一的患者个体,而是关注整个人群,以大众健康和管理为目标。临床信息学和公共卫生信息学共享了很多相同的方法和技术,这两个方面结合在一起就是我们通常所说的医学信息学。因此,生物医学信息学不能等同于医学信息学。
生物医学信息学在生物学领域的应用,特别是在细胞生物学和分子生物学上的应用,主要关注的是细胞和分子水平的过程,这部分被称为生物信息学。
生物医学信息学在放射影像、图像成像和分析、以及影像管理方面的应用被称作影像信息学。影像信息学以组织和器官为主要对象,包括:放射影像、病理影像、超声影像、皮肤病学、以及分子可视化等等应用领域。
据Shortliffe教授介绍,其实这些应用领域的边际是非常模糊的,例如生物信息学和影像信息学相结合就产生了分子生物成像学;生物信息学和临床信息学的结合形成了药物基因组学,而临床信息学和公共卫生信息学相结合则形成了大众消费健康学。
BMI和HIT的关系
生物医学信息学与计算机科学(软件和硬件)、临床科学、基础生物医学科学、流行病学、统计学、生物工程学、管理科学及认知科学与决策密切相关。
生物医学信息学(BMI)与医学信息技术(Healthcare Information Technology, HIT)有着密切的关系,但相互各有侧重。BMI更偏重于BMI理论的研究、方法的建立、教学、以及这些理论和方法在生物医学研究领域应用。其主要参与者是学术研究人员、科研机构及相关实验室。而HIT则更偏重于应用,主要是把BMI的方法、理念以及研究成果与医疗临床实践相结合,并通过厂商开发成相应的医疗信息系统产品,供医院和卫生行政机构使用。其主要参与者是医疗IT厂商、医疗临床机构及卫生行政机构等。在美国,生物医学信息学领域的学术组织是美国医药信息学会(AMIA),而医学信息技术领域的学术组织是美国医疗信息管理和系统协会(HIMSS)。
加强生物医学信息学教育和培训
生物医学信息学对于生物医学研究、企业应用系统的研发、图书馆情报学和知识管理、公共卫生统计、生物技术和制药、临床实践和管理、以及政府决策研究,都将发挥重要的作用。
但是,目前要真正把信息技术应用到生物医学领域以及临床诊疗中,还存在一个非常大的障碍,就是缺乏同时具备信息技术知识和生物医学领域知识的复合型人才。因此,作为交叉科学的生物医学信息学,要肩负起自己的使命,要为复合型人才的培养做出贡献。各医学院校和研究机构,在开展常规的生物医学信息学学位教育之外,还应该积极开设信息学相关的培训,为医学生和护理学生提供双学位课程。另外,要加强对医药卫生专业人员的信息学继续教育,并积极为临床医护人员所进行生物信息学研究提供必要的支持和协作。
下一代测序技术的应用产生了大量的测序数据,这对生物学特别是生物信息学在数据的存储、管理和搜索等方面带来了新的挑战。一直以来计算机存储和处理数据能力的增长速度都快于生物数据的增长速度,但2003年后,由于测序技术的发展使得测序成本大幅度下降,产生了大量的生物数据,计算机的存储和计算能力逐渐无法满足大数据的需求。这促进了云计算的运用和发展,它使得用户可以根据需求租用硬件设备和软件,避免了对硬件设备的大量资金投入和管理投入。
1 云计算定义
“云”是一个通过虚拟技术把云端计算机或是服务器连接在一起的服务网络。存储和分析数据都由“云”端的服务器或是计算机完成。中国云计算专家刘鹏给出如下定义:“云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。”
按照资源的共享水平,云计算的服务模式分为三种,基础架构即服务(Infrastructure as a service), 平台即服务(Platform as a service)和软件即服务(Software as a service)。
IaaS(Infrastructure as a service) Service:基础架构即服务。它整合了基础设施如虚拟主机、存储设备、网络设备等资源成为一个服务平台提供给用户使用。IaaS位于网络的底层,向用户提供按需分配、按需付费的计算设备和存储设备。
PaaS(Platform as a service)提供服务平台,用户掌控运作应用程序的环境,可以在平台上应用,测试和开发软件。
SaaS(Software as a service)即在服务平台上提供软件供用户使用,用户只使用软件,不掌握操作系统、硬件等网络基础架构。用户不必自己安装软件,只需要浏览器连接到公共的服务平台即可。供应商会按照用户的要求安装所需的软件,并负责软件的升级和维护。
云计算的主要优点:
(1)把用户从安装和测试软件的工作中解脱出来。云计算平台可以按照用户的需求提供软件及硬件的服务。用户不需要考虑网络下面复杂的硬件架构,仅仅需要关注计算和分析就可以。
(2)按需租用计算资源可以让用户支付更少的费用。在云计算平台上,用户在最初时可以租用少量的机器,以后随着需求的增加或减少相应的增加或减少租用的机器。用户所付的费用就是实际租用机器的费用。
(3)云计算方便研究人员之间的数据共享和分析。不同研究者在本地服务器上安装的软件版本可能不同,所以共享数据和软件很困难。云计算可以使登录同一个平台的用户共享操作系统和所有的软件数据,保证了软件的版本同步更新。
2 云计算在生物信息中的应用
我们把云计算在生物信息学中的应用按IaaS, PaaS和SaaS三个方面分别介绍。
2.1 IaaS
用户租用云计算上的虚拟主机可以自己控制计算、存储等硬件设备,建立需要的计算环境。并且大量的生物信息学工具可以打包为虚拟镜像用于租用的云计算的虚拟主机上,可以很方便的进行多种数据分析。如CloVR提供的一个包含预配置和自动的生物信息学流程的虚拟主机,可以运行在本地的计算机上也可以运行在云计算平台上。这个虚拟机以Ubuntu和BioLinux为基础,安装了Grid Engine和Hadoop作为作业调度,Ergatis作为工作流系统,还有很多开源的生物信息学软件,如BLAST、16S rRNA等。用户也可以开发自己的软件运行在虚拟机上。Bioconductor是一个开源的关于R语言的生物信息学库,提供了一系列的软件包用于微阵列数据分析。用户可以下载Bioconductor提供的镜像安装到租用的云计算平台上。
2.2 PaaS
Galaxy Cloudman和Eoulsan可以看做PaaS。Galaxy整合了一系列的简单易用的工具,提供一个简易的网页用来分析数据。Galaxy Cloudman把Galaxy的软件工具打包成一个镜像,可以在AWS(Amazon Web Service)上应用。用户可以将其他安装在Galaxy平台上的软件安装到自己的云计算平台上,甚至可以在Galaxy Cloudman上定义插件。通过添加额外的工具,可以扩展默认函数并测试和使用。从这个意义上说,Galaxy Cloudman可以看做PaaS。
Eoulsan整合了很多下一代基因数据分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一个框架内,同时,它也支持用户自己开发的插件用于数据分析。
2.3 SaaS
很多传统的生物信息学工具如BLAST、UCSC Genome Browser仅仅用一个浏览器就可以登录到服务器使用相应的服务,它们也可以称为SaaS。这些服务一般由软件工具的开发者提供,伸缩性很差。我们主要介绍应用于云计算平台上可以伸缩的生物信息学工具。
短序列(读段)匹配是指将测序得到短序列匹配到参考基因组上,这是许多测序数据分析的第一步,如SNP识别和基因表达谱分析。CloudBurst,CloudAligner,SEAL和Crossbow都是应用于云计算基于MapReduce的软件,可以匹配数以百万计的序列。Schatz用”seed-and-extend”算法开发的CloudBurst可以确定错误匹配的数目。CloudBurst模仿了RMAP的算法,但速度提高了30倍。但是CloudBurst不支持fastq文件,并且不能处理重亚硫酸盐测序和(双)末端测序产生的数据。CloudAligner弥补了这个缺点,并且比CloudBurst快35%到80%。SEAL整合了BWA,在序列匹配时可以去除重复的序列,这对SNP识别和以后分析很有用。应用MapReduce的Crossbow整合了Bowtie和SOAPsnp,可以在几个小时内匹配数以十亿计的序列。
差异表达分析可以用来寻找不同样本中表达有明显差别的基因,而RNA测序(RNA-seq)用来量化样本中的基因表达水平。Myrna是一个云计算平台上计算大规模RNA测序的软件。它整合了序列匹配、归一化、聚类分析和统计模型,直接输出不同样本的基因表达水平和不同表达水平的基因。然而,Myrna 最大的缺陷是不能正确地将短序列匹配到外显子拼接位点上。但FX弥补了这个缺点。FX用改进的匹配函数分析RNA数据,以RPKM或是BPKM的格式输出不同基因的表达水平。
3 云计算面临的问题
云计算提供了强大的计算能力,但云计算自身的特点也使它的发展面临了一些困难和制约。云计算在生物信息学上的应用尚处于初期阶段,尽管已经出现了一定数量的生物信息学工具,但仍有很多的分析无法完成,很多的工具还需升级或者开发。云计算上数据的隐私性和安全性也是用户需要考虑的方面。特别是一些生物数据涉及到病人的隐私,但很多国家还没有保护这种数据隐私的法律。云计算服务提供商需要制定一些规则来保护用户的数据。
4 对应用云计算的建议
对于将要使用云计算的用户,需要考虑以下三个方面:数据规模、安全隐私和费用。
数据规模及安全隐私:首先要考虑你的数据规模是否超过了本地计算机的处理能力。现在本地的个人电脑可以处理数千兆的数据,服务器一次可以处理数百G的数据。如果用户熟悉并行计算的技术,可以处理数TB的数据。但如果你的数据更大并且不精通并行计算,本地计算机和服务器就很难处理了,就可以考虑云计算。用户如果要向云计算平台上传输数据,需要考虑数据的安全性和隐私性。比如涉及病人的隐私是否会泄露,云计算服务提供商是否可以保证数据的安全等。
费用:云计算的费用一般是按照使用的计算资源的多少和使用时间的长短计算的。使用云计算前应该评估其使用费用。用户应该考虑所有阶段的费用,如数据传输、保存、分析等。
目前,云计算和生物信息学都处在快速发展当中,云计算在生物信息学中的应用也越来越广泛和深入。特别是生物数据的大规模增涨,生物学家必须从大量的数据当中分辨出有用的信息。这就需要强大的存储能力和计算分析能力,云计算可以很好的解决这个问题。 云计算和生物信息学的结合将极大的促进生物学的发展。
参考文献
[1]刘鹏主编.云计算(第二版)[M].北京:电子工业出版社,2011(05).
[2]Schatz MC,CloudBurst:Highly sensitive read mapping with MapReduce,Bioinformatics
25(11):1363-1369,2009.
[3]Nguyen T,ShiW,Ruden D,CloudAligner:A fast and full-featured mapreduce based tool.for sequence mapping, BMC Res Notes 4:171,2011.
[4]Hong D,Rhie A,Park SS,Lee J,Ju YS,Kim S,Yu SB,Bleazard T,Park HS,Rhee H,Chong H,Yang KS,Lee YS,Kim IH,Lee JS,Kim JI,Seo JS,FX:An RNA-seq analysis tool on the cloud, Bioinformatics 28(5):721-723,2012.
作者简介
作为整个信息链的起点,事实就是事物在人类视野(感观/逻辑)中的原始映像[1]。事实是事情的真实情况,包括事物、事件、事态,即客观存在的一切物体与现象、社会上发生的不平常事情和局势及情况的变异态势[2]。事实也是人类知识的起源,人类全部知识的最初信息基础就是事实。
1.2数据(Data)
通常认为,数据是对事物纯粹的、客观的记录,是原始的未经解读的数字、文字、图像、符号、声音、计算机代码等[3]。而数据本身缺乏关联和目的性,但当数据结合一定的背景、规则、意义之后,就会形成信息。
1.3信息(Information)
作为整个信息链中的中心链环的信息,它的下游是面向物理属性的,上游是面向认知属性的。“信息”既有物理属性也有认知属性,因此成为“信息链”的代表称谓。
1.4知识(Knowledge)
知识来自于信息,信息只有同接收者的个人经验、信息与知识准备结合,也就是同接收者的个人背景融合才能转化为知识,它比数据或信息更接近行动。知识必须经过学习或研究以及从信息中经过去粗取精、去伪存真等加工才能够获得[4]。
1.5情报(Intelligence)
情报是为实现主体某种特定目的,有意识地对有关的事实、数据、信息、知识等要素进行加工后得到的产物。情报既包含有信息的成分,也包含有知识的成分。从信息层面看,情报所包含的信息是与人类社会有关的;从知识层面看,情报是与知识的利用价值紧紧联系在一起的。从一定程度上来说,情报是知识的子集。1.6智慧(Wisdom)智慧是能迅速、灵活、正确地理解和解决事物的能力。这种能力来源于人类基于已有的知识,是针对物质世界运动过程中产生的问题,根据获得的信息进行分析、对比、演绎,找出解决方案的能力。从严格意义上来讲,智慧是属于知识层面的,是人类大脑运用知识活动的产物———即运作和应用知识的知识。有知识不一定有智慧,但有智慧一定有知识。知识只有转化为智慧,才能显示出其真正的价值。
1.7事实、数据、信息、知识、情报、智慧之间的关系
数据是客观事实的记录,信息是有意义的事实和数据,知识是系统化的信息,情报是进入人类社会交流系统的运动着的知识,智慧是运用信息和知识解决问题的能力。这样由事实(Facts)数据(Data)信息(In-formation)知识(Knowledge)情报(Intelligence)智慧(Wisdom)层层递进,构成了一条完整的信息链,见图1[5]。
2医学信息学的相关概念
2.1国外医学信息学定义的三种导向
2.1.1以信息技术为导向定义侧重于技术和工具,即通常强调以计算机为基础的技术。“临床计算”、“医学中的计算机”、“医学计算机科学”、“计算机在医学中的应用”等认识比较常见[6]。
2.1.2以角色、任务或面向领域为导向定义侧重于组织内部信息人员的角色。例如,护理信息学、牙医信息学等通过医学信息学分支学科来定义。
2.1.3以概念为导向定义侧重于如数据、信息和知识这些概念在医学领域中的特定内涵。从总体上来看,国外医学信息学的定义是朝着形成基于数据、信息、知识的医学信息学定义方向发展的。
2.2中国医学信息学定义的两种倾向
2.2.1基于字面拆分后的概念解析
第一种拆分是将“医学信息学”拆分为“医学”+“信息学”(medicalinformatics)———偏重于方法论层面。把“医学信息学”定义为信息学在医学领域中的应用,同时确定医学信息学的范围是“医学”和“信息学”之交叉。前者指其应用领域,后者指其方法学。第二种拆分是将“医学信息学”拆分为“医学信息”+“学”(medicalinformationscience)———侧重于学科体系层面(即理论与技术方法统一的学科体系)。把医学信息学定义为研究“医学信息”的一门科学,即研究医学领域中的信息现象和信息规律的一门科学。
2.2.3基于国外医学信息学定义的翻译与重组
此类定义大多为将国外医学信息学的定义翻译成不同形式的汉语语言并且进行重组,与国外对医学信息学的定义无太大区别。
3医学信息学研究中的信息链
3.1“数据信息”链
这一环节的重点在于对医疗大数据的应用。当下全球大量的公共卫生信息、电子病历信息、用药信息、住院信息、图像信息、管理信息、基因信息、医学知识库信息以及实验室数据等构成了医疗卫生大数据[7]。随着信息技术与卫生及生物医学日益紧密的结合,大数据对卫生及生物医学的研究与应用也将产生深刻影响。因此,如何更好地利用大数据便成为信息技术与卫生及生物医学领域共同面对的挑战。大数据在医疗行业可应用于临床、研发、公共卫生和创新商业模式等领域,在健康领域的终极应用是疾病诊断和预测性治疗。虽然医疗大数据的研究和应用如火如荼,但在应用过程中也面临着诸多问题,如数据的存储、数据的整合、数据的挖掘利用和保护等方面都面临着一些问题。这也就需要我们在利用医疗大数据的同时,变革数据管理方式、建立完善的区域卫生信息化标准体系、积极探索利用数据挖掘技术等等各种措施,利用创新的方法和模式,发挥大数据在医院行政管理、健康教育与管理、卫生信息服务和疾病的控制预防中的作用和价值。
3.2“信息知识”链
这一环节主要关注医学知识库的建立。数据库是计算机应用系统中的一种专门管理数据资源的系统,它有文字、符号、图形、图像、数字及声音等多种形式。而知识库是知识工程中结构化、易操作、易利用、有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识集合区别与联系[8]。知识库的概念来自两个不同的领域,一个是人工智能及其分支———知识工程领域,另一个是传统的数据库领域。人工智能和数据库两项计算机技术的有机结合,促成了知识库系统的产生和发展。建立医学知识库,需要一支多学科人才的专业队伍,并且要能够适应数字化医疗向智慧化医疗的转变需要,构建大型的一站式通用智能医学知识库。建立知识库,要以本体为建设思路和方法,不仅要构建西医学科的知识库,更要构建中医学科知识库,且重视与“大数据”医疗的整合,更好地利用临床信息,将有用的信息知识化。
3.3“知识智慧”链
这一环节的着重点在于智慧医疗的实现。2008年,IBM首先提出了“智慧医疗”的概念。早期的智慧医疗强调物联网的作用,设想把物联网技术充分应用到医疗领域中,以实现医疗的信息互联、共享协作、临床创新、科学诊断以及公共卫生预防。而未来的智慧医疗将是以卫生信息化和信息共享为基础,以患者为中心,以个性化、智能化医疗服务为核心的医疗服务体系[9]。智慧医疗包括了智慧医院、区域医疗、家庭自助健康监护等多种服务方式,它将成为未来医疗卫生信息化发展的主要潮流。智慧医疗可以创建一个更加合理的医疗产业链,并且使用户体会到更加智能化和协调化的医疗服务[10]。
4医学信息学的未来发展方向
4.1学科体系的协同融合,加速了生物医学信息学的形成与发展
医学信息学(MedicalInformatics,MI)和生物信息学(Bioinformatics,BI)虽然产生背景不同,但是进入后基因组时代之后,生物信息学和医学信息学的边界趋于模糊,互相渗透和结合的趋势明显。其目的就是要提供新的生物医学知识的开发和共享框架。正是两者的协同融合加速产生了一门新的学科———生物医学信息学(BiomedicalInformatics,BMI)。可以预见的是,基于相同的学科理论基础和彼此交叉融合的研究内容,生物医学信息学一定是医学信息学和生物信息学未来的发展方向。
4.2学科研究向促进“转化研究”的方向发展
首先,在信息链的研究视角下,医学信息学的发展会更加注重信息链中的要素从低层次到高层次的链环转化;其次,在医疗领域,医学信息学面临的最大的挑战是如何将生物医学研究领域的成果快速、可靠地转化为现实可用的临床解决方案。同时,医学信息学出现了新的分支学科,即转化医学信息学。转化医学信息学通常被认为是以转化医学中的相关信息问题为研究对象,结合信息科学、理论基础和应用技术,服务于转化医学的研究,其目的是促进基础医学研究成果顺利向临床应用转化[11]。转化医学信息学的研究内容包括医学信息的标准化和医学数据的组织与存储等。它可以利用信息技术有效地加快基础研究变为临床应用,有力地促进转化医学的发展。
4.3学科的社会服务功能不断提升
4.3.1个性化
个性化意味着卫生信息管理和卫生信息服务以用户为中心,围绕每个用户的状态、需求乃至兴趣爱好来采集信息或提供信息服务。可以设想,在未来每个患者都将拥有自己的个人健康中心。
4.3.2智能化
智能化意味着通过对既有信息的分析,挖掘其中的规律,利用获得的规律来处理新的信息,并给用户提供科学合理的建议。
4.4新技术支撑和引领着医学信息学的未来发展
在未来发展中,许多崭新的技术可以有效地促进医学信息学的研究和应用的发展。远程医疗(Telemedicine):计算机技术、多媒体技术、通信技术与医疗技术结合。移动医疗(MobileHealth):通过移动通信技术来提供医疗服务。健康物联网(TheInternetofthings):利用物联网进行健康和疾病的管理。健康云(Healthcloud):以SaaS的方式向医院和医疗机构提供医院管理和居民健康档案管理方面的服务。医疗大数据(Medicalbigdata):大数据技术与医疗行业结合,充分开发利用医疗数据蕴含的信息与价值。转化医学(TranslationalMedicine):建立基础研究与临床医疗间更为直接便捷的联系。智慧医疗(Wisemedical):使用物联网技术打造健康档案和医疗信息平台,实现患者与医护人员、医疗机构和医疗设备的互动。
4.5我国医学信息学学科发展亟待解决的问题
我国医学信息学最近几年发展很快,但学科研究体系不够完善和成熟、学科建设和理论研究比较薄弱、标准设置滞后、系统规划和人才不足等问题制约了医学信息学的健康发展。
4.5.1亟需解决学科正名和专业名称规范化问题
医学信息学在国内的学科地位的确很尴尬,主要表现在国内的三大学科体系(目录),即“中国图书馆分类法”(简称中图法)、“国家标准的学科分类与代码”(简称国标法)、“教育部颁布的学科专业目录”(简称教育法)中均没有“医学信息学”的类名。因此,当务之急是要尽快确立“医学信息学”的学科名称及其在学科体系中的位置。医学信息教育在国内看似很火爆,其实是乱象丛生。此前教育部只批了中南大学、南通大学、徐州医学院的医学信息学专业,但国内很多学校都在信息管理与信息系统等专业后面加括号注明“医学信息学方向”,然后对外宣称是医学信息学专业。与此类似的还有一种叫“卫生信息管理专业”。显然这都是不负责任的做法。因此,希望教育主管部门加大宏观指导与调控力度,规范医学信息学的学科建设与专业教育。首先,在学科及专业目录上设立独立的“医学信息学”,既不要让“医学信息学”依托(附)于其他学科/专业,也不需要在别的学科/专业后面的括号内出现“医学信息学”。根据教育部2012年9月颁布的《普通高等学校本科专业目录》,建议将“医学信息学”纳入到“特设专业”中的“1010医学技术类”。其次,成立全国医学信息学教学指导委员会(教指委),规范指导医学信息学的专业教育。再次,协调指导“医学信息”类的学术组织,整合医学信息学的学术研究力量和研究队伍,指引医学信息学的健康发展。
4.5.2加强学科课程的设置和培养目标的确立
我国医学信息学专业的本科课程设置比较落后,学科的课程体系不完善且专业教材缺乏,不同学校的教学内容和培养目标差别很大,体现不出学科的重要性和交叉复杂性。故要求科学合理地加强学科的课程设置,正确处理好计算机科学、医学和信息科学之间的关系,参照国外已有的教学方案并联系自己的教学实际情况去充实教学计划,扩宽教学范畴,使整个医学信息学的教育更加合理。4.5.3实现专业教育体系化,加强专业人才的培养由于没有认识到医学信息学教育的重要意义,医学信息学地位不高,所以学科的科研投入、教育投入和人才培养都面临难题,教材和师资的缺乏也导致了专业教育规范化和体系化不足。为此,要深刻认识到医学信息学教育的意义,推动专业教育向规范化和体系化迈进。医学信息学作为一门新兴学科,其发展需要大批的高水平人才。人才的培养需要在专业教育中实现,只有通过规范科学的教育体系培养高素质的医学信息学人才,培养医学信息学研究的复合型人才和对在岗人员进行进修培训,才能适应医学信息学的快速发展。
【中图分类号】TP391
【文献标识码】A
【文章编号】1672—5158(2012)10-0078-01
一、生物信息数据库的现状及问题
在生物信息学的发展过程中,逐步建立起了大量基于网络的生物数据库,而且开发了众多检索工具,从而实现了生物信息数据的智能处理和综合分析。生物信息数据在具有增长迅猛、更新及时、种类繁多等特点的同时,更表现出高度的复杂性、多样性和不一致性。
随着生物信息数据量的激增以及数据处理能力的复杂程度不断提高,现有的生物信息数据库已经逐渐暴露出许多问题。三大核酸数据库依靠传统方式交换数据,无法及时反应出其他专用生物信息数据库的变化情况以及非核酸类数据信息。网上所提供的大部分数据分析工具采用面向问题的搜索方法,搜索效率随着问题规模的扩大而降低,并且无法智能地对数据中存在的未知知识进行发掘。为此,在后基因组时代,需要将数据仓库思想及智能数据挖掘技术运用到生物信息学领域中。
二、基于生物信息数据仓库的数据挖掘技术
(一) 生物信息数据库中的算法工具
在生物信息学中,基因比对是最常用和最经典的研究手段。在核酸序列或蛋白质序列之间进行两两比对,比较两个序列之间的相似区域和保守性位点,寻找二者的相似形、同源性,进而探寻可能的分子进化关系,揭示序列中蕴涵的结构、功能等信息。数据挖掘主要存在以下几种经典分析模式:关联模式分析、序列模式分析、分类分析、聚类分析,其中关联模式分析应用最为广泛。
(二) OLAP和数据挖掘技术
传统的针对数据库的开发工具多为联机事物处理模式,它主要是面向具体的查询和统计,有着较为具体的应用目的。然而随着越来越多数据库的出现,数据量的迅猛增长,OLTP在数据资源的充分利用、为用户提供有效支持和帮助等方面,则显得力不从心。因此,基于数据仓库的联机分析处理以及数据挖掘引起了日益广泛的关注和应用。OLAP是一种自上而下、不断深入的分析工具。用户提出问题或假设,OLAP则负责从上而下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。DM是一种决策支持过程和挖掘性工具,它主要基于人工智能、机器学习、统计学等技术,高度自动化地对原始数据进行分析,发现隐藏在数据中的模式,做出归纳性和预测性的推理。
(三) 基于生物信息数据仓库的数据挖掘技术
实现数据挖掘的前提条件是必须具有海量数据,而这恰恰是数据仓库的基本特点之一,二者紧密结合可以有效解决大量应用中出现的问题。在生物信息学领域,使用数据挖掘技术可以大幅提高研究人员的工作效率,改变原有的预测法;数据挖掘算法还可以结合生物信息专业领域的公式算法,根据研究人员的设想,对数据进行全面高效的分析。
基于数据挖掘等技术发展起来的智能决策技术具备了在生物信息学领域中大展身手的天赋,特别是基于海量数据的数据挖掘和开采技术更具有广泛的需求和应用背景。另一方面,目前生物信息学的研究方法和发展情况,已经形成了较为完善的智能决策系统,成为数据仓库和数据开采较为成功的应用案例。另外,现有各种生物信息应用分析软件从一定程度上讲,已经反映并且实现了数据仓库及数据挖掘的思想和技术。
三、实现生物信息异地多源数据库的综合利用
(一) 建立基于Web的生物信息数据仓库
基于现有的生物信息数据库,运用数据仓库思想,利用OLAP和数据挖掘技术,建立生物信息数据仓库,是一种不需要大幅增加硬件设备以及物理装置的前提下,实现基于Web平台的生物信息集成与处理平台的可行方案。设计一个基于Web的生物信息数据仓库,其主要结构由五部分组成:外部数据源;基于Web的数据调度、传输;数据的变形整合;元数据规则、元数据管理;基于Web的综合管理平台。
DWBW以DDBJ/EMBI/GeneBank作为主要数据源,同时以其他主要的生物信息数据库作为整个数据仓库的基本数据源。通过分析数据库结构和数据结构类型,建立DWBW的元数据规则。这样,基于上述各种数据库就可以建立起一个基于Web的虚拟数据仓库,由于不存在一个物理上位于某地的存储中心来保存这些数据,用户面对的只是基于网络的分布式虚拟的数据仓库。其模型、算法的运行由专用的分析工具服务器来完成,而对于数据的调用和整理都是在源数据库上进行的,根据不同用户提交问题的不同,具体分析过程则由分配服务器交给服务器去完成分析,只是最终将结果返回请求分类服务器,显示给用户。
DWBW将通过统一的基于Web的页面与用户进行交互,在后台则主要由请求分类服务器、Web服务器及专用分析工具服务器共同完成对问题的提交和分析,实现对数据仓库元数据规则的理解,然后根据分类的结果,与相关分析工具进行匹配,将问题提交到相应的分析工具服务器进行处理。处理完成后返回给请求分类服务器,进而返回给提交问题的用户。
(二) DWBW的关键技术
生物信息学元数据的抽取。数据的整理和抽取,是开发所有数据仓库时所遇到的最难解决也是最具挑战性的问题之一。将不同时期生成的大量历史数据中的数据结构、字段的定义以及对象之间的关系等一系列的描述信息整理出来,并制定一套通用可行的规范,本身就是一个工作量巨大、难度极高的问题。因此,数据仓库元数据的抽取整理,成为建立DWBW的关键问题。数据抽取、清洗、转换和装载过程与一般数据仓库建立过程中的数据整理不完全相同,其数据具有规范性强,存储结构相对简单,转换、装载容易等特点。
虚拟生物信息数据仓库的建立。虚拟生物信息数据仓库实现对生物信息平台相关数据的组织和集成,并且将不同主题的数据对象分别存储到各个数据集市中,同时还将建立起部分有价值数据的在线OLAP数据库。虚拟数据仓库采用中间件充当数据中心,提供信息的访问接口,对存贮在不同数据源的生物信息数据进行存取操作。由于虚拟生物信息数据仓库一般不是针对实时数据进行分析统计,所以对于时间效率的要求不如一般查询统计那么高,这就确保了开发处于不同物理位置数据源的虚拟DWBW具有可行性。同时,对于一般性的查询比对等基本操作,不会影响其工作效率和准确性。
1.引言
随着现代信息技术的发展与广泛应用,加快了人类信息社会的建设步伐,信息化、数字化已经逐渐进入到医学的各领域中,成为医学界不可或缺的重要工具与手段。信息技术的高速发展正改变着医学的教学、研究、医疗服务等的诸多传统方式,并随着现代信息技术的不断发展而不断推陈出新。但是,我们不能否认,现代信息技术在医学方面的应用不仅为医学的认知带来了新的渠道,转变了医学的思想观念与工作方式,同时也为医学界带来了一些问题,例如:新的伦理问题等。因此,在医学信息化建设迅速发展的今天,如何才能更好的将信息技术运用到医学中,医学信息化的发展前景如何?对医学界具有十分重要的现实意义与长远意义。
不可否认,医学信息化的建设是长期的,只有符合医学发展的信息化才具有生命力。在医院中,我们随处可见的CT、彩超等大型的数字化医疗设备、计算机网络的各种医疗收费系统、医疗信息处理系统等,还有在医学教学、科研领域,都逐渐开始使用现代信息技术的辅助来提升教学与科研的水平。信息技术在医学中的应用与改造与创新,使得医学的教学、科研、临床、管理、药品、医学器械的研制等都在借助信息技术来加快自身的发展,很难想象没有现代信息技术、计算机技术、网络技术的医学院校或者医院将会使什么模样。
2.信息时代医学信息化所面临的新挑战
2.1 数据的共享问题
美国在医学信息化数据的共享方面比较开放,美国的国立生物技术信息中心中存储大量的数据信息,这些数据信息对科学家是无偿提供研究的。但是,在我国的生物医学研究部门或者是医疗机构中,已经积累了大量的科研与临床数据,这些数据目前大多数仍处于独立使用的状态中,各机构之间缺乏数据共享数据孤岛现象严重制约着我国生物医学的研究与发展,同时也为我国社会医疗健康保障体系的建立带来了困难。在实际中,这些医疗机构之间由于存在各种利益关系,一般都对自己所持有的医学科研数据及诊疗数据资料保密,不愿意向同行与社会提供数据共享的服务。
2.2 数据标准化的问题
美国的著名劳伦斯伯克利国家实验基因租的科学部主任表示,最理想的状态就是能够建立统一的电子医疗系统,这些医疗病历系统应该具有统一的标准。但是,在我国的医学现实中并非如此。各医院存储的各种数据标准不同,不同的系统在存储的信息方面也不一样,目前,医疗系统与医疗科研机构之间的信息数据标准很难实现统一。究其原因主要是由于各种医疗设备的生产厂家、医疗系统的软件开发商之间的技术标准各不相同造成的。例如:不同的医院对信息管理系统中的电子病例数据信息的记录格式、标准不同,而信息中心的数据存储设备在构架上也不相同,这就造成各医院之间的医疗数据信息无法实现交流沟通、共享。如果同一个病人想在不同的医院进行治疗,就必须在不同的医院分别再做一次相应的检查,这不仅增加了病人的经济负担,严重的更影响了病人的最佳治疗时期。因此,要想在医学领域实现信息化就必须先打破各医院之间的技术壁垒,解决信息化的标准化问题。
2.3 医学信息化综合应用型人才严重匮乏
目前,医学信息学是建立在生物医学、信息技术、统计学、管理学等多学科基础上的一门交叉性的学科,在实际中,真正了解并掌握、精通信息科学知识的专业人才非常少。为了真正实现医学信息化并促进多学科的研究与教学,于2009年美国的特拉华大学创立了生物信息学与计算机生物学中心,这一中心集中了来自美国的5个学院的60多名知名教师,并创立了负责多个生物信息学教育的研究项目。纵观我国高校的现状,还尚未成立专门的医学信息专业,或者是生物医学与信息学相交叉的学科专业。在生物医学研究领域中的一些复合型研究人才大部分是由学生自己自学而成的,或者是由不同学科的导师共同培养而成的。这种状况就造成我国医疗信息化应用人才的严重匮乏,并为我国医疗信息化人才的培养带来了阻碍。不过我们坚信,在不久的将来,我国的医学教育界一定会认识到这一问题。
3.信息时代医学信息化的发展前景
3.1 医学信息化正朝着远程医疗与区域医疗的信息化发展
早在上世纪90年代,我国就曾经提出过实现远程医疗的发展,很多偏远地区的医院与大城市中具有实力的综合医院之间建立了远程医疗咨询会与会诊联系,但是由于当时采取的是调制解调器的电话网络或较高成本的卫星传输信息,在实际应用中很难得以实现,因此也就未在全国范围内进行推广。进入信息时代,随着互联网技术的发展与计算机技术的进步,网络音频技术、视频会议技术等在医学界得到广泛的推广,并实现了远程医疗教育,从而推动了我国医学影像信息的异地远程传输,进一步推动了我国的远程医疗发展。随着医学界对信息共享、电子病历等问题的探讨与研究,我国医学信息化逐渐向着区域医疗卫生信息化的方向发展。
3.2 数字化医院是医学信息化发展的必然趋势
目前对于数字化医院的定义至今还尚无定论,从一般意义上来看,它与医学信息化所寓意的实质性内容并不存在本质上的区别。目前,我国以病人为中心的HIS建设还处于初级阶段,虽然已经在很多方面发挥了重大作用,但是还远远不能满足病人、医护人员、管理者实现方便、低廉、高效、安全的就诊环境与模式,因此,数字化医院的发展还需要建立信息化条件下合理的诊疗流程与复合业务的需求。总之,实现数字化医院在研究、开发、应用方面还存在很大的发展空间。
总之,目前我国医疗领域信息化应用还属于起步阶段,还存在一些问题。但是我们坚信,在不远的将来,在我国政策的推动下、在信息科学技术的不断发展下,信息时代医疗信息化的发展将不断深入,将在我国生物医学领域中得到不断地发展与进步。
参考文献
张鹏,中国科学院深圳先进技术研究院转化医学研究与发展中心执行主任,师从我国著名骨科专家戴尅戎院士,主攻类风湿性关节炎发病机理和治疗。
作为知名骨科专家秦岭教授领导的转化医学中心的核心成员,张鹏博士研究团队以骨科炎症性疾病为研究重点,从病因、发病机理、治疗以及康复等方面进行系统研发。以对发病机理的探讨作为基础研究提升水平的基石,以对该类疾病治疗手段的创新以及相关产品或技术的临床应用和产业化作为最高目标,以服务广大骨科患者作为宗旨,正在走一条具有自身特色的骨科转化研发之路。
“老药新用”,攻坚类风湿
张鹏曾在导师戴尅戎院士的指导下,在国际上首次验证了手术悬吊方式刺激迷走神经进而激活“胆碱能抗炎通路”对于RA模型早期炎症发展的抑制作用。研究结果发表在SCI 期刊《Inflammation Research》上。随后该论文陆续被《Nature Review Rheumatology》和《Nature Review Immunology》等高端杂志引用,截至目前该文章已被引用11次。
针对目前全球范围内新药研发遇到“冷冬”的大环境,张鹏课题组联合计算机化学及生物信息学相关的专家,通过计算机辅助药物预测结合目前骨关节炎基础研究中的最新成果,在临床用药中筛选具有治疗RA及骨关节炎等疾病的药物新功效,即“老药新用”在骨关节炎症中的应用。
张鹏曾在《Inflammation Research》、《Therapeutic Advances in Musculoskeletal Disease》、《ScientificWorldJournal》等杂志发表文章,阐述了RA治疗中的“老药新用”策略:以胆碱能受体作为潜在的治疗靶点,通过应用最新的药物靶点检索手段—“蛋白质折叠码”技术,在临床用药中筛选新的抗风湿功效,进而通过临床前实验手段(体外细胞学、动物模型体内)验证其生物学特性,从而提出了一整套基于现代生物信息学最新技术的“老药新用”策略,并在RA治疗中进行具体实施。
目前,基于神经内科用药GTS-21(胆碱能受体激动剂)探讨其治疗RA的研究已经获得国家自然科学基金的支持,进展顺利。该项目是张鹏博士倡导的骨关节炎症“老药新用”策略的具体实施之一。
研究小组基于传统中药在RA治疗中的特殊疗效,从祖国医学理论出发,结合现代药理学的开发,从具有“舒筋活络,祛风除湿”的中药品种中提取若干有效成分,用于对RA疗效的观察。从临床前研究的角度,采用体外细胞及动物模型为研究对象,进行了前期实验。目前已经筛选到了若干有效的中药活性成分,推进下一步的机理研究,最终期望将有活性的成分开发成RA治疗中的疗效确切的药用品种。
本项目应用研发团队核心成员杨家安博士具有自主知识产权的“蛋白质折叠码”技术,可将复杂的蛋白空间三位信息转成具有一维结构的编码,并对药物结合靶点特性以及药物数据库进行扫描比对,具有高效准确的特点。张鹏博士主导联合杨家安博士等核心人员建立了一整套“基础研究靶点—蛋白质折叠码技术扫描分析—临床用药数据库比对筛选—生物学有效性验证”的“老药新用”研发策略体系。
据张鹏介绍,该研究策略在目前原创性化学新药研发遇到巨大挑战的大背景下,可为新药研发提供重要借鉴。“老药新用”的策略可为新药(1.6类新药)的研发提供捷径。由于“老药”已经在临床中广泛应用,在安全性上具有保障,可避免药物上市后因不良反应而“退市”的情况,同时可大大降低药物研发成本及临床用药价格,进而惠及大众。
除此之外,张鹏研究团队对于胶原诱导性关节炎模型(CIA 模型)的创新性发现完善了对该疾病模型的认识。在此项研究中,张鹏发现了先前文献中未作报道的CIA模型发病足爪关节破坏规律以及特殊的组织病理学表现,为全面了解CIA模型发病的特点和规律提供了实验依据。通过放射学和组织学观察,进一步完善了对其发病特点的描述,明确了该模型距下关节以及距舟关节为最早受累足爪关节的发病特点,在组织学观察中发现了相邻关节软骨的“融合”现象,并在“融合”部位发现了新生血管的侵入以及新骨的生成,进而提出了“炎症影响关节软骨的终末分化状态进而启动软骨内骨化”的科学假设,为研究RA发病中关节软骨在骨赘生成中的作用提供了重要的实验支持。相关成果发表在风湿病领域国际SCI期刊《Rheumatology International》 上。
信息论的创始人申农为解决通讯技术中的信息编码问题,提出通讯系统的一般模型,发表了《通信的数学理论》《噪声中的通信》两篇论文,从而奠定了信息论的理论基础。他指出“信息论(狭义的)的基本结果,都是针对某些非常特殊的问题的,它们未必切合像心理学、经济学以及其他一些社会科学领域。”[1]因此,信息论分为广义信息论和狭义信息论。狭义信息论即申农早期的研究成果为主,它以编码理论为中心,主要研究信息系统模型、信息的度量、信息容量、编码理论及噪声理论等。广义信息论又称信息科学,主要研究以计算机处理为中心的信息处理的基本理论,包括评议、文字的处理、图像识别、学习理论及其各种应用。维纳认为“信息既不是物质,也不是能量,信息就是信息,不懂得它,就不懂得唯物主义。[2]”虽然维纳并没有给出信息的确切定义,但却第一次将信息科学映射到哲学问题上。
此后,信息科学的发展冲击了20世纪下半叶以来的哲学思想路线,重新开启了对哲学形而上问题的探讨。虽然从物理角度来说,信息是按照一定的方式排列组合起来的信号序列,它借助于某种介质作为通道来传递、加工和贮存。但是随着现代科学技术的发展,信息科学技术建构起了全新的语言环境、精神环境,“把我们从对事物的直接领悟中顺顺当当地推到由逻辑间隔隔开的世界中[3]”,使“知识源保持着一种抽象的控制论意义下的距离[4]”,从而消解了现实中的语言涵义。而现代人类依靠网络空间高速传播的思想,将世界空间缩小,人们凭借大众传播媒介或个人或组织给予的信息来建构起世界的“脑海图景”,并以此来判断世界并给予回应。正如“洞穴”隐喻一般,真实移动的“实体”不再真实,而意识、信息构筑的世界更“实际”,真实的世界成为“符号的宇宙”。哲学家海姆认为虚拟现实表现为七大特征:模拟性、交互作用、人工性、沉浸性、遥在、全身沉浸和网络通信。正统哲学都是基于客观实在现实性范畴框架内的哲学,客体是意识的容器,在主体和客体之间具有明显界限,而信息科学技术的发展,“电子化”的语言方式可快捷地扫描人的思想,意识的力量在某种程度上得以强化。由此,使我们不得不重新思考信息科学是否揭示并决定着我们对世界的认知和发问方式。
哲学本以人本意识为主,是自觉之自我的最高意识成就,它依赖于社会的发展而发展。在康德建立了系统完善的形而上学之后,尼采宣布了“上帝已死”,海德格尔对“自我”“存在”的考证也对人类自身发展做了完备的总结,维特根斯坦认为“哲学仅余下的任务是语言分析!”,似乎哲学没落到只囿于语言这一狭小领域,但信息科学技术的发展为自我、本体等哲学概念提出了重新思考的空间。信息科学在自身运动、发展的进程中,呈现出自身历史的反映、自身性质的规定、自身发展的种种可能性这三种自在、自为、再生的基本形态,这三种关于事物历史、现状、未来的间接存在凝结在一个具有特定结构和状态的直接存在物中,这种直接存在的结构和状态被凝结着它的间接存在所规定。也即是说,自我、本体等概念被信息科学尤指信息技术、互联网这一间接存在所规定。方东美先生认为:“希腊人把时间的体系化成空间的体系,然后再就时间来看,表面上是有过去、现在、未来的实践连续性,而这个过去、现在、未来,都可以化成现在的影像。换句话说,是把真实现在变成空间化的现在,这样就便于把过去的影像纳入了现在,把未来的影像也以前瞻的方式把它收到现实当中,然后以一个空间化的现在笼罩一切过去现在和未来”[5]。这样一种“了解时间的不重要,才是智慧之门[6]”,因此,哲学关于“我”、“本体”、“存在”等概念的思考由时间、空间的三维方向转向一维的趋向。
此外,分析哲学家卡尔纳普对语义信息的关注,将申农的信息论引向人类领域,认为由于人的选择、接受、记忆的选择性存在,信息本身存在着解读的很大不确定性和可能性,因此有主观与客观、低级与高级、自然与社会信息等之分。生物信息学认为生物信息包括遗传信息、神经――激素信息、代谢信息和人脑信息等多方面。物理学家T.Stonier在《信息物理学》提出的“信息子”认为“有组织就必然有结构,有结构就必然有信息”。在信息N论中,信息不是具有“粒子性”的能够构成世界的“本原”,而是具有演绎性的能够生成世界的“生元”,信息的“生成”特性使世界本体成为一种过程本体,也就成了一个信息集合体。这些在信息论基础上发展起来众多交叉学科,如量子信息学、生物信息学、物理信息学等等,他们都试图从信息主义解释万物缘由的本体论论调,暂且不论对错,但其提供的视角也是一种哲学尝试。虽然信息科学技术在某种程度上剥离了对生命的人文关怀,使其变得些许冰冷,但对一些哲学概念的分析给飘散在浩浩荡荡信息长流中的理论派别提供了一种更深层次、更基础的思维范式,从而推及对人类、宇宙的认识。
(作者单位:四川省社会科学院研究生院)
参考文献:
[1]钟义信.信息科学原理[M].福建人民出版社,1988,26.
宏基因组(Metagenome)是1998年由Handelsman等人正式提出,定义为特定生物环境中全部微生物遗传物质的总和。宏基因组学通过直接从环境样品中提取全部微生物的遗传物质DNA,利用第二代测序技术,得到高通量宏基因组数据,并结合微生物基因组学的研究成果,分析环境样品所包含的全部微生物的群落组成及其结构功能。高通量宏基因组数据在基础微生物学、水体、土壤、农业、医学研究等领域都显示出了重要价值[1]。
1宏基因组学研究方法
宏基因组学的研究方法主要有:环境样本的采集、宏基因组DNA的提取,高通量测序、所得序列的比对检索分析,以及进一步进行微生物物种结构和功能分析。其中,提取DNA要尽可能地提取出样品中所以微生物的基因且保持基因片段的完整,目前的提取方法主要有直接裂解法和细胞提取法。随着第二代测序技术的发展,宏基因组数据呈现出序列短小、通量巨大的特点,一方面蕴含更为丰富的环境微生物遗传物质信息,极大拓展了微生物学研究与应用领域,另一方面也为分析处理带来前所未有的挑战。
2宏基因组学的应用
在短短几年内,高通量宏基因组数据研究已渗透到各个领域,包括基础微生物学、海洋学、土壤学、医学等,并在医药、替代能源、环境修复、生物技术、农业、生物防御及伦理学等各方面显示了重要的价值[2]。
2.1基础微生物学研究
宏基因组为基础微生物学研究打开了新局面,得以快速准确地探测新基因、发现新物种(如未知病原体等)以及准确认识微生物群落的物种构成及其功能结构。由于自然界中大多数微生物物种及其生物量是未知的,其中大量微生物采样困难、培养效率低下,这极大限制了传统微生物学的研究与发展,而高通量宏基因组数据的产生则突破了这一束缚。通过分析高通量宏基因组数据,包括序列比对、De Novo组装、GO分析等等技术,无需经过提纯培养,就能探测新基因、新物种,为微生物环境工程、疾病诊断治疗奠定基础。
2.2海洋学和土壤学研究
海洋和土壤中包含大量微生物,它们与生态环境关系密切。目前通过采用土壤、海水等环境样品,获取高通量宏基因组数据,探测其中微生物的组成及功能分布,能够对导致生态环境变化的因素有更深入的认识。如利用来自海洋石油污染区的微生物高通量宏基因组数据,分析其微生物相对丰度,可以有效探测石油降解细菌及其生态关系网,为污染治理提供新思路。利用来自豆类植物附近土壤测取的宏基因组数据,分析其中固氮菌含量及其关联因素,有助于设计提高豆类产量种植模式。高通量宏基因组数据为认识复杂的微生物群落构成及其功能提供了可能,且必将在研究生物多样性和微生物环境工程中发挥重要作用[3]。
2.3医学研究领域
高通量宏基因组数据在现代医药学中扮演着极其重要的角色,一方面通过疾病样本的宏基因组分析,可以确定病原体或致病基因及其与其他因素之间的关联,为疾病治疗提供可能;另一方面利用宏基因组数据筛选在医药业中具有重要应用价值的基因及其产物,促进医药发展。如利用取自不同牙周炎病况病人口腔高通量宏基因组数据,分析处理得到各样本微生物相对丰度数据,比较不同牙周炎病况下的微生物整体分布情况,揭示出牙周炎与口腔微生物群落的生物多样性和关联网络之间有显著联系。
3结语
随着高通量测序技术的迅猛发展,宏基因组分析已经成为探索自然环境中微生物物种和功能组成的重要手段之一,是研究微生物群落的利器。宏基因组分析手段无需经过复杂严苛的实验室培养过程,直接利用第二代高通量测序技术,快速产生成千上万的自然微生物DNA序列的短读片。但是高通量宏基因组数据也给研究带来挑战。它呈现出序列短小、通量巨大的特点。此外,高通量测序技术的准确率低于传统测序技术,亟需完善的概率统计模型和有效的算法实现[4]。
在应用前景方面,随着组合生物合成技术和纳米技术迅速发展,可以考虑将宏基因组学技术与之结合,利用纳米技术人工合成由宏基因组学的方法探测所得新兴基因,促进天然活性产物的开发及挖掘,进一步促进微生物工程的发展。
参考文献:
[1]许忠能著.生物信息学[M].北京: 清华大学出版社,2009.
其实媒体中广为使用的“首次合成人工生命”之说,并不准确。文特尔的成功之处,在于用化学试剂合成了人工染色体,并在另一微生物中显示出生物功能。DNA是决定生物性状的遗传密码,却不是生命的唯一组成部分。从这个意义上讲,文特尔只不过创造了部分生命。这项研究成果最为直接的意义,是人造的支原体可以利用化学合成的染色体生存繁殖,并导致山羊的乳腺炎。“首次创造生命”之说言之过甚。
事实上,文特尔本人在《科学》杂志上发表的文章题目“首次合成由化学合成基因组控制的细菌”更为客观、严谨。《科学》杂志的相关评论指出,这项研究成果其实并不是首次创造新的生命形式,科学的定义应该是“生命再创造”或“篡改生命”。因为“辛西娅”除了染色组是人工合成外,生命体的其他组分均是来自于已有生命形式。但是无论如何,这项耗资4000万美元的科技成果,毕竟是人类生命科学发展的一大进步。英国《经济学人》将此成果与上个世纪原子弹的诞生相提并论,其意图显然着眼于科技成果对人类的伤害以及对自然界的破坏。
合成生物学是后基因组时代生命科学研究的新兴领域。早在本世纪初,它就已经成为现代生命科学的研究热点,然而真正进入大众视野,还是源于“世界首个人造生命”的新闻事件。
借助合成生物学的研究成果,文特尔仅仅使用四瓶化学试剂就合成了人工生命“辛西娅”,一时间给人以合成生物学便是“造物术”的感觉。科学家认为,合成生物学可以通过合成生物原件组装生物系统,创造新的生命形式。有人就此评论,随着合成生物学的发展,人类可以像组装电路一样组装生命,从此将代替自然扮演“上帝”的角色。
“像组装电路一样组装生命”,只是合成生物学研究思路的形象比喻。合成生物学是建立在基因组学、生物信息学、系统生物学等学科基础之上的现代生物科学,在它的发展过程中借鉴了电子工程的研究思路。但是,实际上细胞内部基因的表达调控、代谢网络如同蜘蛛网一样繁杂精细,往往是牵一发而动全身。功能基因的表达远不像电路板上晶体管开关那样简单,细胞代谢网络的复杂程度也非电路板可比。正因如此,即便在生命科学高度发达的今天,文特尔将已经精简的“最小基因组”移植到掏空遗传物质的支原体体内,实验进展也不是一帆风顺。这也正是人类基因组破译十年后,其研究成果还不能直接应用于医疗的原因。
从科学的意义上说,人工生命的诞生,标志着合成生物学已经可以简单地改造生命,人类从读取基因序列跃升至编码基因的阶段。但合成生物学远没有发展到可以任意创造生命的程度。合成生物学的进一步应用还有赖于系统生物学的长足发展。“任意创造生命”既不是目前合成生物学发展程度所能企及的,也不是发展该学科的最终意义。科学家真正关心的是如何利用改造的生命体为人类服务。
早在上世纪70年代,生物学家就可以利用“DNA重组技术”将长链DNA切割成有功能的基因片段,并把它在模式菌株中表达。如今,无论是原核生物还是真核生物都可以高效地表达异源蛋白,并开始产业化应用。如利用大肠杆菌生产胰岛素,利用动物细胞生产疫苗抗体,利用转基因动物充当生物乳腺反应器。本世纪初,“细胞工厂”的理念逐步深入人心。