中药信息学研究进展

为推进中药现代化的发展，科技部、国家计委、国家经贸委、卫生部、国家药品监督管理局、知识产权局、国家中医药管理局、中国科学院在2002年11月制定了中国第一部中药现代化发展的纲领性文件《中药现代化发展纲要(2002年至2010年)》。此纲要明确提出了一系列中药现代化发展的重点任务，其中包括建立中药数据库和种质资源库，收集中药品种、产地、药效等相关的数据；同时要求加强多学科交叉配合，深入进行中药药效物质基础、作用机理、方剂配伍规律等研究，积极开展中药基因组学、蛋白质组学等的研究。要求重视中医药基础理论的研究与创新，特别是与中药现代化发展密切相关的理论研究，如证候理论、组方理论、药性理论，探索其科学内涵，为中药现代化提供发展源泉[1]。经过5年的实践，科技部、卫生部、国家中医药管理局、国家食品药品监督管理局等16个部门在2007年3月又联合发布了《中医药创新发展规划纲要(2006－2020年)》，确定了“继承，创新，现代化，国际化”作为中医药创新发展的基本任务。新纲要明确定义了中医药泛指中华民族传统医药，包括中医药和民族医药。首次提出了在借鉴现代医药和其他国家传统医药经验的基础上，争取使中医药标准规范成为国际传统医药标准规范的战略目标，并且强调中医药基础数据库和国际化信息库的建设，为适应中医药现代化和国际化发展需求建立创新体系，提高科技支撑能力[2]。
　　
　　在这样的政策背景下，中药信息学研究取得了飞速的发展。中药信息学是以计算机为主要工具，首先对蕴藏着大量中药学、化学、药理学和生物医学信息的文献资料进行分析、归类和整编。这包括将中药的原植物、化学成分、药理作用和传统中医药经验理论中的药材性味、方剂配伍、适应症和药效等信息进行数字化处理，再整合大量随机的生物实验和色谱、光谱数据，然后根据研究课题的需要采用适当的数据挖掘方法分析这些数据，从而迅速提取隐含的有价值信息并挖掘出有逻辑性和规律性的知识。这是新的历史条件下中药信息学(TCM informatics)的主要研究内容，也是现代中医药研究的重要组成部分。

　　1 中药信息学发展的新阶段

　　中药是一个高度复杂的化学物质体系，其复杂性不仅表现在组成方剂的化学成分的复杂性，也体现在方剂与人体相互关系的复杂性。中药通过多途径、多靶点、整体调节的机制发挥药效作用，因此具有系统性特点。长期以来，中药药效物质基础和作用机制研究未能获得根本性突破的重要原因之一是缺乏对中药高度复杂性及系统性进行研究的手段，故如何揭示并系统阐明中药化学物质组成与药效间的复杂关系，是当今中药信息学所面对的严峻挑战。

　　早期建立的中药数据库大多属于功能相对简单的信息查询系统，即通过对疾病、药理作用、中药方剂等数据的互相关联对中药信息进行管理。当用户输入关键字后系统显示出相关的中药复方、功能主治、组成成分等信息，同时能按相关度和功效权重进行量化排序。这样的系统设计实现了中医药信息的存储与共享[3]。实际上，近几年中药信息学研究已经从知识共享阶段来到了知识发现(Knowledge Discovery in Database)阶段[4]，而这个提升过程又是由数据挖掘技术(Data Mining)[5]的应用来实现的。在国家重点基础研究发展计划(973)和国家高技术研究发展计划(863)项目资金的支持下，新建的药学数据库在虚拟筛选和数据分析结果的可视化处理方面有了长足的发展[6-7]。新的中药学数据库与这些先进的技术平台相结合的数据发掘研究，不仅实现了传统中药学的现代化发展，也使中药继续成为国际天然药学研究与新药开发的热点。
　　
　　数据挖掘本身是一门跨学科的技术。事实上，统计学、数据库技术、机器学习、模式识别、人工智能和可视化等技术都在数据挖掘中起着作用[8]。因此，很难定义这些学科和数据挖掘间的界限。这些技术在各自的学科领域内有大量的专著可供参考，此处不再赘述，笔者仅针对数据挖掘技术在中药信息学中的应用作一些介绍。先进分析模型的应用提高了对中医理论、药理作用、植物化学、生物实验数据等不同领域的信息进行多维分析的效率，有助于研究人员准确地进行中药研究选题，从而有效地避免低水平的重复性研究。目前，最常用的数据挖掘方法有：决策树、神经网络、粗糙集、模糊集和遗传算法等[9]。每一种算法都有各自的特点和应用领域，不可能完成所有不同类型的数据挖掘任务。所以，在实际应用中常常采用多种算法相结合对数据进行分析。

　　2 中药信息学研究的新技术、新成果

　　2.1 中药生物活性的虚拟筛选

　　随机森林模型(random forest)是决策树(decision trees)的集成，当作为预测模型使用时它是一种计算条件概率的描述方法。对于处理和组织大量文献数据具有较强的文本分类性能[10]。自组织映射(self-organizing map)是一种类似大脑思维的人工神经网络模型，它通过“无监督学习”将高维度的数据进行处理后再以低维(通常是二维)视图表达分析结果，而且映射图上保留原输入样本空间的拓扑性质。于是，在它输出的语义映射图上性质相似的样本是彼此靠近的，反之则位置相对较远。它的突出优点在于适合任何类型的数据，并能够算出数据样本之间的配对间距，特别是那些非矢量数据。例如，符号序列和有机化学分子结构片段序列等[11]。
　　
　　利用以上算法的特性，Thomas Ehrman等人在英国的King’s College London新建了一个收录240味常用中药的中药信息数据库，并针对这些药材中已知的8 411个化合物通过随机森林模型构建中药学特征档案。所构建的28个随机森林模型各自包含500棵决策树，它们描述了这些化合物在“清热”、“补气”、“止血”等28个功能与主治分类中的附属关系。再使用自组织映射模型将化合物根据中药学特征档案划归入生物碱、多酚、单萜、二萜等10大植物化学分类中，同时采用Ward聚类法生成自组织映射彩色图谱。由此清晰地将10大类天然成分在中药功能与主治分类中的分布直观地表现出来。例如：甾体类生物碱主要在催吐和治痰热的分区中显示阳性信号，原小檗碱(protoberberine)类生物碱在治湿热分区中显示出强相关性，在该分类项中的中药通常用来治疗黄疸、痢疾和皮肤病[12]。由Peter Hylands教授领导的位于伦敦的CNMR天然药物研究中心还利用此中药数据库进行了基于小分子结构相似性的虚拟筛选(Virtual Screening)。采用随机森林模型对具有相同生物活性的小分子进行分析，其中针对HIV-1病毒的剪接酶、蛋白酶和反转录酶3个靶标蛋白的虚拟筛选结果预测多味中药具有对HIV-1病毒的多靶点抑制活性。例如，富含单宁酸类成分的山茱萸、石榴、丁香、地榆以及富含黄酮类化合物的银杏、黄芩、桑叶等[13]。
　　
　　基于分子对接(molecular docking)的虚拟筛选是针对重要疾病的特定靶标生物大分子的三维结构或定量构效关系quantitative structure-activity relationship (QSAR)模型，从现有的小分子数据库中(包括天然药物成分、半合成以及全合成化合物)搜寻可与靶标生物大分子结合或符合QSAR模型的化合物进行计算机虚拟筛选研究。其目的是快速地从多达上百万个分子中，发现有潜在生物活性的化合物。用计算机进行的虚拟筛选大大减少了生物实验筛选的化合物数量，既缩短研究周期，又节约研究经费。虚拟筛选方法主要分为基于配体小分子的虚拟筛选(ligand-based virtual screening， LBVS)和基于受体生物大分子结构的虚拟筛选(structure-based virtual screening，SBVS)。在这个领域应用较多的程序有DOCK、FlexX、GOLD、Glide、ICM、FRED 和AutoDock等[14]。事实证明，虚拟筛选的阳性率(5%～30%)远远高于传统高通量实验筛选的阳性率(0.01%～0.1%)[7]。上海中医药大学与上海药物研究所合作，采用基于分子对接的虚拟筛选技术在ACD(Available Chemicals Directory)化合物库中发现了天然产物金丝桃苷是潜在的感冒229E抗原型冠状病毒3CL蛋白酶的新型抑制剂[15]。

　　2.2 中药材种质资源研究现状
　　
　　国家自然科技资源平台项目“药用植物种质资源标准化整理、整合及共享试点”于2008年4月正式在北京启动，该项目的前期工程“中国药用植物种质资源信息共享系统数据库”经过3年的发展已经初见成效，收集到野生霍山石斛、宽叶型铁皮石斛、黄果西洋参、野生人参等极为珍稀的濒危种质资源。其中野生霍山石斛在国际市场上价格可达到每千克1万美元[16]。

　　现代分子生物学研究发现，中药材(不含矿物药)所依赖的生物资源——“物种”的多样性是其基因多态性的结果，而基因多态性检测可在分子水平上进行，它比在形态、组织和化学水平上的检测更能代表其变异类型的遗传标记。由于DNA分子标记直接分析的是生物的基因型而非表现型，所以鉴别结果不受环境因素、样品形态(原生药、粉状或片状)和材料来源的影响，建立在PCR技术基础上的DNA指纹图谱法可为中药品种鉴别提供更加准确可靠的手段[17]。目前，在药用植物种质资源鉴定、分类、亲缘关系和遗传多样性评价等方面应用较多的DNA分子标记法有RAPD(随机扩增多态DNA)、RFLP(限制性片断长度多态性)、ISSR(简单重复序列区间)、SRAP(序列相关扩增多态性)等[18]，其中RAPD分子标记技术具有简便、高效、灵敏度高、需要模板DNA量少以及容易实现基因型测定的自动化等特点[19]。尤其是该技术可以在不知道待测物种特异DNA序列的情况下检测DNA的多态性(DNA polymorphism)，由于目前绝大多动、植物中药材DNA序列尚不清楚，因此，在植物资源品种研究方面，RAPD标记相对其它分子标记用于构建基因组指纹图谱和种系发生谱的使用率较高。不同产地植物样品的基因组指纹图谱结果通常应用聚类分析算法来构建进化树或种系发生谱(phylogenetic tree)，它通过分支层次或拓扑图形反映出享有共同祖先的一群生物体的系统分类歧异点。这个技术有助于从基因进化的角度挖掘出生物体基因序列与其功能的关系。例如，中国中医科学院中药研究所王瑷琦等人采用RAPD方法对我国二级保护中药杜仲的16个群体、260个个体进行了遗传多样性分析，由Nei’s遗传一致度和除权成组配对法(UPGMA)得到的聚类图清晰地将来自北京、陕西、河南、湖北、四川和贵州的16个群体分为四大类。该实验结果验证了长期形态学和胚胎学研究的结论，表明杜仲种内存在显著的遗传分化，在形式上表现为不同树皮类型、不同有效成分含量等[20]。

　　3 中药信息的更新与维护

　　数据库是需要不断更新与扩充的，对有价值的中药信息不断地收集和整理是保持数据库的有效性、权威性和完整性的必要维护工作。我国中药学巨著《本草纲目》是李时珍在参考了《神农本草经》、南朝齐梁时期的《本草经集注》、唐代的《新修本草》、宋代的《开宝本草》和《嘉佑本草》等历代医药书籍800余部之后写成的。他还坚持深入民间调查，不耻向药农、游医、樵夫、农民、渔民等一切内行人请教，因此《本草纲目》不仅收录前人了解的1 518种药物，还新增了374种。他为纠正古代本草记载中存在的“品种既烦，名称多杂”、“舛谬差讹，遗漏不可枚数”之弊作出了伟大贡献。近几年，作为传统中药的一个重要分支少数民族药物的研究成果正逐渐增多。由于少数民族医药中蕴藏着不少有开发价值的药物，从有民间临床基础的少数民族药物中开发新型药物已成为当前行之有效的新药开发途径。例如，我国藏医药的开发研究已经取得了丰硕的成果。至2003年全国已有14种藏药进入国家药典，有41种藏药材、94种藏成药被列入卫生部首批部颁标准，还有12种藏药被列为国家中药保护品种，13种藏药被列为新药品种[21]。因此，广泛地收集和整理民间草药知识对丰富与完善我国的中药信息数据库具有重大意义。

　　在地方药学专著和植物志中还有大量关于民间药物的信息值得深入发掘。比如鸢尾科(Iridaceae)鸢尾属植物鸢尾(Iris tectorum Maxim.)是作为新增品种“川射干”收载于2005年版《中华人民共和国药典》。在陕西、四川、广东等地民间用它治疗咽喉肿痛、肠道寄生虫、癥瘕积聚、风湿痛等症，它的提取物富含黄酮类、糖苷类以及鸢尾醛型三萜类化合物[22]。最新的研究成果表明，从鸢尾根中提取分离出的新三萜类化合物鸢尾醛A和B(iritectol A和B)具有显著的体外诱导人肺癌细胞(COR-L23)凋亡的作用[23]。实际上，我国民间使用的鸢尾科药材种类非常丰富，除了射干属射干[Belamcanda chinensis (L.)DC.]、番红花属番红花(Crocus sativus L.)等常用中药，在《中国中药资源志要》中收载的仅鸢尾属(Iris)药用植物就达到30种。因此，中药研究人员有必要与各地区少数民族药学专家保持广泛的联系，对有明确记载的少数民族常用中药进行调查与收集。对于文献记载不详或易混肴的药材甚至应当走访民间“赤脚”医生进行实地考察。这样做不仅有助于及时补充与完善中药学信息，也有利于纠正某些具有毒副作用的药材在民间的误用，甚至可能发现民间对某些有毒中药材进行去毒的特殊炮制方法。例如，天南星科植物半夏Pinellia ternate (P.tuberifera)是有毒植物，始载于《神农本草经》，列为下品而且没有记载炮制方法。《中华人民共和国药典》2005版除了介绍生半夏以外只提到了清半夏、姜半夏和法半夏3种炮制方法。实际上，经过民间广泛使用和历代不断的发展，目前能够查到的半夏炮制方法就有70多种[24]。

　　我国对民族医药有保密制度。开发人员在数据库内容的使用权限上应设置不同的等级，从而达到保护民族医药知识产权的目的。例如：初级用户只能对药典里和期刊上发表的有限信息进行检索；中级用户为国家重点科研院所，可以使用所有数据库资源并进行虚拟筛选等高级分析工作；最高级用户为数据库的构建、管理和维护机构，如科技部、国家食品药品监督管理局、知识产权局、国家中医药管理局、中国科学院等单位能够使用和升级整个数据库系统。用户的帐户管理可以采用绑定IP或动态密码技术。

　　4 中药信息学资源的拓展

　　中医中药是中华民族在长期实践中积累和发展起来的伟大文化遗产，也是人类利用天然产物祛病强身的典范。它的长期传承和广泛应用不仅由于它是集体智慧的结晶，也是通过人们对它不断总结、扩充与完善而实现的。因此，我们目前所进行的中药信息学研究也不能拘泥自己过去的传统文化，而应当谦虚谨慎地收集和学习其他民族的传统医学和现代天然药物的研究成果，本着“拿来主义”的原则兼收并蓄地发展中药学。

　　日本研究人员在这方面做的工作很多。中药在日本称为“汉方药”，是在秦汉时期由中国传入日本，与中医学属于同根同源。不过，现代日本汉方已经形成了独自的体系。理论上以《伤寒论》为框架并且高度简化，重视古方方证。日本已经建立的中医药信息系统和数据库主要分为两大类。一类是以文献为导向的多数据库信息系统；另一类是专家辅助诊断系统，主要有两个临床应用中医软件包：“超级张仲景”和“双方集解”，以及在此基础上建立的中医索引数据库。除此以外，他们还把中国、日本、韩国发表的一些中医文献编成联合目录[25]。为适应社会日益增长的中医药市场需求，日本文部省从2006年起要求《中医学概论》作为日本医生临床考试内容之一，并规定从2008年开始纳入日本医生资格考试的试题范围[26]。

免费论文下载中心 http://www.hi138.com

　　与日本的“汉方药”相似，韩国、泰国、越南和印度等国的传统医药与中药有着不同程度的亲缘关系。这正是由于长期以来民间的相互学习和交流形成的，可谓“他山之石，可以攻玉”。爵床科植物穿心莲 Andrographis paniculata (Burm.f.)Nees是常用中药，有个别名为“印度草”[27]。它原产于印度、斯里兰卡、巴基斯坦、缅甸、印度尼西亚、泰国、越南等国。在印度用作苦补健胃药，载于1954年《印度药典》。我国于20世纪50年代在广东、福建南部民间有引种栽培，用于治疗多种感染性疾病及毒蛇咬伤，成为华南地区民间草药。多年来，我国各地对穿心莲的栽培、化学成分、药理及临床方面进行了深入的研究，并且正式将它收载于1985年版的《中华人民共和国药典》(一部)中。经过多年的不断发展，我国已开发了穿心莲的多种制剂，目前临床上普遍应用的就有穿琥宁注射液、莲必治注射液、穿心莲片、清火栀麦胶囊等。实际上，印度的传统医药历史悠久，早在公元前6 000年印度人就开始使用传统药物。在印度次大陆广泛传播的阿育吠陀医学(Ayurveda)也可译为草药治疗法，它是印度传统医学的研究重点。印度最早的医学专著阿育吠陀经《Charka Samhita》出版于大约公元前500年，以植物为主记载了600种药物。发展至今印度用于保健和医疗的传统植物达到7 500余种[28]。由此可见，与中药同源的传统印度药物的信息也应当属于中药信息学的研究对象。

　　从以上事实不难看出，中药信息学的国际化拓展是不可避免的发展趋势。随着中国综合国力的提高，药学、化学和计算机等多项科学技术领域的发展已经步入世界前列。近几年，我国研究人员的中药研究成果也越来越多地发表于欧洲国家和美国主办的民族药学、植物化学、生物医学、农业与食品化学、光谱与色谱技术等专业领域的英文期刊。中医中药作为传统医学的典范，它的学术价值和地位正逐渐被国际社会普遍接受。为保障中国人研究制定的传统医药标准规范在国际上占有权威地位，我们有必要适当拓展中药信息学的资源，实现“海纳百川，有容乃大”。

　　5 中药信息维护时需要注意的问题

　　我们在中药学信息资源的建设过程中除了将中医药相关的资料数字化，研究人员还应当注意相关学科领域的研究与发展，尽量使中药学数据库的内容与相关学科的知识做到同步更新。通过对它的内容进行及时的维护来保证它的完整性、权威性、实效性。

　　首先，药材原植物名称的误用或不一致仍然广泛存在。最近30年出版的如《中华人民共和国药典》和《中药大辞典》等已经统一了大部分较常用药材的中文命名并且列出多个曾用名(中文异名)。然而，我国科技期刊中涉及物种拉丁学名的表述往往差错率很高[29]。从另一方面讲，国际上对某些植物的系统分类和命名也经历着改革。通常植物的拉丁学名采用林奈创立的双名制，但少数具有亚种、变种(或杂种)的植物会有三字名(栽培植物有专门的命名法规)。对于不符合命名法规的名称，由于历史上惯用已久，经国际植物学会议讨论通过可以作为保留名使用。例如：某些科名的拉丁词尾不是-aceae却仍然被广泛使用，如豆科Leguminosae(现用名Fabaceae)；十字花科Cruciferae (Brassicaceae)；菊科Compositae (Asteraceae)等。自1866年巴黎(第一次)国际植物学会议开始，每4～5年要对“国际植物命名法规”(International Code of Botanical Nomenclature)进行一次修改与补充[30]。它规定了一个植物只能有一个(双名制的)拉丁名。若对同一种植物有两个或两个以上学名发表时，只有最早的符合命名法规的属、种名才是合法名称，其他名称为异名(synonym)。于是，一些科属植物的拉丁学名在不同时代发表的文献中往往不一致。这对于不了解植物分类学的读者很容易感到迷惑。因此，对于一些存在多个异名的药材原植物，应当引用最新版国际植物命名法规认可的拉丁名作为正名。温中降逆中药丁香的原植物拉丁名的沿革就是这类问题的突出代表。在植物分类和命名系统研究的发展过程中，桃金娘科(Myrtaceae)植物丁香的正确拉丁名自18世纪中叶至21世纪的200多年里长期存在着争议。经调查，植物学家们曾经基于不同的植物分类系统对丁香发表了7个拉丁名：Caryophyllus aromaticus Linn.、Eugenia caryophyllata Thunb.、Myrtus caryophullus Sprengel、Eugenia aromatica (Linn.) Baillon、Jambosa caryophyllus (Sprengel) Niedenzu、Syzygium aromaticum (Linn.) Merrill et Perry、Eugenia caryophyllus (Sprengel) Bullock et Harrison[31]，根据2006版国际植物命名法规，我们应当使用 Syzygium aromaticum 作为正名。值得注意的是，2005年版《中华人民共和国药典》(一部)和《中药大辞典》[32]中的相关词条仍然把异名Eugenia caryophyllata Thunb.作为丁香的拉丁正名。
　　
　　其次，详尽而丰富的原植物信息有助于调查不同国家地区、不同时代的民间用药，实现优质、道地中药材资源的开发与可持续发展。因此，中药学信息数据库中也应当收载药源植物的拉丁曾用名或异名，以便用户追溯早期的(甚至是用不同语言撰写的)文献资料。例如，消肿解毒中药三白草(Saururus chinensis Baill.)可查到的异名有4个：Saururopsis chinensis Turcz.、Saururus cernuus Thunb.、Saururus loureiroi Decne.、Spathium chinense Lour.。然而，在常用中草药专著《现代中药学大辞典》[33]、《新编中药志》[34]、《中药现代研究荟萃》[35]、2005年版《中华人民共和国药典》(一部)的词条中均未收载三白草的拉丁异名。稍后出版的由南京中医药大学编著的《中药大辞典》[32]也仅仅收载了一个异名Spathium chinense Lour.。

　　类似的问题还体现在药材成分描述的确凿性上。一些中文文献和数据库仅仅列出中药化学成分的中文名或译名，有的写出相应的英文名却没有CAS代码和分子结构图。毕竟化合物中也有异物同名和同物异名的现象，特别是有些异构体和早期发现的含多个手性碳的化合物，它们的类似物较多而且往往命名含糊，分子结构图是最直观的表示方法。例如：从Alpinia calcarata Roscoe(山姜属，距花山姜)中先后分离出的两个二萜类化合物1和2都被命名为calcaratarin D[36-37]。而化合物3在历史上却有多个命名，包括：7-Ο-methylaromadendrin[38]、7-Methyl-aromadenin[39]、(2R，3R)-7-methoxy-3，5，4’-trihydroxyflavanone[40]和3，5- dihydroxy-2-(4-hydroxy-phenyl)-7-methoxy-chroman-4-one[41]其实指的是同一个7-Ο-甲基香橙素(CAS代码为35815-06-6和37971-69-0)，只不过被先后从Eupatorium capillifolium[41] (泽兰属植物)、Artemisia dracunculus[42](龙蒿)、Inula viscosa[41](黏迪里菊，现用名Dittrichia viscosa)等近10种不同的植物中分离出来。由于Beilstein和Combined Chemical Dictionary等大型化学数据库所记录的化合物全有结构图和对应的CAS代码，这就为文献调查工作提供了便利。科研人员不必担心由于文献中的同物异名或同名异物问题造成的遗漏或误导。采用国际上统一的CAS代码作为化学成分的标准ID也使用户可以针对同一成分进行多库检索。这是我们开发和升级中药信息数据库时值得借鉴的。