化学信息学是化学领域中近几年发展起来的一个新的分支,是建立在多学科基础上的交叉学科,利用计算机技术和计算机网络技术,对化学信息进行表示,管理,分析,模拟和传播,以实现化学信息的提取,转化与共享,揭示化学信息的实质与内在联系,促进化学学科的知识创新。
“应用信息技术和信息处理方法已成为药物发现过程中的一个很重要的部分。化学信息学实际上是一种信息源的混合体。它可将数据转换为信息,再由信息转换为知识,从而使我们在药物先导化合物的识别和组织过程的决策变得更有效。”——Brown Medicinal, Chemistry, 1998,33,375-384
研究内容
1、化合物登记(compound registration)。这包括将每一个化合物的立体化学参数,相关光谱数据(如NMR)、纯度数据(如HPLC)、各种生物活性测定数据等各种相关数据动态组合在数据库中。
2、构效关系的研究工具和技术。这包括应用各种软件建立各种构效关系模型,其中使用了各种化学计量学方法(如多元统计回归分析等)。构效关系模型就是关联用数值表征的分子结构与其生物活性间的相关性。传统的QSAR研究是通过自由能将各种独立变量联系起来,即相似性是通过简单的数值来度量的。但是,化学结构之间的相似性度量相对比较复杂,化学结构只有在一定描述的空间中才能被度量和比较。如何描述一个化学分子是相当活跃的研究领域,只有在一个正确有效的描述空间内才有可能客观度量分子之间的相似性和差异性,从而进行有目的的筛选,并得到一个理想的目标分子库。现在很多人在研究通过二维、三维甚至更高维的药效团指纹图谱来表征分子,它与传统的自由能表述完全不同,其效果更为直观,新的描述方法如特征树(feature tree)等也被广泛应用。
3、虚拟数据库组装技术(virtual database assembly)。它通过计算化学方法组合各种基元化学分子结构和片段,虚拟合成大量的候选化合物,然后在这样一个虚拟化合物库中筛选目标 药物分子。上述工作包括采用合适的描述因子和相应的算法进行计算库设计(computational library design)。值得指出,有效的计算库在分子设计中往往起关键作用。遗传算法已成为计算库设计的重要工具,它能对一个虚拟库中各个计算化学性质特性值进行优化,从而最优地接近目标。Crame等对库设计的背景和外延问题作了阐述,Drewry和Young对库设计的各种方法进行了全面的总结。一种基于已知活性片段(对于目标受体)的方法被应用在单体选择中。经验表明,库的设计应建立在产品空间的计算化学特性值基础上,而不是在单体空间中。这需要有效的化合物虚拟合成技术,包括:1.片段标记(fragment marking),2.合成反应模拟技术。合成化学家一般偏爱后一种,但在分子的各片段都已定义好的情况下,使用前者更加快速。杂交系统(hybrid system)也被用来进行库设计。这些方法都需要通过模型计算得到化合物的物理化学性质值。James F Blake[18]对药物的各种性能值,如吸附性、渗透性、水溶性等预测模型进行了评述。
4.数据库挖掘技术(database mining)。这主要是从大量的候选类药分子中寻找出所需要的药物分子,一般通过亚结构(substructure)、2D或3D相似性度量、分子形状(shape)、框架(framework)、药效团等来进行搜索,或者根据受体和配体之间的三维结构进行药物三维空间筛选。挖掘技术的效果既依赖于对目标分子的认识,如分子三维结构、化学特性等;也依赖于挖掘工具,如计算速度等。从一个多维特征描述空间中选择一个子集作为代表集就是所谓分子的虚拟筛选。通过对数据集合的研究,Bayada等得出结论:Ward的二维指纹图谱对于随机选择有最大的改善;但在另一项研究中发现,分割的化学结构(partitioned chemical descriptor)描述空间适用于不同的子集筛选,解决了有关 聚类的技术。Deborah K.等使用回归分类法(recursive partition)进行药物筛选,并将其运用到14 G-protein 双受体检验中。
5、统计方法和技术。统计方法如主成分分析、因子分析等被广泛地用来进行分子描述因子(descriptor)的减维,从而可以更加简单有效地表述分子信息并降低计算的复杂程度。
6.大型数据的可视化表达。在化学信息学的研究中需要对成千上万个分子的构效关系模型进行表达,若通过图表的方式用计算机程序自动地进行数据的过滤和表达有利于分析。
posted on 2010-06-27 20:23
周锐 阅读(343)
评论(0) 编辑 收藏 所属分类:
Chemistry