遗传解读|如何计算变异的CADD分数

1

什么是CADD？

CADD是Combined Annotation Dependent Depletion的简称，是对人类基因组中单核苷酸变异体以及插入/缺失变异体的有害性进行评分的工具。我们知道有很多不同的注释和评分工具，但大多数注释倾向于给出单一的信息类型（如：保守性）和/或维度上的限制（如：错义突变）。因此，需要一个可广泛适用的度量标准，来客观的衡量和整合不同的信息。CADD可整合来自不同功能注释的信息，将这些信息合并到一个单一的分数[1]。

CADD框架

（A）在训练CADD模型时，首先需要定义两个变量集:代理中立集和代理有害集。代理中性变异的等位基因为在人类中频率为95%-100%,且在推测的人猿基因组中不存在；利用代理中性变异的序列组成来模拟一组新变量的匹配集，即代理有害集。通过使用60多种不同的注释来推导数百个数值模型特征，训练了一个分类模型来区分代理中立集和代理有害集。模型训练后，将拟合模型应用于所有90亿人类参考基因组的潜在SNVs，以计算原始CADD分数，根据这些模型得分的相对排名，可以得到一个PHRED转换表。

（B）用户提供VCF中的变异集，CADD使用这些文件中的染色体、位置、参考等位基因和替代等位基因列。CADD评分可从预先计算的文件中检索，也可注释变量并计算CADD分数。然后在转换表中查找按PHRED调整的分数，并将两个分数返回给用户[2]。

Raw Score与Scaled C Score

CADD分数在输出时会提供两种形式，即“Raw”与“Scaled”。对于一组变异位点，CADD 结合等位基因的多态性，变异的致病性等多个因素，构建了一套模型，对每个变异位点进行评估，并给出一个具体的得分，简称C-Score。统计模型直接给出的打分叫做 Raw Score, 值越高，代表该变异位点是一个有害突变的概率越高。这个值不是绝对的意义单位，对于不同组的变异位点，由于各因素的差异，其模型不同，导致注释组合、训练集和模型参数均不同，所以Raw Score在不同模型间无法直接比较，因此提出了“Scaled”的概念（phred-like scores）。基于所有86亿个变体的Raw Score，将其从大到小排序，采用-10*log10（rank/total）的公式计算出Scaled C-Scores（PHRED），PHRED Scale是将这些值按数量级表示，而不是精确的排名本身。例如，参考基因组单核苷酸变异在CADD分数的10%被分配到CADD-10，前1%分配到CADD-20，前0.1%分配到CADD-30。

2

计算方法

CADD官方网站“https://cadd.gs.washington.edu/”

方法1：在线批量注释
网址：https://cadd.gs.washington.edu/score操作步骤打开网站，上传vcf格式文件，文件要求为：需具有染色体、位置、参考碱基、变异后碱基；文件小于2M；

结果形式：

方法2：在线检索

网址：https://cadd.gs.washington.edu/snv操作步骤：打开网站，输入相关信息：染色体位置、核苷酸变化，点击：lookup variant;

结果如下:

方法3：CADD分数下载

可下载不同版本中各数据集中的CADD Score

3

CADD值如何分析致病性

二代测序技术可检测蛋白编码区的外显子，每个个体大约识别20000个变异，其中只有少数会导致疾病的发生。对变异是良性或有害的判断会使用到一些软件来辅助判断，如polyphen2、SIFT和CADD，这些方法可以用于从二代测序数据中过滤出良性变异，在所有蛋白编码基因中使用截断值。polyphen2、SIFT在软件中有固定截断值，CADD建议固定值为15（或10-20之间）。由于人类基因之间和不同人群之间的医学和人口遗传特征的多样性，全基因组范围内不太可能有准确统一的截断值[3]。同时， Joeri V[4]等人不建议使用单个、任意的截断值，临床医生和实验室不能依赖单一的阈值方法，因为已经有证明表示对于良性和致病性的区分，每个基因的阈值不同。

本帖子中包含更多资源

您需要登录才可以下载或查看，没有帐号？立即注册

x