• 回答数

    0

  • 浏览数

    1028

  • 收藏数

    0

作者:nnjk 发表于 2022-3-3 16:02:58
跳转到指定楼层
1

什么是CADD?


CADD是Combined Annotation Dependent Depletion的简称,是对人类基因组中单核苷酸变异体以及插入/缺失变异体的有害性进行评分的工具。我们知道有很多不同的注释和评分工具,但大多数注释倾向于给出单一的信息类型(如:保守性)和/或维度上的限制(如:错义突变)。因此,需要一个可广泛适用的度量标准,来客观的衡量和整合不同的信息。CADD可整合来自不同功能注释的信息,将这些信息合并到一个单一的分数[1]。

CADD框架


(A)在训练CADD模型时,首先需要定义两个变量集:代理中立集和代理有害集。代理中性变异的等位基因为在人类中频率为95%-100%,且在推测的人猿基因组中不存在;利用代理中性变异的序列组成来模拟一组新变量的匹配集,即代理有害集。通过使用60多种不同的注释来推导数百个数值模型特征,训练了一个分类模型来区分代理中立集和代理有害集。模型训练后,将拟合模型应用于所有90亿人类参考基因组的潜在SNVs,以计算原始CADD分数,根据这些模型得分的相对排名,可以得到一个PHRED转换表。
(B)用户提供VCF中的变异集,CADD使用这些文件中的染色体、位置、参考等位基因和替代等位基因列。CADD评分可从预先计算的文件中检索,也可注释变量并计算CADD分数。然后在转换表中查找按PHRED调整的分数,并将两个分数返回给用户[2]。

Raw ScoreScaled C Score


CADD分数在输出时会提供两种形式,即“Raw”与“Scaled”。对于一组变异位点,CADD 结合等位基因的多态性,变异的致病性等多个因素,构建了一套模型,对每个变异位点进行评估,并给出一个具体的得分,简称C-Score。统计模型直接给出的打分叫做 Raw Score, 值越高,代表该变异位点是一个有害突变的概率越高。这个值不是绝对的意义单位,对于不同组的变异位点,由于各因素的差异,其模型不同,导致注释组合、训练集和模型参数均不同,所以Raw Score在不同模型间无法直接比较,因此提出了“Scaled”的概念(phred-like scores)。基于所有86亿个变体的Raw Score,将其从大到小排序,采用-10*log10(rank/total)的公式计算出Scaled C-Scores(PHRED),PHRED Scale是将这些值按数量级表示,而不是精确的排名本身。例如,参考基因组单核苷酸变异在CADD分数的10%被分配到CADD-10,前1%分配到CADD-20,前0.1%分配到CADD-30。
2

计算方法

CADD官方网站“https://cadd.gs.washington.edu/

方法1:在线批量注释
网址:https://cadd.gs.washington.edu/score操作步骤打开网站,上传vcf格式文件,文件要求为:需具有染色体、位置、参考碱基、变异后碱基;文件小于2M;
结果形式:

方法2:在线检索


网址:https://cadd.gs.washington.edu/snv操作步骤:打开网站,输入相关信息:染色体位置、核苷酸变化,点击:lookup variant;
结果如下:

方法3CADD分数下载


可下载不同版本中各数据集中的CADD Score
3

CADD值如何分析致病性

二代测序技术可检测蛋白编码区的外显子,每个个体大约识别20000个变异,其中只有少数会导致疾病的发生。对变异是良性或有害的判断会使用到一些软件来辅助判断,如polyphen2、SIFT和CADD,这些方法可以用于从二代测序数据中过滤出良性变异,在所有蛋白编码基因中使用截断值。polyphen2、SIFT在软件中有固定截断值,CADD建议固定值为15(或10-20之间)。由于人类基因之间和不同人群之间的医学和人口遗传特征的多样性,全基因组范围内不太可能有准确统一的截断值[3]。同时, Joeri V[4]等人不建议使用单个、任意的截断值,临床医生和实验室不能依赖单一的阈值方法,因为已经有证明表示对于良性和致病性的区分,每个基因的阈值不同。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册 微信登录

x
分享:
回复

使用道具

成为第一个回答人

高级模式 评论
您需要登录后才可以回帖 登录 | 立即注册 微信登录