gatk支持多核吗

发布网友 发布时间:2022-04-21 23:55

我来回答

2个回答

懂视网 时间:2022-04-09 11:05

GATK(Genome Analysis Toolkit)是美国Broad Institute研发的一套检测SNP(SNP calling)的流程。测序后的碱基质量由于测序过程中的物理化学反应和测序仪的瑕疵会导致碱基质量偏离真实情况,为了矫正碱基质量,BaseRecalibrator程序被开发出来。在碱基质量矫正过程中,已知的标准SNP数据库是非常重要的输入文件,例如人类的dbSNP数据库。但如果研究的基因组是一个比较新的物种,没有标准的SNP数据库的话,对碱基指令进行校正是否还可行?答案是仍有必要,这时应该利用现有数据模拟出一个标准SNP数据库来。下面转发GATK网站上的相关描述(原网址:https://software.broadinstitute.org/gatk/documentation/article?id=44)。

I‘m working on a genome that doesn‘t really have a good SNP database yet. I‘m wondering if it still makes sense to run base quality score recalibration without known SNPs.

The base quality score recalibrator treats every reference mismatch as indicative of machine error. True polymorphisms are legitimate mismatches to the reference and shouldn‘t be counted against the quality of a base. We use a database of known polymorphisms to skip over most polymorphic sites. Unfortunately without this information the data becomes almost completely unusable since the quality of the bases will be inferred to be much much lower than it actually is as a result of the reference-mismatching SNP sites.

However, all is not lost if you are willing to experiment a bit. You can bootstrap a database of known SNPs. Here‘s how it works:

  • First do an initial round of SNP calling on your original, unrecalibrated data.
  • Then take the SNPs that you have the highest confidence in and use that set as the database of known SNPs by feeding it as a VCF file to the base quality score recalibrator.
  • Finally, do a real round of SNP calling with the recalibrated data. These steps could be repeated several times until convergence.
  • 问题:我现在正在研究的基因组还没有一个好的SNP数据库,我想知道在没有已知的SNP的数据库的情况下还能否进行碱基质量矫正?

    回答:碱基质量分数矫正器会将每个与参考基因组错配的碱基都视为机器错误。真的多态性位点是合法的错配,因此不应该被算作是碱基质量的错误导致的错配。我们用已知的多态性位点数据库来跳过大部分的多态性位点。不幸的是,如果没有这个信息,数据将会变得完全不可使用,因为碱基的质量分数会被推测为远低于它作为一个与参考基因组错配的SNP位点实际应有的质量分数。

    然而,如果你愿意进行一个实验,碱基质量仍然能够被校正。你可以自己建立一个已知的SNP数据库。步骤如下:

    1.首先对你原始的、没有进行校正的数据进行一遍SNP calling.

    2. 然后选择那些你最有把握的SNP位点作为一个已知的SNP数据库,将其以VCF文件的形式传给碱基质量分数矫正器。

    3.最后,进行一次使用校正数据的、真正的SNP calling。这些步骤可以重复几次直到结果收敛。

    GATK的BaseRecalibration程序在无标准SNP数据库情况下,是否还能进行BaseRecalibration?

    标签:

    热心网友 时间:2022-04-09 08:13

    具体情况具体分析,支持。
    GATK (全称The Genome Analysis Toolkit)是Broad Institute开发的用于二代重测序数据分析的一款软件,是基因分析的工具集。在4.0以后,GATK包含有Picard工具集,所有Picard工具都能够使用GATK完成。
    虽然GATK的功能超级多,但是主要可以归为以下几个方面:
    诊断和质量控制工具(Diagnostics and Quality Control Tools);
    序列数据处理工具(Sequence Data Processing Tools);
    变异位点探索工具(Variant Discovery Tools);
    变异位点评估工具(Variant Evaluation Tools);
    变异位点操作工具(Variant Manipulation Tools)。
    但是根据《认知学习法》,最好的学习方式就是“不要怂,直接上”,找到一个已有流程,先把代码敲上去,然后慢慢理解每一行代码的作用,建立一个模糊的心理表征,然后循序渐进,慢慢学习其他工具,最后就能熟练使用GATK了。

    声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com