搜尋
  • Prisma_J

DRAGEN-GATK的重磅合作

2020.9.30 BROAD institue辦了一場關於11月份要開源的DRAGEN-GATK流程演講

下面是一些值得注意的亮點


illumina跟GATK的合作

GATK: 是BROAD Institue開發演算法,在生物資訊社群中漸漸變成共識分析流程,給生物資訊學者建立起典範實務流程,同時也藉由開源的力量,讓更多學者參與開發


DRAGEN: 是定序廠商illumina所併購的硬體加速生物資訊解決方案,其硬體加速技術是藉由FPGA[Field Programmable Gate Array]提供專注生物資訊的演算設備,除FPGA外,Mapper優化也是其技術亮點


2020合作


1. 在功能性驗證一致

  • 雖然DRAGEN跟GATK演算法上不是完全一致,但功能是一致的

2. DREAGEN會開源其DRAGMAP(Mapper/aligner )

3. Broad會利用DRAGMAP取代 BWA

4. 開源DRAGEN-GATK 流程


2021+合作

1. 其他二級分析工具例如CNV SV


DRAGEN-GATK 及 DRAGEN 功能一致

在Mapper/Aligne部分及Variant caller功能一致


Mapper差異

過去GATK搭配BWA作為mapper已經是學界共識

而DRAGMAP表現如何?


經過比較後,在序列註解與BWA一致,在變異判讀精準度上一致

而DRAGMAP可以用硬體加速,一個WGS只需要8分鐘完成Mapping


GATK後續選擇DRAGMAP是因為演算法上跟BWA沒有太大差異但提供更多功能及好處


DRAGMAP好處

好處1. 更多輸入資料,包含illumina收購的壓縮演算法

好處2. 在Alternate-locus sequence上比對效果更好

補充1:HG38版本基因體上多了Alternate-locus sequence,這些都是Genome上比較複雜的區域例如MHC區域,此外DRAGEN在PrecisionFDA Truth Challenge中就是這方面的處裡比其他參賽者用心,提升了準確率
補充2:DRAGMAP有特別優化在193個臨床相關的區域例如CYP2D6等基因

好處3. 允許參考序列是IUB code

好處4. 通常RNAseq的aligner不適用BWA,而DRAGMAP適用RNAseq

好處5. 支援甲基化短序列比對

好處6. PolyG及FastQC處理

好處7. 可以支援UMI,可以支援各式各樣UMI建庫方式

補充:不管是隨機或不隨機的UMI建庫方式都可以支援


Small Variant Caller 的改進

1. 在STR附近INDEL error model

PCR產生的STR變異(結巴變異),過去在比對上可能會有stranded-bias,只能事後在BAM上才會發現這個假陽性。新的caller在原本的HMM模型上考慮STR週期和長度參數及stranded-bias,可以更準確地撈回偽陰並忽略偽陽性結果


2. 檢測相關的pileup誤差可提高基因分型的準確性

過去變異判讀演算法是基於定序錯誤是隨機出現在讀序中的假說進行開發,事實上特定locus上的錯誤率是高的。GATK團隊的新演算法考慮這個誤差並引入新的Genotyping quality模型,原理是根據此類錯誤判讀的性質作為參數(例如:Strand bias.... 等等),可提升正確率及降低錯誤率


3. 對於外來DNA偵測

有時候外來DNA會造成特定區間深度過高導致偽陽性,例如大量細菌DNA仍會貼回宿主基因體上。幸好這些外來DNA有一些特質,GATK團隊利用這些特質開發Foreign reads detection演算法避免外來DNA造成的SNV

↑ SNV分析在新舊演算法及不同建庫上的精準度變化


↑ Indel分析在新舊演算法及不同建庫上的精準度變化


DRAGEN-GATK 最佳實踐流程


更動部分:Aligner改採DRAGMAP 並省略BQSR流程


我認為重要的差異

Mapping改用更快的alingerDRAGMAP,

雖然兩個演算法不同,但BWA跟DRAGMAP的原理差異不大

在Variat calling部分差異也不大


而Variant Caller部分,新的Caller可以解決STR Stuttering, 排除外來微生物DNA訊號及引入新的統計模型提升Variant Calling 品質


提問:

1. DRAGEN 亮點

  • Mapping速度加快 90%, Variant calling 加快30~40%

2. DRAGEN-GATK 可以mutation burden嗎?

  • 這版本不支援Somatic mutation,但腫瘤應用會是未來合作方向

3. DRAGEN-GATK 是否可以支援TS500在 NextSeq2000分析嗎?

  • 當前版本辦不到,這也是未來開發方向

6. Slide上都寫研究使用,DRAGEN-GATK是否可以在臨床使用

  • Slide上的敘述是為了符合法規,事實上Broad在研究及臨床上已經很常使用GATK的工具

  • illumina在軟/硬體上已有IVD設備,DRAGEN也有IVD的計畫

7. 機構內的HPC可以來跑開源的DRAGEN-GATK流程嗎?

  • 可以的,但最好還是有DRAGEN最好,這才符合他們開發的精神



對illumina旗下的DRAGEN bio IT有興趣的朋友歡迎跟瑞林生技聯絡,我們可以一起討論怎麼應用DRAGEN加速實驗室的資訊系統或者部屬在既有的HPC框架



資料來源:

1.DRAGEN-GATK 2.DRAGEN-GATK-Update-Let-s-get-more-specific

3.DRAGEN-GATK-update-Upcoming-webinar-and-pipeline-release-timeframe

4. 2020.9.30 Webniar : DRAGEN-GATK Best Practices: A Deep Dive into Genomic Analysis Pipeline Improvements



Ⓒ 2020 BY PRISMA BIOTECH. ALL RIGHTS RESERVED.

瑞林生物科技股份有限公司

​Prisma Biotech Corporation