搜尋
  • Prisma_J

DRAGEN上GRCh37參考序列版本的差別

最近有人問GRCh37有這麼多版本差別在哪裡

目前Basespace DRAGEN上有提供三個版本的GRCh37

分別是hg19 / GRCh37 / GRCh37 hs37d5

起因

這是因為不同組織整理的時間不同,對於序列品質標準也不同,一部分是當時參考序列沒有實質上的完全解碼,因此未解出的contig上解讀就不同。


而GRCh38版就是解碼程度比較完整的版本,hg38就等於GRCh38,在DRAGEN上GRCh38版本只有HLA序列有無的差別。鑒於如此,本篇主要敘述GRCh37版本的差異


GRCh37/hg19 /GRCh37 hs37d5差異

GATK論壇上有GRCh38版本的差異釋疑[1],裡面有提到版本差異。


GRCh37版本

GRCh37版本是Genome Reference Consortium Human Build 37,是人類參考序列組織所整理的參考序列版本,也是最早的版本,之後Ensembl也是基於這個參考序列。


上圖為Ensembl GRCh37上截圖


要注意Ensembl的參考序列沒有加上"chr"使用上要小心,例如BED檔上的chr要先處理。


hg19版本

hg19是University of California at Santa Cruz (UCSC)整理的,因他們的Genome Browser是當時最好用的軟體,hg19版本廣為流傳。

hg19版本是UCSC基於GRCh37版本,更動某些contig名稱,因此除核心染色體外其他contig的編碼跟GRCh37不同。


上圖為DRAGEN上hg19核心染色體名稱截圖


至於實際內容呢? 有沒有分析上更細節的差異呢?

GATK論壇中有製作一個表格提到兩個版本的差別[1]

差異大部分存在非核心染色體的Contig上。


大部分核心染色體都沒有差別,有相同MD5碼。


而在文中討論了四種版本參考序列,主要染色體的差異在染色體3號,染色體Y,及粒線體有差異。

在Basespace上的DRAGEN中只有GRCh37及hg19,這兩個版本在主要染色體上只有粒線體上有差異。


兩個版本粒線體差異

粒線體版本在hg19採用NC_001807.4; 而GRCh37採NC_012920.1

這兩個版本有超過40個位點不同。



上圖是將兩組粒線體版本做Pair-wise blast的結果,我們可以看到identities上有42個差異。


GRCh37 hs37d5

至於DRAGEN上GRCh27 hs37d5是1kGenome計畫所使用的參考序列

其基於GRCh37版本修改的版本。

1. Integrated reference sequence from the GRCh37 primary assembly (chromosomal plus unlocalized and unplaced contigs)

2. The rCRS mitochondrial sequence (AC:NC_012920)

3. Human herpesvirus 4 type 1 (AC:NC_007605)

4. Concatenated decoy sequences (hs37d5cs.fa.gz)


GRCh37 hs37d5核心染色體與hg19/GRCh37沒有差異,差異只有在decoy序列及粒線體序列


甚麼是decoy序列

在hg19,hg38版本中都有decoy序列,decoy序列是定序中常出現的序列,而這些序列並不是人類參考序列的一部分,舉一個例子是EBV病毒序列,這個病毒常常出現在定序的原始資料中[2]。


decoy是誘餌的意思,誘餌序列是為了增加分析的正確性,因為Alignment演算法在某種程度上仍會窮盡搜尋結果找出最好的結果,這些外來DNA會被強迫比對到基因體上,加入誘餌序列可以讓這些外來DNA不會比對到核心基因體上,另外一個隨之而來的好處,因為Alignment也會因為找出最佳解提前結束搜索,加入decoy序列可以加速比對時間。


維持一個染色體版本固定使用就好

因為這幾個版本的參考列在23條染色體上沒有差異,差異在decoly序列上,這樣的差異會讓某些序列回貼到不同的decoly參考序列上,如果你是研究粒線體疾病,可能差別會更大,而許多三級分析軟體看染色體編號是ChrM或MT就能辨識差異,在三級分析解決這個問題,因此我們了解了參考序列的差異後,就可以根據自己的研究目標挑選參考序列,接下來就是確定一個染色體版本並固定使用那個版本就好。


Reference:

1. https://gatk.broadinstitute.org/hc/en-us/articles/360035890711-GRCh37-hg19-b37-humanG1Kv37-Human-Reference-Discrepancies

2. https://kb.10xgenomics.com/hc/en-us/articles/360001610751-Is-it-important-to-use-the-hs38d1-decoy-in-Long-Ranger-WGS-