본문 바로가기
생물정보학/Tools

[Tool] gnomAD 란? gnomAD vcf 다운로드 방법 및 압축 푸는 방법- gnomAD 활용 방법 - gnomad vcf bgz: unknown suffix -- ignored

by HanJoohyun 2018. 11. 17.
반응형




 


안녕하세요 한주현입니다.

오늘은 gnomAD vcf 다운로드 방법과 압축 푸는 방법에 대해 알아보겠습니다.


목차

0. gnomAD 란?
1. gnomAD vcf 다운로드 방법
2. gnomAD vcf 압축 푸는 방법
3. gnomAD 특징 및 활용



0. gnomAD 란?

  gnomAD (The Genome Aggregation Database) 는 다량의 exome 과 whole genome 시퀀싱 프로젝트를 통해 데이터를 모은 것으로 데이터셋에는 125,748개의 exome과 15,708개의 whole genome 데이터가 있습니다. gnomAD 이전에 exome 데이터로만 데이터베이스를 낸 적이 있는데 ExAC(Exome Aggregation Consortium) 로 알려져있습니다. 다음 그래프를 보시면 얼마나 많고 다양한 데이터로 데이터베이스를 만들었는지 확인할 수 있습니다.





1. gnomAD vcf 다운로드 방법


gnomad 사이트에 가셔서 다운로드 받으시면 됩니다.




저는 주소를 복사해와서 wget 명령어로 다운받았습니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
$ wget https://storage.googleapis.com/gnomad-public/release/2.1/vcf/exomes/gnomad.exomes.r2.1.sites.chrY.vcf.bgz
--2018-11-17 12:16:52--  https://storage.googleapis.com/gnomad-public/release/2.1/vcf/exomes/gnomad.exomes.r2.1.sites.chrY.vcf.bgz
Resolving storage.googleapis.com (storage.googleapis.com)... 172.217.161.482404:6800:4004:801::2010
Connecting to storage.googleapis.com (storage.googleapis.com)|172.217.161.48|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 16554663 (16M) [application/octet-stream]
Saving to: 'gnomad.exomes.r2.1.sites.chrY.vcf.bgz'
 
100%[================================================>16,554,663  8.16MB/s   in 1.9s   
 
2018-11-17 12:16:56 (8.16 MB/s) - 'gnomad.exomes.r2.1.sites.chrY.vcf.bgz' saved [16554663/16554663]
 
$




2. gnomAD vcf 압축 푸는 방법

생긴건 gzip 모양인데

1
2
$ file gnomad.exomes.r2.1.sites.chrY.vcf.bgz 
gnomad.exomes.r2.1.sites.chrY.vcf.bgz: gzip compressed data, extra field


gunzip 으로 안풀립니다.
unknown suffix -- ignored 로 나오네요

1
2
$ gunzip gnomad.exomes.r2.1.sites.chrY.vcf.bgz 
gzip: gnomad.exomes.r2.1.sites.chrY.vcf.bgz: unknown suffix -- ignored

suffix 가 문제라고 하니 bgz 을 gz 으로 바꿔줍시다.

1
2
3
4
5
6
7
8
9
10
$ mv gnomad.exomes.r2.1.sites.chrY.vcf.bgz gnomad.exomes.r2.1.sites.chrY.vcf.gz
 
$ gunzip gnomad.exomes.r2.1.sites.chrY.vcf.gz 
 
$ ll
total 116024
drwxrwxr-x  2 jhan jhan      4096 Nov 17 12:53 ./
drwxrwxr-16 jhan jhan      4096 Nov 17 12:40 ../
-rw-rw-r--  1 jhan jhan 118794853 Oct 13 01:09 gnomad.exomes.r2.1.sites.chrY.vcf

압축 해제 완료!





3. gnomAD 특징 및 활용

- 특징
1. gnomAD 데이터를 build 하는데 사용한 reference는 GRCh37/hg19 입니다.
2. 한국인 데이터 WES 1,909명이 포함되어있습니다.

더 자세한 내용:
https://macarthurlab.org/2018/10/17/gnomad-v2-1/

- 활용
현존 최고의 데이터 베이스 (125,748개의 exome과 15,708개의 whole genome 데이터) 와 대조 및 filter out 하여 novel 한 변이들을 골라 낼 수 있습니다.

인종간의 지도를 그려서 그룹핑을 해 볼 수 있습니다.











기부 버튼을 만들었습니다
단지 $1 의 작은 정성도 저에게는 큰 힘이 됩니다
기부해주신 분들을 기억하며
더 좋은 내용으로 보답해 드리겠습니다 :)

Donate 버튼은 paypal 결제로 paypal 계정이 없으시더라도
카드로도 기부 가능하십니다 :)
Use your credit card or bank account (where available). 옆의 continue 를 누르시면 됩니다

한주현 드림



 




반응형

댓글