본문 바로가기
반응형

VCF18

[Tool] gnomAD 란? gnomAD vcf 다운로드 방법 및 압축 푸는 방법- gnomAD 활용 방법 - gnomad vcf bgz: unknown suffix -- ignored 안녕하세요 한주현입니다. 오늘은 gnomAD vcf 다운로드 방법과 압축 푸는 방법에 대해 알아보겠습니다. 목차 0. gnomAD 란?1. gnomAD vcf 다운로드 방법2. gnomAD vcf 압축 푸는 방법3. gnomAD 특징 및 활용 0. gnomAD 란? gnomAD (The Genome Aggregation Database) 는 다량의 exome 과 whole genome 시퀀싱 프로젝트를 통해 데이터를 모은 것으로 데이터셋에는 125,748개의 exome과 15,708개의 whole genome 데이터가 있습니다. gnomAD 이전에 exome 데이터로만 데이터베이스를 낸 적이 있는데 ExAC(Exome Aggregation Consortium) 로 알려져있습니다. 다음 그래프를 보시면 얼.. 2018. 11. 17.
[생물정보학] VCF에서 snpEff html report의 정보 내용 가져오기 안녕하세요 한주현입니다. 오늘은 VCF 파일에서 snpEff html report의 정보들을 가져오는 방법에 대해 알아보겠습니다. 목차 0. 시작하며1. VCF 파일 파싱 0. 시작하며 블로그를 방문해주신 선생님께서 vcf파일을 snpEff 에 넣어 나오는 html report 의 스탯 뽑는 방법에 대해 문의해주셨습니다. VCF 파일을 파싱하면 되겠군요. 파이썬으로 진행해보겠습니다. 다음 예시에서는 Variants rate details 와 Number variants by type 을 뽑아보겠습니다. 코딩 한 번 해보죠.. ㅋㅋ 1. VCF 파일 파싱 다음과 같이 코드를 만들어봤습니다. VcfParser 의 메서드 부분의 역할을 보시면서 필요한 부분 가져가심 될 것 같습니다. 실행하면 다음과 같이 나옵.. 2018. 11. 16.
[GATK] VCF index 파일 생성 3가지 방법, VCF 인덱스 만들기 - GATK3, GATK4, bgzip, tabix 안녕하세요 한주현입니다. 오늘은 VCF 파일에서 index를 만드는 방법에 대해서 알아보겠습니다. VCF파일은 Variant Calling Format 파일의 약자로 파일에 대한 소개는 아래 링크를 참고해주세요 ㅎㅎ http://korbillgates.tistory.com/136 - VCF 파일 소개 파일 indexing 이란? 파일의 indexing 은 random access를 용이하게 하기 위해 key 값을 만드는 과정입니다. indexing 은 우리말로 색인 이라고도 말합니다. 쉽게 말해 종이 사전을 예시로 들어봅시다 ㅎㅎ.. 우리가 Sea 를 찾는 다고 하면, 종이 사전 옆구리의 알파벳 S쪽을 열어보겠죠? 만약 사전 옆구리의 알파벳이 없다면 찾기가 조금 더 힘들고 시간이 오래 걸릴 것 입니다 ㅎ.. 2018. 4. 10.
[VCF] VCF 파일의 DP, AD, MQ 의 의미 안녕하세요 한주현입니다. 오늘은 VCF 파일의 DP, AD, MQ 의 의미에 대해서 알아보겠습니다. VCF파일은 Variant Calling Format 파일의 약자이며 전반적인 파일에 대한 소개는 이전 포스팅인 http://korbillgates.tistory.com/136 - VCF 파일 소개 를 참고해주세요 ㅎㅎ 오늘은 DP, AD, MQ의 의미에 대해 더 자세히 알아보겠습니다. VCF 파일의 컬럼과 FORMAT 컬럼 VCF 파일을 살펴보면 아래와 같이 생겼습니다 ㅎㅎ; 데이터 라인은 아래와 같은 8개 컬럼이 있고 컬럼명 의미 설명 CHROM Chromosome Position의 chromosome 번호를 의미합니다. POS Position Reference 의 Position을 의미합니다. ID .. 2018. 3. 18.
반응형