본문 바로가기
반응형

생물정보학90

[GATK] VCF란, gVCF란, VCF와 gVCF의 차이점 - Variant Calling Format 설명, genomic VCF 안녕하세요 한주현입니다. 오늘은 GATK의 결과 파일 중 gVCF와 VCF의 차이점과 gVCF가 무엇인지 대해서 알아보겠습니다. 요새 들어 GATK에 대해서 포스팅을 많이 쓰고 있네요 ㅎㅎ;; 워낙 GATK 안에 많은 기능들이 들어있고 개발도 활발히 진행되고 있으며 실제 분석을 진행 할 때도 유용하고 잘 사용하고 있기에 저도 정리 하며 여러분들께 도움이 되려고 포스팅을 남깁니다 :) 간단하지만 VCF가 무엇인지, gVCF가 무엇인지 알아보면 두 포맷간의 차이를 알 수 있겠죠? VCF란? VCF는 Variant Calling Format 의 약자로 Meta 정보가 담긴 라인과 헤더, 그리고 데이터 라인이 있습니다. Meta 정보는 두개의 샾(##), Header는 샾(#) 으로 시작하며 데이터 라인은 탭(.. 2018. 3. 4.
[GATK] UnifiedGenotyper vs. HaplotypeCaller 차이점 - 무엇을 써야 할까요? 안녕하세요 한주현입니다. 오늘은 GATK의 tool 종류 중 variant calling tool인 UnifiedGenotyper 와 HaplotypeCaller 의 차이점에 대해서 알아보겠습니다 최근에 아는 동생이 GATK의 UnifiedGenotyper가 GATK4 버전에서 없어졌다고 하여 그 이유에 대해서 물어왔습니다 ㅎㅎ; 일반적으로 실무에서는 GATK Best Practice 를 기반으로 만든 분석 파이프라인을 사용하는데 variant calling tool로는 UnifiedGenotyper가 아닌 HaplotypeCaller 를 사용하고 있습니다. HaplotypeCaller는 UnifiedGenotyper보다 나중에 개발된 최신 tool로 SNP와 Indel을 동시에 calling 해줍니다... 2018. 3. 3.
[GATK] GATK4 - Google Cloud - FireCloud 5달러 분석시대 안녕하세요 한주현입니다. 오늘은 GATK4의 새로운 소식에 대해 포스팅 해보겠습니다. ㅎㅎ WGS 30x 를 GATK Best Practice Pipeline로 분석하는 비용이 5달라..? GATK 포럼에 다음과 같은 포스팅이 올라왔습니다 ㅎㅎ.. https://software.broadinstitute.org/gatk/blog?id=11415 30x depth의 WGS(Whole Genome Sequencing)를 분석하는데 사용되는 computing 자원이 5달러 (약 5,300원) 면 분석이 가능하다는 얘기입니다! 개발한 파이프 라인은 Unmapped Read인 uBAM단계에서 부터 VCF까지 분석해주는 것을 얘기 하는 것인데요 아래와 같습니다 데이터 분석가의 입장에서 관심이 가지 않을 수 없는 포.. 2018. 2. 26.
UCSC blat 사용법 - command line blat stand alone 사용법 안녕하세요 한주현 입니다 오늘은 UCSC BLAT과 사용법에 대해 알아보겠습니다. BLAT 이란? blat은 BLAST-like alignment tool로 UCSC에서 개발한 pairwise sequence alignment tool 입니다 DNA, RNA 또는 Protein sequence를 입력하고 실행을 하게 되면 입력하신 sequence의 위치와 reference sequence와의 match/mismatch를 알려줍니다. 놀라운 점은 사용법이 너무나도 간편하다는 점인데요,간단하게 웹에서 sequence query를 넣고 submit을 누르시면 바로 나오게 됩니다 ㅎㅎ만약 보고싶은 서열의 개수가 많은 경우 command line에서도 실행 가능하다는 점입니다 웹과 커맨드라인 두 가지 방법에 대해.. 2018. 2. 4.
반응형