본문 바로가기
반응형

2018/034

[VCF] VCF 파일의 DP, AD, MQ 의 의미 안녕하세요 한주현입니다. 오늘은 VCF 파일의 DP, AD, MQ 의 의미에 대해서 알아보겠습니다. VCF파일은 Variant Calling Format 파일의 약자이며 전반적인 파일에 대한 소개는 이전 포스팅인 http://korbillgates.tistory.com/136 - VCF 파일 소개 를 참고해주세요 ㅎㅎ 오늘은 DP, AD, MQ의 의미에 대해 더 자세히 알아보겠습니다. VCF 파일의 컬럼과 FORMAT 컬럼 VCF 파일을 살펴보면 아래와 같이 생겼습니다 ㅎㅎ; 데이터 라인은 아래와 같은 8개 컬럼이 있고 컬럼명 의미 설명 CHROM Chromosome Position의 chromosome 번호를 의미합니다. POS Position Reference 의 Position을 의미합니다. ID .. 2018. 3. 18.
[GATK] VCF란, gVCF란, VCF와 gVCF의 차이점 - Variant Calling Format 설명, genomic VCF 안녕하세요 한주현입니다. 오늘은 GATK의 결과 파일 중 gVCF와 VCF의 차이점과 gVCF가 무엇인지 대해서 알아보겠습니다. 요새 들어 GATK에 대해서 포스팅을 많이 쓰고 있네요 ㅎㅎ;; 워낙 GATK 안에 많은 기능들이 들어있고 개발도 활발히 진행되고 있으며 실제 분석을 진행 할 때도 유용하고 잘 사용하고 있기에 저도 정리 하며 여러분들께 도움이 되려고 포스팅을 남깁니다 :) 간단하지만 VCF가 무엇인지, gVCF가 무엇인지 알아보면 두 포맷간의 차이를 알 수 있겠죠? VCF란? VCF는 Variant Calling Format 의 약자로 Meta 정보가 담긴 라인과 헤더, 그리고 데이터 라인이 있습니다. Meta 정보는 두개의 샾(##), Header는 샾(#) 으로 시작하며 데이터 라인은 탭(.. 2018. 3. 4.
[GATK] UnifiedGenotyper vs. HaplotypeCaller 차이점 - 무엇을 써야 할까요? 안녕하세요 한주현입니다. 오늘은 GATK의 tool 종류 중 variant calling tool인 UnifiedGenotyper 와 HaplotypeCaller 의 차이점에 대해서 알아보겠습니다 최근에 아는 동생이 GATK의 UnifiedGenotyper가 GATK4 버전에서 없어졌다고 하여 그 이유에 대해서 물어왔습니다 ㅎㅎ; 일반적으로 실무에서는 GATK Best Practice 를 기반으로 만든 분석 파이프라인을 사용하는데 variant calling tool로는 UnifiedGenotyper가 아닌 HaplotypeCaller 를 사용하고 있습니다. HaplotypeCaller는 UnifiedGenotyper보다 나중에 개발된 최신 tool로 SNP와 Indel을 동시에 calling 해줍니다... 2018. 3. 3.
[Spark] 빅데이터 분석 Spark IDE WordCountTest.java 오류 해결 - java.net.BindException: Can't assign requested address: Service 'sparkDriver' 안녕하세요 한주현입니다. 오늘은 Apach Spark를 실행 할 때 나오는 오류인 java.net.BindException: Can't assign requested address: Service 'sparkDriver' 에 대해 포스팅 해보겠습니다. ㅎㅎ 스파크를 설치하고 Scala IDE에서 잘 설치가 되었는지 확인차 WordCount.java를 실행해보니 아래와 같이 오류가 발생하였습니다 ..ㅠㅠ 오류 상황java.net.BindException: Can't assign requested address: Service 'sparkDriver' 밑에 줄줄이 여러 오류들이 붙어 있었지만, 가장 의심스러운 오류가 저 문장이었습니다 해결 방법 저의 경우는 /etc/hosts 에 있는 host 와 ${SPA.. 2018. 3. 1.
반응형