본문 바로가기
반응형

생물정보학/Tools43

[GATK] DepthOfCoverage 란? Depth of coverage의 soft clip 처리. Depth of coverage 분석 방법 안녕하세요 한주현입니다. 오늘은 GATK의 툴 중 하나인 DepthOfCoverage 에 대해 알아보고, Soft Clip을 처리하는 방식과 DepthOfCoverage 의 command line에 대해 알아보겠습니다. Depth Of Coverage 란? DepthOfCoverage 는 GATK 의 Tool 중의 하나로, 말 그대로 Coverage의 Depth를 계산해줍니다. 아래 그림은 Reference genome에 mapping 된 read들을 표현한 그림입니다. 100bp 가 되는 12개의 read들이 reference sequence에 맞게 mapping 된것인데요, 왼쪽의 covered region의 길이가 350bp라고 해봅시다. mapping된 read는 총 1,200bp 이며, 계산식에.. 2018. 5. 16.
[GATK] VCF index 파일 생성 3가지 방법, VCF 인덱스 만들기 - GATK3, GATK4, bgzip, tabix 안녕하세요 한주현입니다. 오늘은 VCF 파일에서 index를 만드는 방법에 대해서 알아보겠습니다. VCF파일은 Variant Calling Format 파일의 약자로 파일에 대한 소개는 아래 링크를 참고해주세요 ㅎㅎ http://korbillgates.tistory.com/136 - VCF 파일 소개 파일 indexing 이란? 파일의 indexing 은 random access를 용이하게 하기 위해 key 값을 만드는 과정입니다. indexing 은 우리말로 색인 이라고도 말합니다. 쉽게 말해 종이 사전을 예시로 들어봅시다 ㅎㅎ.. 우리가 Sea 를 찾는 다고 하면, 종이 사전 옆구리의 알파벳 S쪽을 열어보겠죠? 만약 사전 옆구리의 알파벳이 없다면 찾기가 조금 더 힘들고 시간이 오래 걸릴 것 입니다 ㅎ.. 2018. 4. 10.
[VCF] VCF 파일의 DP, AD, MQ 의 의미 안녕하세요 한주현입니다. 오늘은 VCF 파일의 DP, AD, MQ 의 의미에 대해서 알아보겠습니다. VCF파일은 Variant Calling Format 파일의 약자이며 전반적인 파일에 대한 소개는 이전 포스팅인 http://korbillgates.tistory.com/136 - VCF 파일 소개 를 참고해주세요 ㅎㅎ 오늘은 DP, AD, MQ의 의미에 대해 더 자세히 알아보겠습니다. VCF 파일의 컬럼과 FORMAT 컬럼 VCF 파일을 살펴보면 아래와 같이 생겼습니다 ㅎㅎ; 데이터 라인은 아래와 같은 8개 컬럼이 있고 컬럼명 의미 설명 CHROM Chromosome Position의 chromosome 번호를 의미합니다. POS Position Reference 의 Position을 의미합니다. ID .. 2018. 3. 18.
[GATK] VCF란, gVCF란, VCF와 gVCF의 차이점 - Variant Calling Format 설명, genomic VCF 안녕하세요 한주현입니다. 오늘은 GATK의 결과 파일 중 gVCF와 VCF의 차이점과 gVCF가 무엇인지 대해서 알아보겠습니다. 요새 들어 GATK에 대해서 포스팅을 많이 쓰고 있네요 ㅎㅎ;; 워낙 GATK 안에 많은 기능들이 들어있고 개발도 활발히 진행되고 있으며 실제 분석을 진행 할 때도 유용하고 잘 사용하고 있기에 저도 정리 하며 여러분들께 도움이 되려고 포스팅을 남깁니다 :) 간단하지만 VCF가 무엇인지, gVCF가 무엇인지 알아보면 두 포맷간의 차이를 알 수 있겠죠? VCF란? VCF는 Variant Calling Format 의 약자로 Meta 정보가 담긴 라인과 헤더, 그리고 데이터 라인이 있습니다. Meta 정보는 두개의 샾(##), Header는 샾(#) 으로 시작하며 데이터 라인은 탭(.. 2018. 3. 4.
반응형