반응형
안녕하세요
한주현입니다
생물정보학 코딩 연습과 파일 형식을 익히기 위한 포스팅 세 번째 시간입니다
오늘은 VCF를 활용한 생물정보학 문제를 포스팅하겠습니다
문항) VCF 파일에서 Variant 개수 count 하기
VCF (Variant Calling Format) 파일은 텍스트 형식의 파일로 meta-information lines, Header, data lines 로 구성되어있습니다
이번 문항에서는 VCF에서 variant의 개수를 세어보겠습니다.
샾(#) 으로 시작하는 Meta-information 과 Header Line을 제외한 line의 개수를 세어보면 variants의 개수가 나오게 됩니다.
주의!
위의 예시 VCF에서 세 번째 data line (chr20 1110696) 에서 5번째 컬럼인 ALT를 보겠습니다.
ALT는 Alternate base(s)로 sequencer에서 읽어낸 base가 REF와 다를 경우 나타납니다.
이 위치에서 ALT는 G, T로 나타나있습니다 이럴 경우는 두 개의 variant로 세어주셔야 합니다.
아래 링크의 VCF에서 variants 들의 개수를 세어보세요.
VCF에 대한 자세한 설명은 아래 링크를 참고하시기를 바랍니다.
https://samtools.github.io/hts-specs/VCFv4.2.pdf
정답)
24
문항에 의문사항이 있으시면 댓글로 말씀 부탁드리겠습니다.
그럼 다음 문항에서 만나요~
반응형
'생물정보학 > 생물정보학_연습문제' 카테고리의 다른 글
[Sequence] 04. DNA 서열에서 base count 하기 (1) | 2017.04.07 |
---|---|
[VCF] 02. VCF 파일에서 SNP, InDel Count 하기 (1) | 2017.04.04 |
[VCF] 01. VCF 파일에서 PASS filter 하기 (3) | 2017.04.03 |
[공지] 생물정보학 연습문제 카테고리를 시작하며 (2) | 2017.04.03 |
댓글