본문 바로가기
반응형

코딩연습3

[Sequence] 04. DNA 서열에서 base count 하기 안녕하세요 한주현입니다 생물정보학 코딩 연습과 파일 형식을 익히기 위한 포스팅 네 번째 시간입니다 오늘은 DNA서열을 분석하는 생물정보학 문제를 포스팅하겠습니다 염기서열 이란? 염기서열은 DNA의 기본단위인 뉴클레오티드(nucleotide)의 구성성분 중 하나인 염기(base)들을 나열한 것 입니다.DNA에서 염기가 3개 모이면 하나의 트리플렛 코드(triplet code)를 구성하며 하나의 아미노산(Amino acid)를 지시하게 됩니다.인간의 단백질을 구성하는 아미노산의 개수는 총 20개로 되어있습니다. 문항) 염기서열 개수 세기 염기서열은 총 4개의 염기인 A(아데닌), C(시토신), G(구아닌) 그리고 T(티민) 으로 이루어져있습니다. 아래의 DNA서열에서 A, C, G, T 의 개수를 세어보도록.. 2017. 4. 7.
[VCF] 03. VCF 파일에서 Variant 개수 count 하기 안녕하세요 한주현입니다 생물정보학 코딩 연습과 파일 형식을 익히기 위한 포스팅 세 번째 시간입니다 오늘은 VCF를 활용한 생물정보학 문제를 포스팅하겠습니다 문항) VCF 파일에서 Variant 개수 count 하기 VCF (Variant Calling Format) 파일은 텍스트 형식의 파일로 meta-information lines, Header, data lines 로 구성되어있습니다 이번 문항에서는 VCF에서 variant의 개수를 세어보겠습니다.샾(#) 으로 시작하는 Meta-information 과 Header Line을 제외한 line의 개수를 세어보면 variants의 개수가 나오게 됩니다. 주의! 위의 예시 VCF에서 세 번째 data line (chr20 1110696) 에서 5번째 컬럼.. 2017. 4. 6.
[VCF] 02. VCF 파일에서 SNP, InDel Count 하기 안녕하세요 한주현입니다 생물정보학 코딩 연습과 파일 형식을 익히기 위한 포스팅 두 번째 시간입니다 오늘은 VCF를 활용한 생물정보학 문제를 포스팅하겠습니다 문항) VCF파일에서 SNP, InDel count하기VCF (Variant Calling Format) 파일은 텍스트 형식의 파일로 meta-information lines, Header, data lines 로 구성되어있습니다 VCF의 Data Line에서 4번째 컬럼과 5번째 컬럼인 REF와 ALT를 보겠습니다. REF는 Reference base(s)로 hg19, hg38 과 같이 기준이 되는 서열에서 각 해당 position에서의 서열을 의미합니다.ALT는 Alternate base(s)로 sequencer 에서 읽어낸 base가 REF 와 .. 2017. 4. 4.
반응형