본문 바로가기
반응형

생물정보학31

[java] 자바 생물정보학 - fastq, fastq.gz 읽기 안녕하세요 한주현입니다. 오늘은 java로 fastq.gz 을 읽는 방법에 대해 알아보겠습니다. JAVA로 fastq.gz 읽기 JAVA로 fastq.gz 읽기 아래는 fastq.gz 파일을 읽는 소스코드입니다. 그냥 읽기만 하면 재미가 없으니 ㅎㅎ.. 조건을 몇 개 설정해봅시다. - 조건 1) fastq.gz 은 paired 되어있다. 2) 각 read의 naming은 sample_1.fastq.gz, sample_2.fastq.gz 으로 한다. 3) 각 read 별 fastq에서 평균 read length를 계산한다. 여러분들도 한 번 코드작성을 해보시기를 추천드립니다 ㅎㅎ; 여러모로 배울점들이 생기게 됩니다 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 .. 2018. 1. 3.
[Sequence] 04. DNA 서열에서 base count 하기 안녕하세요 한주현입니다 생물정보학 코딩 연습과 파일 형식을 익히기 위한 포스팅 네 번째 시간입니다 오늘은 DNA서열을 분석하는 생물정보학 문제를 포스팅하겠습니다 염기서열 이란? 염기서열은 DNA의 기본단위인 뉴클레오티드(nucleotide)의 구성성분 중 하나인 염기(base)들을 나열한 것 입니다.DNA에서 염기가 3개 모이면 하나의 트리플렛 코드(triplet code)를 구성하며 하나의 아미노산(Amino acid)를 지시하게 됩니다.인간의 단백질을 구성하는 아미노산의 개수는 총 20개로 되어있습니다. 문항) 염기서열 개수 세기 염기서열은 총 4개의 염기인 A(아데닌), C(시토신), G(구아닌) 그리고 T(티민) 으로 이루어져있습니다. 아래의 DNA서열에서 A, C, G, T 의 개수를 세어보도록.. 2017. 4. 7.
[공지] Biopython (바이오파이썬) 으로 만나는 생물정보학 안녕하세요 한주현입니다 오늘부터 Biopython (바이오파이썬) 에 대하여 posting을 시작하겠습니다. 새로운 로고 넘 예쁘네요 ㅋㅋ Biopython은 오픈소스 프로젝트로 비상업적 python library 입니다.1999년에 시작된 프로젝트로 2000년 7월에 첫 출시 되었고 현재 글을 쓰는 시점인 2017년 4월의 가장 최근 버전은 1.68버전 (2016년 8월)입니다. 제가 연재 하는 동안 업데이트가 좀 되어서 ㅎㅎ... 2017년 4월 4일 발표된 가장 최신 버전은 1.71 입니다 ! ㅎㅎ 앞으로의 포스팅은 Biopython의 설치부터 sequencing file의 parsing, Alignment, BLAST, 그리고 NCBI Entrez와 같은 database의 접근 등에 대하여 포스팅.. 2017. 4. 7.
[VCF] 03. VCF 파일에서 Variant 개수 count 하기 안녕하세요 한주현입니다 생물정보학 코딩 연습과 파일 형식을 익히기 위한 포스팅 세 번째 시간입니다 오늘은 VCF를 활용한 생물정보학 문제를 포스팅하겠습니다 문항) VCF 파일에서 Variant 개수 count 하기 VCF (Variant Calling Format) 파일은 텍스트 형식의 파일로 meta-information lines, Header, data lines 로 구성되어있습니다 이번 문항에서는 VCF에서 variant의 개수를 세어보겠습니다.샾(#) 으로 시작하는 Meta-information 과 Header Line을 제외한 line의 개수를 세어보면 variants의 개수가 나오게 됩니다. 주의! 위의 예시 VCF에서 세 번째 data line (chr20 1110696) 에서 5번째 컬럼.. 2017. 4. 6.
반응형