반응형
안녕하세요 한주현입니다.
오늘은 FASTA 파일을 윈도우, 맥 GUI 환경에서 읽어 염기서열 세어주는 프로그램을 제작해 보았습니다.
목차
1. 프로그램 소개
2. 프로그램 사용방법
부록. UCSC FASTA 파일 다운로드
1. 프로그램 소개
"Fasta Reader GUI" 는 윈도우나 맥, 리눅스의 GUI (Graphic User Interface) 환경에서 FASTA 파일을 읽어
전체 염기서열 개수, A, C, G, T 그리고 N 염기의 개수를 세는 프로그램입니다.
프로그램은 JAVA로 제작하였으며 사용하시는 환경에 JAVA 8 버전이 필요합니다.
참고로 FASTA 파일은 유전서열을 담고 있는 파일로 ">" 기호가 있는 헤더 부분과 서열부분으로 나뉩니다.
FASTA 파일 형식
> 헤더
ACACACGGCCNNNNNTTTTCC
CCACGGTTNNNNCCCAAAAAA
...
2. 프로그램 사용방법
다음 경로에 들어가셔서 FastaReaderGui.jar 파일을 다운 받아 실행하시면 됩니다.
1) jar 파일을 실행하면 다음과 같은 화면을 보게 됩니다. Open a Fasta File... 버튼을 눌러줍니다.
2) fasta 파일을 눌러서 엽니다. fasta.gz 은 지원을 하지 않습니다. fasta 파일이어야 합니다.. ㅎㅎ
3) 파일을 읽은 결과가 나옵니다. 예시로 사용한 파일인 chr21.fa 는 약 50MB 정도로 읽어서 결과를 내는데 0.398초의 시간이 소요되었습니다.
부록. UCSC FASTA 파일 다운로드 - chromosome 별
예시로 사용한 chr21.fa 파일은 다음 UCSC 에서 다운받았습니다.
다음 경로에 들어가서 chromosome 별로 fa.gz 파일을 받아 gzip 압축을 해제합니다.
hg19
사이트에 접속하시면 다음과 같은 페이지가 나오는데,
각 reference 별로
chr1.fa.gz
chr2.fa.gz
...
chr22.fa.gz
chrX.fa.gz
chrY.fa.gz
chrM.fa.gz
의 파일들을 다운 받습니다.
리눅스 환경에서는 다음과 같이 진행해주시면 chrmosome 별로 차례대로 받으실 수 있습니다.
1 2 3 4 5 6 | #!/bin/bash for i in 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 X Y M do wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/chr${i}.fa.gz done |
FASTA gzip 파일을 읽는 프로그래밍은 다음 링크를 참조해 주세요!
오늘은 GUI 환경에서 FASTA 파일을 읽는 프로그램을 소개하였습니다.
그럼 다음에 만나요~~
기부 버튼을 만들었습니다
단지 $1 의 작은 정성도 저에게는 큰 힘이 됩니다
기부해주신 분들을 기억하며
더 좋은 내용으로 보답해 드리겠습니다 :)
Donate 버튼은 paypal 결제로 paypal 계정이 없으시더라도
카드로도 기부 가능하십니다 :)
Use your credit card or bank account (where available). 옆의 continue 를 누르시면 됩니다
한주현 드림
반응형
댓글