본문 바로가기
생물정보학/Tools

[생물정보학] Fasta Reader GUI, 윈도우에서 FASTA 파일 읽어서 염기서열 세는 프로그램, JAVA GUI 예제, JAVA Swing 예제

by HanJoohyun 2018. 11. 15.
반응형




 


안녕하세요 한주현입니다.

오늘은 FASTA 파일을 윈도우, 맥 GUI 환경에서 읽어 염기서열 세어주는 프로그램을 제작해 보았습니다.


목차

1. 프로그램 소개
2. 프로그램 사용방법
부록. UCSC FASTA 파일 다운로드



1. 프로그램 소개

"Fasta Reader GUI" 는 윈도우나 맥, 리눅스의 GUI (Graphic User Interface) 환경에서 FASTA 파일을 읽어

전체 염기서열 개수, A, C, G, T 그리고 N 염기의 개수를 세는 프로그램입니다.

프로그램은 JAVA로 제작하였으며 사용하시는 환경에 JAVA 8 버전이 필요합니다.


참고로 FASTA 파일은 유전서열을 담고 있는 파일로 ">" 기호가 있는 헤더 부분과 서열부분으로 나뉩니다.

FASTA 파일 형식
> 헤더
ACACACGGCCNNNNNTTTTCC
CCACGGTTNNNNCCCAAAAAA
...



2. 프로그램 사용방법

다음 경로에 들어가셔서 FastaReaderGui.jar 파일을 다운 받아 실행하시면 됩니다.



1) jar 파일을 실행하면 다음과 같은 화면을 보게 됩니다. Open a Fasta File... 버튼을 눌러줍니다.



2) fasta 파일을 눌러서 엽니다. fasta.gz 은 지원을 하지 않습니다. fasta 파일이어야 합니다.. ㅎㅎ




3) 파일을 읽은 결과가 나옵니다. 예시로 사용한 파일인 chr21.fa 는 약 50MB 정도로 읽어서 결과를 내는데 0.398초의 시간이 소요되었습니다.







부록. UCSC FASTA 파일 다운로드 - chromosome 별


예시로 사용한 chr21.fa 파일은 다음 UCSC 에서 다운받았습니다.



다음 경로에 들어가서 chromosome 별로 fa.gz 파일을 받아 gzip 압축을 해제합니다.


hg19


사이트에 접속하시면 다음과 같은 페이지가 나오는데,


각 reference 별로

chr1.fa.gz

chr2.fa.gz

...

chr22.fa.gz

chrX.fa.gz

chrY.fa.gz 

chrM.fa.gz

의 파일들을 다운 받습니다.


리눅스 환경에서는 다음과 같이 진행해주시면 chrmosome 별로 차례대로 받으실 수 있습니다.


1
2
3
4
5
6
#!/bin/bash
 
for i in 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 X Y M
do
  wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/chr${i}.fa.gz
done


FASTA gzip 파일을 읽는 프로그래밍은 다음 링크를 참조해 주세요!





오늘은 GUI 환경에서 FASTA 파일을 읽는 프로그램을 소개하였습니다.

그럼 다음에 만나요~~ 





기부 버튼을 만들었습니다
단지 $1 의 작은 정성도 저에게는 큰 힘이 됩니다
기부해주신 분들을 기억하며
더 좋은 내용으로 보답해 드리겠습니다 :)

Donate 버튼은 paypal 결제로 paypal 계정이 없으시더라도
카드로도 기부 가능하십니다 :)
Use your credit card or bank account (where available). 옆의 continue 를 누르시면 됩니다

한주현 드림





 



반응형

댓글