반응형
안녕하세요 한주현입니다.
오늘은 BLAST를 로컬에 설치하는 방법에 대해 알아보겠습니다.
목차
1. BLAST 로컬 설치의 장단점
2. BLAST 로컬 설치 및 실행
1. BLAST 로컬 설치의 장단점
BLAST는 NCBI에서 제공하는 툴로 서열을 넣어주면 데이터베이스와 비교하여 서열에 대해 종을 찾아주는 아주아주 유용한 툴입니다.
일반적으로 우리는 BLAST를 NCBI에서 제공하는 페이지, 즉 웹에서 접근해서 사용하는데요
이런 페이지입니다 ㅎㅎ..
웹에서 하면 편하긴 한데..
연구나 분석을 하다보면 GUI환경이 아닌 터미널 CLI 환경에서 진행해야 할 경우가 많습니다.
왜냐하면 웹에서 하나씩 서열을 붙여넣어서 할 수도 있지만,
10,000개나 되는 서열을 BLAST 해야 한다면 10,000번 동안 하고 있으면 다른 업무는 물론 집에도 못가죠.. ㅜㅜ
Local BLAST의 장점
인터넷을 통한 BLAST 보다 속도가 빠르다
기존의 데이터베이스가 아닌 사용자가 제작한 데이터베이스로 BLAST를 실행할 수 있다.
Local BLAST의 단점
Local BLAST 커맨드라인 툴이 설치되어있어야 한다.
Local BLAST 데이터베이스의 용량이 상당히 크다.
(실습에 사용한 nt 데이터베이스의 경우 약 40GB 정도 합니다.)
Local BLAST의 장단점을 알아보았으니 이제 설치 및 실행방법에 대해 알아보겠습니다.
2. BLAST 로컬 설치 및 실행
1) 다운로드
BLAST 툴을 받는 NCBI 사이트 입니다.
여기 들어가셔서 FTP 링크를 타고 들어가심 됩니다.
다음 주소가 열리신다면 바로 2.7.1 버전이 있는 페이지로 가시면 되겠습니다.
저는 리눅스에서 진행할 예정으로
ncbi-blast-2.7.1+-x64-linux.tar.gz 를 받겠습니다.
tar xf 로 받은 파일의 압축을 풉니다.
2) 데이터베이스 다운로드
압축을 푼 디렉토리 아래의 bin 디렉토리에 들어갑니다.
$ cd ncbi-blast-2.7.1+/bin
$ perl update_blastdb.pl --passive nt
Connected to NCBI
Downloading nt (68 volumes) ...
Downloading nt.00.tar.gz... [OK]
Downloading nt.01.tar.gz... [OK]
Downloading nt.02.tar.gz... [OK]
...
Downloading nt.67.tar.gz... [OK]
다운로드가 진행됩니다.
받은 파일들을 모두 압축 해제 합니다.
$ tar xf 받은파일.tar.gz
병렬 처리로 더 빨리 압축해제 하고 싶으시면 다음 링크를 참조해주세요.
3) 실행
다음 커맨드로 blast를 실행하였습니다.
1 | $ ./blastn -query test.fasta -db nt -out test.out |
다음 그림은 htop을 실행시켰을 때 모습으로,
저의 듀얼코어, 2GB 서버에서 열심히 돌아가고 있는 모습입니다.
조금 기다리시면 BLAST 가 완료 됩니다.
완료되었네요!!
결과 파일을 열어보면 다음과 같이 생겼습니다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 | BLASTN 2.7.1+ Reference: Zheng Zhang, Scott Schwartz, Lukas Wagner, and Webb Miller (2000), "A greedy algorithm for aligning DNA sequences", J Comput Biol 2000; 7(1-2):203-14. Database: Nucleotide collection (nt) 49,275,898 sequences; 183,715,705,025 total letters Query= MH705156.1 HIV-1 isolate P3844 from Democratic Republic of the Congo, complete genome Length=420 Score E Sequences producing significant alignments: (Bits) Value MH705156.1 HIV-1 isolate P3844 from Democratic Republic of the C... 776 0.0 AY672902.1 HIV-1 isolate 31184 from Democratic Republic of the C... 492 4e-135 AY672887.1 HIV-1 isolate 30509 from Democratic Republic of the C... 483 3e-132 ... 생략 ... >MH705156.1 HIV-1 isolate P3844 from Democratic Republic of the Congo, complete genome Length=8816 Score = 776 bits (420), Expect = 0.0 Identities = 420/420 (100%), Gaps = 0/420 (0%) Strand=Plus/Plus Query 1 GGGGAATGCACACGGCAAGAGGCGAGAGCGGCGATTATGGGGAGAGAGATGGGTGCGAGA 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 1 GGGGAATGCACACGGCAAGAGGCGAGAGCGGCGATTATGGGGAGAGAGATGGGTGCGAGA 60 Query 61 GCGTCAGTATTAAGCGGGGGAAAATTAGATGCATGGGAAAGAATTCGGTTGAGGCCAGGG 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 61 GCGTCAGTATTAAGCGGGGGAAAATTAGATGCATGGGAAAGAATTCGGTTGAGGCCAGGG 120 Query 121 GGAAAGAAAACATATAAGATGAAACATTTAGTATGGGCAAGCAGGGAACTAGACCGATTT 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 121 GGAAAGAAAACATATAAGATGAAACATTTAGTATGGGCAAGCAGGGAACTAGACCGATTT 180 Query 181 GCACTTAACCCTAGCCTTTTAGAGACAGCAGATGGCTGTCGGCAGATAATAAGCCAAATC 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 181 GCACTTAACCCTAGCCTTTTAGAGACAGCAGATGGCTGTCGGCAGATAATAAGCCAAATC 240 Query 241 CAACCATCCCTTCAAACAGGATCAGAGGAGCTTAAATCACTATTTAACACAGTAGTAGTC 300 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 241 CAACCATCCCTTCAAACAGGATCAGAGGAGCTTAAATCACTATTTAACACAGTAGTAGTC 300 Query 301 CTCTATTATGTACATCAAAGAATAGAGGTAAGGGACACCAAGGAAGCTTTAGACAAGCTA 360 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 301 CTCTATTATGTACATCAAAGAATAGAGGTAAGGGACACCAAGGAAGCTTTAGACAAGCTA 360 Query 361 GAGGAAGAACAAAAGAAAGCTCAGCAAAAAACACAACAAGCAGCGGCTGACAAAGGGGTC 420 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct 361 GAGGAAGAACAAAAGAAAGCTCAGCAAAAAACACAACAAGCAGCGGCTGACAAAGGGGTC 420 ... 생략 |
오늘은 BLAST 로컬 설치 및 실행방법에 대해 알아보았습니다.
그럼 다음에 만나요~~
기부 버튼을 만들었습니다
단지 $1 의 작은 정성도 저에게는 큰 힘이 됩니다
기부해주신 분들을 기억하며
더 좋은 내용으로 보답해 드리겠습니다 :)
Donate 버튼은 paypal 결제로 paypal 계정이 없으시더라도
카드로도 기부 가능하십니다 :)
Use your credit card or bank account (where available). 옆의 continue 를 누르시면 됩니다
한주현 드림
반응형
'생물정보학 > Tools' 카테고리의 다른 글
VCF GT, DP, AD와 genotype 0/0 , 0/1 , 1/1의 의미 (1) | 2019.07.15 |
---|---|
[github] github 파일 다운로드 방법 (5) | 2019.05.27 |
[minimap2] minimap2 설치 및 수행 방법 (0) | 2018.11.18 |
[Tool] gnomAD 란? gnomAD vcf 다운로드 방법 및 압축 푸는 방법- gnomAD 활용 방법 - gnomad vcf bgz: unknown suffix -- ignored (2) | 2018.11.17 |
[생물정보학] VCF에서 snpEff html report의 정보 내용 가져오기 (1) | 2018.11.16 |
댓글