본문 바로가기
생물정보학/Tools

UCSC blat 사용법 - command line blat stand alone 사용법

by HanJoohyun 2018. 2. 4.
반응형

 

 


 


안녕하세요 한주현 입니다

오늘은 UCSC BLAT과 사용법에 대해 알아보겠습니다.

BLAT 이란?



blat은 BLAST-like alignment tool로 UCSC에서 개발한 pairwise sequence alignment tool 입니다


DNA, RNA 또는 Protein sequence를 입력하고 실행을 하게 되면 입력하신 sequence의 위치와 reference sequence와의 match/mismatch를 알려줍니다.

놀라운 점은 사용법이 너무나도 간편하다는 점인데요,
간단하게 웹에서 sequence query를 넣고 submit을 누르시면 바로 나오게 됩니다 ㅎㅎ
만약 보고싶은 서열의 개수가 많은 경우 command line에서도 실행 가능하다는 점입니다

웹과 커맨드라인 두 가지 방법에 대해 알아보겠습니다



실습 전 환경

아래 진행할 예제는 EGFR의 서열 일부를 가지고 실습을 진행해보겠습니다.
아래의 서열을 복사하여 사용해주세요 ㅎㅎ

>EGFR_partial_DNA
CCCCGGCGCAGCGCGGCCGCAGCAGCCTCCGCCCCCCGCACGGTGTGAGCGCCCGACGCGGCCGAGGCGG
CCGGAGTCCCGAGCTAGCCCCGGCGGCCGCCGCCGCCCAGACCGGACGACAGGCCACCTCGTCGGCGTCC
GCCCGAGTCCCCGCCTCGCCGCCAACGCCACAACCACCGCGCACGGCCCCCTGACTCCGTCCAGTATTGA
TCGGGAGAGCCGGAGCGAGCTCTTCGGGGAGCAGCGATGCGACCCTCCGGGACGGCCGGGGCAGCGCTCC
TGGCGCTGCTGGCTGCGCTCTGCCCGGCGAGTCGGGCTCTGGAGGAAAAGAAAGGTAAGGGCGTGTCTCG
CCGGCTCCCGCGCCGCCCCCGGATCGCGCCCCGGACCCCGCAGCCCGCCCAACCGCGCACCGGCGCACCG



1. blat 웹버전 사용법

0) 준비물
보고 싶은 서열


1) ucsc blat에 접속합니다
https://genome.ucsc.edu/ 로 접속하셔서
Tools - Blat 으로 들어가시거나


로 바로 접속하시면 됩니다




2) 텍스트 입력란에 원하는 서열을 넣고 submit을 눌러줍니다

Genome - Human
Assembly - hg19
과 같은 설정등을 원하는 대로 맞추셔서 진행합니다





3) 결과 확인

submit 을 누르시면 다음과 같은 창이 나오게 됩니다



가장 score가 높은 부분이 잘 match 되었다고 볼 수 있겠군요
ACTION 컬럼 아래 browser나 details를 눌러 결과를 확인합니다 ㅎㅎ


- browser 의 결과

- details 의 결과








2. command line blat stand alone 버전 사용법

0) 준비물

- reference sequence
저는 ucsc.hg19.fasta 파일을 사용하였습니다

- 보고 싶은 서열

- 리눅스 또는 맥 환경



1) blat 실행 파일을 다운로드

다음 경로에 접속하셔서 blat 파일을 다운로드 받습니다



2) 실행 방법

$ blat <reference.fa> <your_query_sequence.fa> <blat_result.psl>

우리는 예시 서열을 mySeq1.fa 로 저장하여 진행해보겠습니다


예시 서열을 살펴보면 다음과 같습니다

$ cat mySeq1.fa
>EGFR_partial_DNA
CCCCGGCGCAGCGCGGCCGCAGCAGCCTCCGCCCCCCGCACGGTGTGAGCGCCCGACGCGGCCGAGGCGG
CCGGAGTCCCGAGCTAGCCCCGGCGGCCGCCGCCGCCCAGACCGGACGACAGGCCACCTCGTCGGCGTCC
GCCCGAGTCCCCGCCTCGCCGCCAACGCCACAACCACCGCGCACGGCCCCCTGACTCCGTCCAGTATTGA
TCGGGAGAGCCGGAGCGAGCTCTTCGGGGAGCAGCGATGCGACCCTCCGGGACGGCCGGGGCAGCGCTCC
TGGCGCTGCTGGCTGCGCTCTGCCCGGCGAGTCGGGCTCTGGAGGAAAAGAAAGGTAAGGGCGTGTCTCG
CCGGCTCCCGCGCCGCCCCCGGATCGCGCCCCGGACCCCGCAGCCCGCCCAACCGCGCACCGGCGCACCG


- 참고
blat을 받게 되면 권한이 rw-r--r-- 로 되어있어서 실행이 안되니

다음 그림 처럼 chmod 775 등으로 실행권한을 주시고 실행을 하심 됩니다 ㅎㅎ;;


실행을 해보죠


$ ./blat ~/Tools/Reference/hg19/ucsc.hg19.fasta mySeq1.fa mySeq1.out.psl
Loaded 3137161264 letters in 93 sequences
Searched 420 bases in 1 sequences



3) 결과 확인
저는 제 로컬머신(맥북프로2014mid)에서 진행 하였을 때, 
약 2분 정도 걸렸군요 ㅎㅎ

확실히 웹에서 진행한것 보다는 시간이 좀 더 걸리긴 했지만, 여러 파일들을 커맨드라인 상으로 진행을 해야할 경우 더 편하겠죠?

결과 파일인 mySeq1.out.psl 파일을 열어서 보시면 다음처럼 나옵니다








오늘은 blat사용법에 대해서 알아보았습니다

여러분들의 연구 및 업무에 도움 되셨음 좋겠습니다 ㅎㅎ

그럼 다음시간에 만나요~


반응형

댓글