반응형
안녕하세요 한주현 입니다
오늘은 UCSC BLAT과 사용법에 대해 알아보겠습니다.
BLAT 이란?
blat은 BLAST-like alignment tool로 UCSC에서 개발한 pairwise sequence alignment tool 입니다
DNA, RNA 또는 Protein sequence를 입력하고 실행을 하게 되면 입력하신 sequence의 위치와 reference sequence와의 match/mismatch를 알려줍니다.
놀라운 점은 사용법이 너무나도 간편하다는 점인데요,
간단하게 웹에서 sequence query를 넣고 submit을 누르시면 바로 나오게 됩니다 ㅎㅎ
만약 보고싶은 서열의 개수가 많은 경우 command line에서도 실행 가능하다는 점입니다
웹과 커맨드라인 두 가지 방법에 대해 알아보겠습니다
실습 전 환경
아래 진행할 예제는 EGFR의 서열 일부를 가지고 실습을 진행해보겠습니다.
아래의 서열을 복사하여 사용해주세요 ㅎㅎ
>EGFR_partial_DNA
CCCCGGCGCAGCGCGGCCGCAGCAGCCTCCGCCCCCCGCACGGTGTGAGCGCCCGACGCGGCCGAGGCGG
CCGGAGTCCCGAGCTAGCCCCGGCGGCCGCCGCCGCCCAGACCGGACGACAGGCCACCTCGTCGGCGTCC
GCCCGAGTCCCCGCCTCGCCGCCAACGCCACAACCACCGCGCACGGCCCCCTGACTCCGTCCAGTATTGA
TCGGGAGAGCCGGAGCGAGCTCTTCGGGGAGCAGCGATGCGACCCTCCGGGACGGCCGGGGCAGCGCTCC
TGGCGCTGCTGGCTGCGCTCTGCCCGGCGAGTCGGGCTCTGGAGGAAAAGAAAGGTAAGGGCGTGTCTCG
CCGGCTCCCGCGCCGCCCCCGGATCGCGCCCCGGACCCCGCAGCCCGCCCAACCGCGCACCGGCGCACCG
1. blat 웹버전 사용법
0) 준비물
보고 싶은 서열
1) ucsc blat에 접속합니다
2) 텍스트 입력란에 원하는 서열을 넣고 submit을 눌러줍니다
Genome - Human
Assembly - hg19
과 같은 설정등을 원하는 대로 맞추셔서 진행합니다
3) 결과 확인
submit 을 누르시면 다음과 같은 창이 나오게 됩니다
가장 score가 높은 부분이 잘 match 되었다고 볼 수 있겠군요
ACTION 컬럼 아래 browser나 details를 눌러 결과를 확인합니다 ㅎㅎ
- browser 의 결과
- details 의 결과
2. command line blat stand alone 버전 사용법
0) 준비물
- reference sequence
저는 ucsc.hg19.fasta 파일을 사용하였습니다
- 보고 싶은 서열
- 리눅스 또는 맥 환경
1) blat 실행 파일을 다운로드
다음 경로에 접속하셔서 blat 파일을 다운로드 받습니다
2) 실행 방법
$ blat <reference.fa> <your_query_sequence.fa> <blat_result.psl>
우리는 예시 서열을 mySeq1.fa 로 저장하여 진행해보겠습니다
예시 서열을 살펴보면 다음과 같습니다
$ cat mySeq1.fa
>EGFR_partial_DNA
CCCCGGCGCAGCGCGGCCGCAGCAGCCTCCGCCCCCCGCACGGTGTGAGCGCCCGACGCGGCCGAGGCGG
CCGGAGTCCCGAGCTAGCCCCGGCGGCCGCCGCCGCCCAGACCGGACGACAGGCCACCTCGTCGGCGTCC
GCCCGAGTCCCCGCCTCGCCGCCAACGCCACAACCACCGCGCACGGCCCCCTGACTCCGTCCAGTATTGA
TCGGGAGAGCCGGAGCGAGCTCTTCGGGGAGCAGCGATGCGACCCTCCGGGACGGCCGGGGCAGCGCTCC
TGGCGCTGCTGGCTGCGCTCTGCCCGGCGAGTCGGGCTCTGGAGGAAAAGAAAGGTAAGGGCGTGTCTCG
CCGGCTCCCGCGCCGCCCCCGGATCGCGCCCCGGACCCCGCAGCCCGCCCAACCGCGCACCGGCGCACCG
- 참고
blat을 받게 되면 권한이 rw-r--r-- 로 되어있어서 실행이 안되니
다음 그림 처럼 chmod 775 등으로 실행권한을 주시고 실행을 하심 됩니다 ㅎㅎ;;
실행을 해보죠
$ ./blat ~/Tools/Reference/hg19/ucsc.hg19.fasta mySeq1.fa mySeq1.out.psl
Loaded 3137161264 letters in 93 sequences
Searched 420 bases in 1 sequences
3) 결과 확인
저는 제 로컬머신(맥북프로2014mid)에서 진행 하였을 때,
약 2분 정도 걸렸군요 ㅎㅎ
확실히 웹에서 진행한것 보다는 시간이 좀 더 걸리긴 했지만, 여러 파일들을 커맨드라인 상으로 진행을 해야할 경우 더 편하겠죠?
결과 파일인 mySeq1.out.psl 파일을 열어서 보시면 다음처럼 나옵니다
오늘은 blat사용법에 대해서 알아보았습니다
여러분들의 연구 및 업무에 도움 되셨음 좋겠습니다 ㅎㅎ
그럼 다음시간에 만나요~
반응형
'생물정보학 > Tools' 카테고리의 다른 글
[GATK] UnifiedGenotyper vs. HaplotypeCaller 차이점 - 무엇을 써야 할까요? (0) | 2018.03.03 |
---|---|
[GATK] GATK4 - Google Cloud - FireCloud 5달러 분석시대 (0) | 2018.02.26 |
[vim] vimrc 설정 (0) | 2018.01.26 |
[GATK] GATK4 Launch 행사 - Broad Institute GATK4 Launch (2) | 2018.01.08 |
[samtools] sam, bam 파일간 변환 방법, sam to bam , bam to sam (0) | 2017.12.12 |
댓글