본문 바로가기
반응형

분류 전체245

[리눅스] 텍스트 파일에서 random으로 n개 라인 뽑기 안녕하세요 한주현 입니다. 오늘은 텍스트 파일에서 무작위로 n개의 라인을 뽑는 방법에 대해 포스팅 해 보겠습니다. 먼저 샘플 파일입니다 샘플파일 $ cat num.txt 1 2 3 4 5 6 7 8 9 10 방법1 - sort sort -R 을 하여 head로 원하는 만큼 자릅니다. $ sort -R num.txt 3 2 5 9 10 4 6 1 7 8 $ sort -R num.txt | head -3 2 7 5 방법2 - shuf shuf 명령어를 사용합니다. $ shuf -n 3 num.txt 8 1 3 파일 사이즈가 크고 라인 개수가 많은 경우 sort -R 보다는 방법2인 shuf를 사용하는 것이 훨씬 빠릅니다. 그럼 다음 시간에 만나요~~~ 2017. 10. 30.
[Samtools] BAM 파일에서 Duplicated Read 찾기 안녕하세요 한주현입니다. 오늘은 bam 파일로 부터 duplicate read만 가져오는 방법에 대해 알아보겠습니다 필요한 툴, 파일 samtools실습할 bam 파일 samtools 설치는 다음 링크를 참고해주세요.설치 방법은 버전이 달라도 대개 비슷비슷합니다 ㅎㅎ; http://korbillgates.tistory.com/57 NGS 분석에서는 기술특성상 필연적으로 PCR duplicate(또는 optical duplicate) 가 생길 수 밖에 없습니다.이 부분에 대해서는 다음 포스팅에서 만나도록 하겠습니다 ㅎㅎㅎ duplicate의 존재는 samtools로 stat을 확인해보면 나오는데요,각자 가지고 계신 bam파일을 가지고 아래와 같은 command를 실행해봅시다. Command $ samtoo.. 2017. 10. 30.
[바이오파이썬] 4.1. Sequence Record 객체 안녕하세요 한주현 입니다. 오늘은 Sequence Record 객체에 대해 알아보겠습니다. 이전 03. Sequence 객체 단원에서는 문자열 같은 Sequence 객체에 대해서 알아보았는데요, 오늘 말씀드릴 Sequence Record는 서열 뿐만 아니라 여러 정보를 가지고 있는 객체입니다. 4.1 SeqRecord 객체 .seq - Sequence 그 자체 입니다 [Seq 객체] .id - primary ID 로 sequence를 판별할 때 사용하며 대부분의 경우 accession number입니다. [문자열] .name - sequence의 이름으로 accession number와 같을 수도 있습니다. [문자열] .description - 사람이 읽을 수 있는 설명입니다 [문자열] .letter_a.. 2017. 10. 29.
[IPython] %matplotlib inline 의 의미 안녕하세요 한주현 입니다 오늘은 %matplotlib inline 의 의미에 대해서 포스팅 해보겠습니다. 파이썬을 사용 또는 학습하시다 보면 여러가지 코드를 보실 수 있는데요, 다음과 같이 %matplotlib inline 이란 문장을 만날 경우가 있습니다 이는 IPython 에서 제공하는 Rich output 에 대한 표현 방식인데요, 도표와 같은 그림, 소리, 애니메이션 과 같은 결과물들을 Rich output 이라 합니다. 아래 그림은 다음 링크에서 보여주는 예시 인데요, http://nbviewer.jupyter.org/github/ipython/ipython/blob/1.x/examples/notebooks/Part%203%20-%20Plotting%20with%20Matplotlib.ipynb.. 2017. 10. 22.
반응형