본문 바로가기
반응형

생물정보학32

[cpp] FASTA 파일을 인덱스를 사용하여 읽는 방법 들어가며안녕하세요 한주현입니다 오늘은 cpp로 fasta 파일을 읽는데 index를 사용하여 전체 파일을 읽지 않고,미리 인덱스 파일을 읽어 해당 위치로 이동하여 읽을 수 있는 코드에 대해 말해보겠습니다. FASTA 파일 설명먼저 FASTA 파일과 FASTA 파일의 index 파일에 대해서 설명해보겠습니다.FASTA 파일은 아래와 같이 생겼습니다. > 로 시작하는 header 줄이 있고 그 다음은 염기서열이 있는 줄 들이 있습니다.각각의 >header 와 서열들을 하나의 record라고 부릅니다.FASTA 파일에는 하나의 record가 들어있을 수도 있고 여러개의 records가 있을 수도 있습니다.예시에서는 세 개의 records가 있고 각각의 record는 한 줄의 염기 개수가 60자로 되어있습니다... 2024. 6. 20.
[Tool] Expansion Hunter 설치 및 사용방법 안녕하세요 생물정보학자 한주현 입니다. 오늘은 Expansion Hunter 툴의 설치 방법과 사용방법 그리고 결과파일에 대해서 알아보겠습니다. 소개 Expansion Hunter는 sequencer로 유명한 Illumina 에서 만든 툴로 기준 서열 유전체(refernece genome)에 정렬된 BAM 포맷에서 반복되는 서열을 찾아주는 툴입니다. 반복되는 서열이 질환을 일으키는 질병 중 유명한 예시로 Huntington’s Disease가 있습니다. 이 질환은 4번 염색체인 4p16.3에서 HTT 유전자의 CAGCAGCAGCAG… 와 같은 (CAG)의 반복 서열이 원인이 됩니다. 이러한 반복서열을 찾아주는 툴이 Expansion Hunter 입니다. 설치 방법 설치에는 두 가지 방법이 있습니다. 하나.. 2022. 11. 24.
[생물정보학 특허] VCF 파일 활용 :: 유전자 서열 변이 정보를 활용한 혈연관계 판단 방법 :: 특허 등록 후기 안녕하세요 한주현입니다. 오늘은 VCF 파일을 사용하여 "유전자 서열 변이 정보를 활용한 혈연관계 판단 방법" 특허를 진행했던 내용과 특허 내용에 대해 작성해보겠습니다. 목차 - 특허를 등록하면서 - 유전자 서열 변이 정보를 활용한 혈연관계 판단 방법 - 간단한 수학 얘기 :: 좌표와 코사인 유사도 - VCF 파일에 담긴 변이들 :: Bag of Variants (BOV) - 마치며 - 특허를 등록하면서 현재 저는 희귀질환 유전 질환 변이들을 해석하여 희귀질환자들의 진단에 큰 기여를 하고 있는 쓰리빌리언에 다니고 있습니다. 포스팅을 쓰는 현 시점에서 벌써 3년하고도 2개월 정도의 시간이 흐르고 있네요. 쓰리빌리언에 다니면서 변이 해석 알고리즘 그 동안 여기에서 총 두 개의 특허를 작성했었습니다. 금번 포.. 2022. 5. 22.
[강연 후기] 덕성여대 WISET 사업단 바이오인포매틱스 교육, 생물정보학 강의 안녕하세요 한주현입니다. 오늘은 지난 7월에 진행한 바이오인포매틱스 교육 후기와 사진 및 강의 자료를 공유해보는 시간을 가져보겠습니다. 들어가며 지난 7월 중순의 주말동안 토, 일, 토, 일의 4일 동안 덕성여대 WISET 사업단에서 마련해준 자리에서 생물정보학 강의를 오프라인+온라인 진행했습니다. 내용은 나름 야심차게.. 준비했었습니다.. ㅋㅋ 1) 현업에서 일하고 있는 인생 선배로 생물정보학에 관심이 있는 꿈나무들에게 해주고 싶은 업계 이야기 2) 기본적인 파이썬 문법 강의 3) "바이오파이썬으로 만나는 생물정보학" 의 내용을 일부 발췌하여 바이오파이썬으로 covid19 서열 다루고, 논문들의 abstract 를 가져오고, weblogo를 만들고 4) AWS 클라우드로 인스턴스 만들고 리눅스 커맨드라.. 2020. 8. 9.
반응형