본문 바로가기
생물정보학

[생물정보학 특허] VCF 파일 활용 :: 유전자 서열 변이 정보를 활용한 혈연관계 판단 방법 :: 특허 등록 후기

by HanJoohyun 2022. 5. 22.
반응형
 
 

 

안녕하세요 한주현입니다.
 
오늘은 VCF 파일을 사용하여 "유전자 서열 변이 정보를 활용한 혈연관계 판단 방법" 특허를 진행했던 내용과 특허 내용에 대해 작성해보겠습니다.
 
목차
- 특허를 등록하면서

- 유전자 서열 변이 정보를 활용한 혈연관계 판단 방법
    - 간단한 수학 얘기 :: 좌표와 코사인 유사도
    - VCF 파일에 담긴 변이들 :: Bag of Variants (BOV)

- 마치며
 

 

- 특허를 등록하면서
현재 저는 희귀질환 유전 질환 변이들을 해석하여 희귀질환자들의 진단에 큰 기여를 하고 있는 쓰리빌리언에 다니고 있습니다.
포스팅을 쓰는 현 시점에서 벌써 3년하고도 2개월 정도의 시간이 흐르고 있네요.
 
쓰리빌리언에 다니면서 변이 해석 알고리즘 그 동안 여기에서 총 두 개의 특허를 작성했었습니다.
금번 포스팅에서 말씀드릴 NGS 데이터로 가족관계 판별법에 대한 내용은 제가 주 저자로 진행한 두 번째 특허에 대한 내용입니다.
특허에는 크게 출원과 등록이라는 과정이 있는데,
출원을 신청하고 특허 심사관이 특허 내용을 보고는 등록을 할지 말지 결정하게 됩니다.
제 특허 같은 경우는 출원 이후 등록까지 약 1년 정도의 시간이 걸렸고, 그 와중에 세 번의 거절 통지서와 보충 자료들을 드리며 대응을 진행했었습니다. 
특허의 출원과 등록 과정에서는 물론 내용이 중요함도 있지만, 특허의 내용을 법률적 문서로 바꿔주시고 거절에 대해 적절히 대응을 해주신 변리사님의 상당히 많은 노력과 고생을 얘기 하지 않을 수 없습니다. 특허의 시작부터 대응까지 함께 해주신 이정설 박사님과 특허법인 동행의 이상열, 권용태 변리사님 이 포스팅을 빌어 진심으로 감사의 말씀 드립니다..!
 
- NGS 데이터로 가족관계 판별하는 방법
드라마에서 친자확인 등의 목적이나 수사과정에서 나오는 가족관계를 판별하는 방법은 각 사람들 마다 마치 지문과 같이 특이한 서열인 STR (Short Tandem Repeat) 서열을 활용하여 샘플들 간의 관계를 확인을 한다고 하는데요,
여기서 말씀드리는 NGS 데이터라 함은 DNA 변이 정보가 담긴 VCF (Variant Calling Format) 파일입니다.
회사에서는 DNA sequencing을 진행하여 나온 데이터에서 각 가족 (어머니 - 자식, 아버지 - 자식, 어머니 - 아버지) 간에 정확히 시퀀싱이 되었고, 해당 VCF 파일들의 관계가 맞는지 확인을 해야 이후의 분석 과정들이 정확할 수 있다고 말할 수 있습니다.
 
VCF 파일을 가지고 가족관계를 판별하는 아이디어는 다음과 같습니다.
어머니 -> 자식, 아버지 -> 자식으로 대립유전자(allele)가 각각 하나씩 전달이 되고,
그렇기에 부모 세대에서 가지고 있는 변이를 자식 세대에서 물려받기에
어머니-자식, 아버지-자식 간의 유전적 유사성은 유전적으로 남남의 관계인 어머니-아버지보다 더 가깝다고 할 수 있습니다.
 
 
특허 내용을 얘기하기 전 이해를 도울 수 있도록, 간단한 수학적 지식과 VCF 파일에 대한 내용을 간단히 설명해보겠습니다.
- 간단한 수학 얘기
- 좌표와 코사인 유사도(cosine similarity) 얘기
 
1) 세 점이 있다고 해봅시다
빨간색 점: (1, 2)
검은색 점: (2, 3)
초록색 점: (4, 1)
이라고 해보죠
 
2) 세 점을 다음과 같이 좌표에 찍어보겠습니다.
 
3) 이 점들을 원점에서 부터 선으로 이어 벡터를 만들고, 각각을 v1, v2, v3 벡터라고 불러보겠습니다.
 
4) 그런다음 각 vector간 이루는 각도를 각각 θ12, θ13, θ23 이라고 합시다.

 

5) 각 벡터들이 이루는 각도 θ의 cosine값은 0에 가까울수록 1에 가깝습니다.

 

 
그렇다면 4) 에서 보았던 좌표에서 cos θ12 > cos θ13 > cos θ23 이 됩니다.
 
이렇듯 두 벡터간의 코사인 각도 값으로 유사도를 계산하는 것을 코사인 유사도(cosine similarity)라고 합니다.
 
 
- VCF 파일에 담긴 변이들 :: Bag of Variants (BOV)
각 샘플들 마다 각각의 변이정보를 담고 있는 VCF 파일들이 있다고 합시다.
VCF 파일 구조는 아래와 같은데요,
 
Header와 Data Line 이라고 쓰인 부분을 보겠습니다.
 
Header 에는 CHROM, POS, ID, REF, ALT 등의 정보가 있는데요,
여기서 몇 가지 정보인 CHROM-POS-REF-ALT 만 가져와보겠습니다.
 
Data Line 에서 첫 번째 줄을 가져와본다고 하면,
20-14370-G-A 가 됩니다
이어 두 번째은 20-17330-T-A가 될 것입니다.
 
이를 좌표계 형태로 만든다면
(20-14370-G-A, 20-17330-T-A, ... ) 이 될 것입니다.
이렇게 샘플의 변이들을 모은것을 BOV (Bag of Variants)라 정의하고, 이는 좌표계와 벡터로도 표현할 수 있습니다.
 
첫 번째 샘플의 VCF를 BOV를 벡터로 나타낸 것을 Va 라고 하고, 두 번째는 Vb, 세번째는 Vc 라고 하겠습니다.
위의 코사인 유사도를 얘기할 당시는 (1, 2)와 같이 2차원 좌표계에서 말씀을 드렸었습니다만,
변이 벡터는 차원이 변이의 수 만큼이므로 차원의 수가 천, 만의 단위이기에 우리의 상상으로는 좌표계를 떠올릴 수 없습니다만,
아래와 같이 변이 벡터를 간단히 2차원으로 나타내어보겠습니다.

 

이렇게 생성된 벡터들간에 코사인 유사도를 계산하게 되면 샘플들 간의 유사도를 계산할 수 있습니다.
 
좌표에 나타낸 색깔에 맞춰 가족 관계를 그려본다면 아래와 같은데,
 
빨간색은 아버지, 초록색은 어머니, 검은색은 자식 입니다.
 
자식은 아버지, 어머니의 유전자를 절반씩 물려받으므로 아버지-자식, 어머니-자식간의 유전적 거리는
유전적으로 서로 남남 관계인 아버지-어머니 보다 가깝다고 할 수 있습니다.
실제로 아버지, 어머니, 자식의 VCF 파일의 변이들을 사용하여 유전적 거리를 계산하여 정말로 제대로 가족관계에 있는 샘플들을 사용하여 진단에 사용하는지 검증하는 용도로써 유용하게 사용하고 있습니다.
 
정리하자면, 유전적 변이를 활용하여 BOV (Bag of Variants)에서 변이 벡터를 생성하고,
이 벡터들에서 코사인 유사도를 활용하여 벡터간의 유사도를 계산하면 유전적 유사도를 계산할 수 있습니다.
 
마치며
오늘은 특허로 내었던 "유전자 서열 변이 정보를 활용한 혈연관계 판단 방법" 에 대한 내용을 정리해보았습니다.
사실 특허 내용은 여기서 좀 더 세부적인 내용들이 있는데,
핵심만 추려 요약을 해보았습니다.
 

 

좋은 아이디어가 있다고 하면 특허 및 논문들을 출판하셔서 우리 모두 지식의 세상에 더 큰 이바지를 할 수 있도록 화이팅 하셨으면 좋겠습니다~
 
 
 

 

 
 

 

 
 
반응형

댓글