Introduction
Random zinc finger protein approach 를 이용한 DNA microarray 실험 결과로부터 gene expression pathway 를 예상하는 computational algorithm 과 예측된 pathway 를 검증하는 algorithm 을 보여준다. 특정 시간에 측정된 mRNA 의 발현양 을 이용한 system 이기 때문에 metabolic pathway 를 찾는 것은 아니며, gene expression pattern 의 예측이 가능하기 때문에 gene expression pathway 라고 이름 붙였다.
이 방식은 biological 한 관점에서 gene 발현정도를 상호 비교해서 처리하기 때문에 수학적인 기반에서 출발한 Global clustering 으로 찾지 못하는 작은 cluster 와 일련의 순서가 있는 cluster 를 찾을 수 있으며 cluster 간의 상관관계를 밝힐 수 있으므로 pathway 를 찾는 것이 가능하다.
이 algorithm 은 실험 자료에 대해서 다음에 나오는 3개의 가정을 하고 출발한다. 1.한번 발현된 gene 은 계속 발현 상태를 유지하며 pathway 의 가장 끝에 있는 gene 까지 모두 발현되어 있다. 2.activation 된 gene 은 2.0 fold 이상, repression gene 은 0.5 fold 이하 값을 가진다. 3.여러 가지 pathway 표현방식이 가능할 때는 간단한 표현방식을 취한다.
Result
Gene expression pathway
Microarray 팀에서 얻은 69개 의 DNA microarray 실험 결과 자료로부터 단편 pathway 찾기1, 불필요한 pathway 제거2, gene set 찾기3, pathway 구성의 4가지 과정을 거쳐서 67 개의 group, 209 개의 primary gene, 221 개의 termination gene, 1700 개의 단편 pathway 로 이루어진 gene expression pathway 를 얻었다.
단편 pathway 는 gene 을 node, gene 간의 상관관계를 edge 로 표현한 graph theory 로 hall pathway 를 표현했을 때 하나의 edge 로 연결 가능한 서로 인접한 두 node 간의 관계다. 여기에서는 단편 pathway 와 edge 가 같은 의미로 사용된다. Group 은 비슷한 양상을 가지는 gene 들의 모음으로 graph topology 상에서 cycle 을 이루는 부분이다.

Fig. 전체 Pathway Map.
KERATIN : group42
N64862d: -
AA708619u: CSR1 protein
H44051u: keratin 14 (epidermolysis bullosa simplex, Dowling-Meara, Koebner)
AA464250u: keratin 19
W60057u*: keratin 13
AA447618u: internexin neuronal intermediate filament protein, alpha
AA701976u: inositol 1,4,5-triphosphate receptor, type 3
R38201d: opioid-binding protein/cell adhesion molecule-like

Fig. histone, keratin, translation initiation factor, ribosomal protein, termination, apoptosis gene 관련 pathway : group 은 동일한 양상으로 움직이는 gene 들을 모은 것이고 들여 쓰기는 종속관계를 나타낸다. 더 이상 연결되는 gene 이 없을 때 gene 이름 뒤에 “*” 표를 했다. Gene list 아래쪽에는 실험결과를 1.0 fold 이상은 녹색, 1.0 fold 이하는 붉은색으로 표시한 그림을 넣었으며 그 아래 그림은 전체 pathway 상에서의 위치를 표시했다.
Selftest
Selftest 결과 activation 을 1.5 fold 이상, repression 을 0.67 fold 이하로 했을 때 activation, repression 을 정확하게 예측할 확률은 option 에 따라 83% 에서 61% 까지를 보였다. Random 하게 만든 pathway 를 적용했을 때 정확하게 예측할 확률은 14% 이다. Activation 을 2.0 fold 이상, repression 을 0.5 fold 이하로 했을 때 정확하게 예측할 확률은 option 에 따라 62% 에서 32% 까지를 보였다. random pathway 를 적용했을 때 정확하게 예측할 확률은 5% 이다.

Fig. DNA microarray 입력값 분포: -0.5:6%, 0.5-0.67:11%, 0.67-1.5:72% 1.5-2.0:8%, 2.0-:3% 분포를 보였다. Selftest option 에 따른 pathway coverage. 예측율과 coverage 는 반비례한다.
Discussion
Selftest 결과 최소출현횟수, 최대출현빈도, Cutoff 가 높을수록 정확하게 예측하는 것으로 나왔다. 최소출현횟수가 높아질 경우에는 버려지는 자료가 많아지게 되어 pathway coverage 가 낮아지고, 최대출현빈도가 높아질 경우에는 모든 실험에서 동일하게 activation 또는 repression 된 실험 노이즈가 포함될 가능성이 높아지기 때문에 적당한 한계를 설정할 필요가 있다. Cutoff 는 실험 노이즈를 보상하기 위해서 도입한 값인데 100% 일 때 가장 좋은 보였다.
여기에서 설명한 algorithm 은 activation, repression 값을 고정된 상수로 하여 DNA microarray 실험 값을 quantization 함으로서 cutoff range 부근의 값이 noise 영향을 많이 받으므로 좋은 방법이라고 할 수 없다. 실험 값을 vector 로 표현해서 pathway 를 찾는 가능한 방법이 있는지 고려해야 한다.
검증에 사용된 DNA microarray 자료가 동일한 실험 방식에서 나온 것이기 때문에 예측 점수가 높게 나왔을 수 있으므로 다른 방식을 사용한 DNA microarray 실험 결과나 알려진 pathway 등 전혀 다른 resource 를 이용한 검증이 필요하다.
pathway 자체가 compendium 의 집합이라고 볼 수 있으며 여기서 얻은 pathway 를 이용해서 DNA microarray 결과를 역추적 하면 target gene 예측도 가능할 것이다.
Methods
1. 단편 pathway 찾기
하나의 어떤 gene 이 움직였을 때 다른 gene 이 동일한 양상으로 움직인다면 두 gene 은 pathway 상에서 서로 관계가 있다고 생각한다.
DNA microarray 에 있는 N 번째 gene 을 Gi 라고 하고, DNA microarray 의 N 번째 실험을 Cj 라고 할 때, Gi 가 active 된 모든 Cj 에서 Gk (k ≠ i) 도 모두 active 되었다면 Gi → Gk 로 표시한다.
실제 적용 시에는 실험오차를 제거하기 위해서 최소 Ci 는 3개 이상이어야 하고, 전체 실험의 30% 이하이고 Gk 는 90% 이상이 2.0fold 이상이거나 0.5fold 이하이어야 한다는 조건을 부가했다. active, repress 를 고려하기 위해서 up, dn 문구를 부가해서 Gi 가 active 된 모든 Cj 에서 Gk (k ≠ i) 도 모두 active 되었다면 Giup → Gkup 이라고 표시하고, Gk 가 모두 repress 되었다면 Giup → Gkdn 이라고 표시한다. 반대로 Gi 가 repress 되었고 Gk 가 active 되었다면 Gidn → Gkup, Gk 가 모두 repress 되었다면 Gidn → Gkdn 으로 표시한다.
2. 불필요한 단편 pathway 제거
단편 pathway 를 다른 방법으로 커버할 수 있다면 단편 pathway 를 제거한다. 단편 pathway 제거는 pathway 전체의 topology 를 그대로 유지하면서 pathway 를 단순화시킨다.
Ci → Cj 인 단편 pathway 가 있을 때 Ci → Ck → ··· → Cj (k ≠ i, j) 인 Ck 가 존재한다면 Ci → Cj 단편 pathway 를 제거한다.
3. Gene set 찾기
Group : circular pathway 를 group 으로 설정한다. circular pathway 는 gene 발현이 순환적으로 일어날 경우나 동일한 발현 양상을 보일 때, 또는 실험에서 해당 pathway 에 대한 정보가 누락되었을 때 발생한다.
Ci → .. → Ci 인 pathway 가 가능하다면 해당 경로에 있는 모든 gene 을 하나의 group 으로 설정한다.
Primary gene : 어떤 경로를 통해서도 도달할 수 없는 gene
모든 pathway Ci → Cj 에 대해서 i = k, j ≠ k 인 k 가 존재하면 primary gene 으로 설정한다.
Final gene : 더 이상 경로가 없는 gene
모든 pathway Ci → Cj 에 대해서 i ≠ k, j = k 인 k 가 존재하면 final gene 으로 설정한다.
4. Selftest
전체 자료에서 검사용으로 사용할 1개를 제외한 나머지 자료로 pathway 를 구하고 나머지 1개로 pathway 가 얼마나 정확한지 검사한다.
n 개의 DNS microarray 실험 자료가 있을 때 Ci (i=1..n), Cj (1≦j≦n) (i≠j) 인 조건에서 Ci 를 이용해서 pathway Gx → Gy 를 구하고, Cj 의 active 또는 repress 된 Gx 에 대해서 Gx → Gy 를 얼마나 정확하게 예측하는지를 계산한다. 위 알고리즘을 j=1..n 으로 변환시키면서 n 번 수행한다.
j=1: C2, C3, ... , Cn 으로 pathway 를 구하고 C1 으로 검증한다.
j=2: C1, C3, ... , Cn 으로 pathway 를 구하고 C2 로 검증한다.
...
j=n: C1, C2, ... , Cn-1 로 pathway 를 구하고 Cn 으로 검증한다.
시행 j=1 에서 j=n 까지의 평균점수를 구한다.
검증방법은 검증할 DNA microarray 자료에서 active 또는 repress 된 gene Gi 가 pathway 상에 있는지 찾아보고 만일 있다면 Gi → Gj 인 모든 Gj 를 찾은 후 그것이 검증할 자료에서 실제로 active 또는 repress 되었는지 비교한다.
Acknowledgments
This work was supported by Microarray Team.
References
1. Ramana V.Davuluri. Computational identification of promoters and first exons in the human genome. Nature genetics 26 November 2001
2. Hrowitz, Sahni, Mehta. Fundamentals of DATA STRUCTURES IN C++. Computer Science Press 1995