2007년 8월 31일 금요일

Homodimer ZFP Finder

2007년 8월에 만든 Homodimer ZFP(Zinc Finger Protein) Finder.
입력한 서열에서 ZFP-space-ZFP 형태의 binding site 를 가지는 부위를 찾아준다.



위 알고리즘을 이용해서 Homo sapiens, Macaca mulatta, Rattus norvegicus 전체 지놈 서열의 Intergenic 영역에만 공통적으로 결합하는 3finger-6space-3finger 형태의 homodimer zfp를 찾아보았다.

자료수집
    ftp://ftp.ncbi.nih.gov/genomes/ 이하에 있는 H_sapiens, Macaca_mulatta, R_norvegicus 지놈 정보를 받아와서 서열과 gene정보 추출.

    Homo sapiens : Chromosome 1..22, MT, X, Y (2,870,843,926bp)
    Macaca mulatta : Chromosome 1..20, MT, Un, X (3,011,952,279bp)
    Rattus norvegicus : Chromosome 1..20, MT, Un, X (2,812,724,306bp)
* Macaca mulatta 와 Rattus norvegicus 는 Y염색체에 관한 정보가 없음. Y는 2007년 5월부터 시작해서 아직 진행중.
* MT(mitochondria) 는 기준에 부합하는 intergenic영역이 없음.

자료분석
    분석대상: Homo sapiens, Macaca mulatta, Rattus norvegicus 전체 서열
    선택DB: ZFDB45 (경우의수 453=91,125)
    Intergenic 선정기준: gene의 앞부분-10,000bp 부터 끝부분까지를 제외한 나머지 부분.
분석결과
  • ZFP형태에 제한이 없을경우.
    H,M,R 각각의 intergenic 영역에서만 1번이상 나온 ZFP수 = 292개

  • ZF의 Binding site 가 GNN인것이 2개이상 인것만 선택.
    H,M,R 각각의 intergenic 영역에서만 1번이상 나온 ZFP수 = 117개
    H,M,R 각각의 intergenic 영역에서만 1번만 나온 ZFP수 = 74개
    H,M,R 각각의 intergenic 영역에서만 2번이상 나온 ZFP수 = 4개>
* 중복되는 ZF target site 가 있기 때문에 서열로만 보면 개수는 약 1/3로 줄어듬.
* H=Homo sapiens, M=Macaca mulatta, R=Rattus norvegicus