(written in Korean)

SCAI Bioinformatics Research:

DNA Microarray Data Data Mining

(along with CAMDA'00)

What's DNA Microarray Data

DNA microarray data란 서로 다른 두 실험환경 하에서 여러 유전자들의 발현정도가 어떻게 달라지는지에 대한 ratio를 수치적으로 표현한 것을 말한다. 즉, 수천개의 유전자에 대한 DNA 시퀀스를 두 개의 글라스에 깔아놓고, 특정 실험환경에서 각각 다른 시각에 채집된 mRNA를 역전사하여 만든 cDNA를 hybridization하면 특정 유전자들이 이 cDNA와 특별히 많이 hybrid되어 expression level이 높아진다. 즉, 수천개의 유전자에 대해 서로 다른 조건 (일반적으로 한 조건은 background 조건으로 하고 다른 한 조건을 heat shock과 같은 특정 조건으로 한다) 의 cDNA가 얼마나 expression level ratio를 보이는가가 DNA microarray data인 것이다. 이 ratio를 expression level로 수치화하는 방법이 다음 두 논문에 나와 있다.

  Lashkari,D.,Derisi,J.,McCusker,J.,Namath,A.,Gentile,C.,Hwang,S.,Brown, P.,andDavis,R.(1997). Yeast microarrays for genome wide parallel genetic and gene expression analysis, pnas,94:13057-13062. (click)
  DeRisi,J.,Iyer,V.,and Brosn,P.(1997).Exploring the metabolic and genetic control of gene expression on a genomic scale. Science, 278:680-686. (click)

  참고로 이 ratio값을 바로 쓰는 것 보다 log를 취해서 사용하는 것이 좋다는 결과가 다음 논문에 나와 있다.

  Eisen,M.,Spellman,P.,Brown.P.,and Bostein,D.(1998). Cluster analysis and display of genome-wide expression patterns. pnas,95:14863-14868. (click)

  이 ratio의 값은 gene이 더 많이 발현되었을 경우 (induced, turned up)(background조건에서보다) 는 양수이고 억제되었을 경우 (repressed, turned down)는 음수이다.

두 번째 데이터 (link)

두 번째 데이터 분석

  • training 데이터 각각의 gene에 대한 P-Metric, P2_WIL Metric, GAIN-Metric, GAIN_RATIO-Metric: ascii
  • Feature Selection with Information Theory (ppt)
  • Clustering with NMF (Nonnegative Matrix Factorization) (ppt)

This page is maintained by Hyung Joo Shin (hjshin@scai.snu.ac.kr).
Last Update : 25, Sep, 2000.