LaText 

Text Mining based on Latent Variable Models


연구 목표

본 연구는 과학 기술부의 뇌신경정보학사업의 일환으로 진행되고 있으며 추론및학습기술 팀의 최종 목표는 인간의 기억과 학습에 관한 인지신경기전의 모델을 개발하고 이를 바탕으로 높은 정확도와 융통성 있는 신경망 기반 추론 및 학습 기술을 개발하고 이를 공학적으로 응용한 응용시스템을 개발하는 것이다.

본 연구팀이 속한 정보탐색팀은 정보 분류, 여과, 추출 등에 관한 인지심리학 기반의 기계학습 기술과 웹 컨텐츠 마이닝 기술에 대해 연구하고 이를 신경망 기반의 대규모 정보 검색시스템의 개발에 활용하여 궁극적으로 대용량 고성능의 정보검색 시스템 Neuro-IR 개발을 목표로 한다.

.

 

연구 추진 계획 및 방법

 

연구개발목표

연구개발 내용 및 범위

1차년도

텍스트정보 분석을 위한 은닉변수 신경망 모델 개발

텍스트 문서의 분석/분류를 위한 은닉 변수 신경망 모델 연구 (multiple-cause models, PLSA, LSA, NMF, ICA, HMM, etc)

은닉변수 신경망 기반의 문서 인덱싱 기법 연구

문서의 주제어 추출을 위한 은닉변수 신경망 모델의 개발

다양한 웹 컨텐츠 정보의 분석, 분류, 여과 방법 연구

다양한 웹 사이트의 컨텐츠 정보에 대한 분석 방법 연구

신경망을 기반으로 웹 컨텐츠 정보를 분석, 분류, 여과할 수 있는 방법에 관한 연구

정보분류 시스템 탐색 및 인지심리학, 수리심리학적 모형 개발

인지심리학적 실험을 통한 인간의 정보 분류와 범주화에 관한 연구

인간의 정보 분류체계에 대한 행동적/수리적 모형의 개발

텍스트 처리에 고유한 인지기제 연구

정보 분류와 범주화에 대한 개인차 연구

2차년도

은닉변수 신경망 학습 기반의 정보 검색 기술 개발

정보검색 신경망 모델의 자동학습 기법 연구

대규모 텍스트 문서의 분석, 분류, 여과 기술 개발

10 GB 문서 데이터에 대한 기본 성능 테스트

신경망 기반의 웹컨텐츠 정보 추출 기술 개발

사용자의 요구 혹은 성향에 맞게 분석된 웹 컨텐츠 정보를 추출할 수 있는 기술에 관한 연구

인간에게 적합한 시스템의 구축 방식과 구축시 제한점 해결 방안 연구

제안된 모형의 구현 가능성과 구현 기법 연구

개인차를 이용하는 시스템의 구현 방법 연구

3차년도

은닉변수 신경망 모델에 기반한 고성능 정보검색 시스템 Neuro-IR의 구현 및 평가

은닉변수 신경망 기반의 Text Mining 기술 개발

Neuro-IR 개발 및 TREC ad-hoc retrieval에서 상위 그룹 대비 105% 성능 달성

100GB 문서를 다루는 뉴스 도우미에 대한 Neuro-IR의 성능 평가

데이터베이스 구축 및 다른과제와의 시스템 통합

제품정보 데이터베이스 구축

데이터베이스 효용성 확인

다른과제의 시스템과의 통합

2단계에서의 시스템을 실제로 구현하고 구현된 시스템에 대한 평가

모형의 구현 방법 개발

개발된 시스템과 기준 다른 모형과의 비교 연구

개인차 이용 시스템의 수행능력에 대한 연구

  

Publications

  1. International Journal
    1. Word Sense Disambiguation by Learning Decision Trees from Unlabeled Data, Seong-Bae Park and Byoung-Tak Zhang, Applied Intelligence, vol. 19, pp. 27-38,  2003
    2. Genetic Mining of HTML Structures for Effective Web-Document Retrieval, Sun Kim and Byoung-Tak Zhang, Applied Intelligence, 18(3), pp. 243-256, 2003.
    3. Gene Expression Pattern Analysis via Latent Variable Models Coupled with Topographic Clustering, Jeong-Ho Chang, Sung Wook Chi, and Byoung-Tak Zhang,  Genomics and Informatics, vol. 1, no. 1, pp. 34-40, 2003 (to appear)
    4. An Empirical Study on Dimensionality Optimization in Text Mining for Linguistic Knowledge Acquisition, Yu-Seop Kim, Jeong-Ho Chang, and Byoung-Tak Zhang, Lecture Notes in Artificial Intelligence, vol. 2637, pp. 111-116, 2003
    5. Large Scale Unstructured Document Classification Using Unlabeled Data and Syntactic Information, Seong-Bae Park and Byoung-Tak Zhang, Lecture Notes in Artificial Intelligence, vol. 2637, pp. 88-99, 2003.
    6. A Bayesian Evolutionary Approach to the Design and Learning of Heterogeneous Neural Trees, Byoung-Tak Zhang, Integrated Computer-Aided Engineering, vol. 9, no. 1, pp. 73-86, 2002
    7. Topic Extraction from Text Documents using Mulitple-cause Networks, Jeong-Ho Chang, Jae Won Lee, Yuseop Kim, and Byoung-Tak Zhang,  Lecture Notes in Artificial Intelligence vol. 2417, pp. 434-443, 2002  
    8. Construction of Large-Scale Bayesian Networks by Local to Global Search, Kyu-Baek Hwang, Jae Won Lee, Seung-Woo Chung, and Byoung-Tak Zhang,  Lecture Notes in Artificial Intelligence vol. 2417, pp. 375-383, 2002  
    9. Target Word Selection using WordNet and Data-driven Models in Machine Translation, Yu-Seop Kim, Jeong-Ho Chang, and Byoung-Tak Zhang,  Lecture Notes in Artificial Intelligence vol. 2417, p. 607, 2002  
    10. Customer Data Mining and Visualization by Generative Topographic Mapping Methods, Jin-San Yang and Byoung-Tak Zhang, Data Mining and Knowledge Discovery,  2002 (submitted)
  2. Domestic Journal
    1. 효율적 구조 학습 알고리즘과 데이타 차원 축소를 통한 베이지안망 기반의 마이크로어레이 데이타 분석법, 황규백, 장정호, 장병탁, 한국정보과학회 논문지: 소프트웨어 및 응용, vol. 29, no. 11/12, 2002   
    2. 자기구성 HMM을 이용한 웹문서 정보 추출, 엄재홍, 장병탁, 한국정보과학회 논문지: 소프트웨어 및 응용, 2002 (submitted)  
  3. International Conference
    1. Classification of the Risk Types of Human Papilloma Virus by Decision Trees , Seong-Bae Park, Sohyun Hwang, and Byoung-Tak Zhang, The Fourth International Conference on Intelligent Data Engineering and Automated Learning (IDEAL03), 2003(accepted)
    2. Automatic Webpage Classification Enhanced by Unlabeled Data, Seong-Bae Park and Byoung-Tak Zhang, The Fourth International Conference on Intelligent Data Engineering and Automated Learning (IDEAL03), 2003(accepted)
    3. Analysis of Gene Expression Profiles and Drug Activity Patterns by Clustering and Bayesian Network Learning, Jeong-Ho Chang, Kyu-Baek Hwang, and Byoung-Tak Zhang, In Methods of Microarray Data Analysis II (Papers from CAMDA'01), Kluwer Academic Publishers, pp. 169-184, 2002
    4. A Boosted Maximum Entropy Model for Learning Text Chunking, Seong-Bae Park and Byoung-Tak Zhang, In Proceedings of 19th International Conference on Machine Learning (ICML'02), pp. 482-489, 2002
    5. Stock Trading System using Reinforcement Learning with Cooperative Agents, Jang-Min O, Jae Won Lee, and Byoung-Tak Zhang, In Proceedings of 19th International Conference on Machine Learning (ICML'02), pp. 451-458, 2002
    6. A Comparative Evaluation of Data-driven Models in Translation Selection of Machine Translation, Yuseop Kim, Jeong-Ho Chang, and Byoung-Tak Zhang, Proceedings of the 19th International Conference on Computational Linguistics (COLING2002), vol. 1, pp. 453-459, 2002.  
    7. Concurrent Evolution of Neural Networks and Their Data Sets, Je-Gun Joung and Byoung-Tak Zhang, In Proceedings of 8th International Conference on Neural Information Processing (ICONIP'01), pp. 115-120, 2001.
  4. Domestic Conference
    1. 헬름홀츠머신 학습 기반의 의미 커널을 이용한 문서 유사도 측정, 장정호, 김유섭, 장병탁, 한국 정보과학회 춘계 학술 대회 논문집(B), pp. 440-442, 2003
    2. 앙상블 베이지안망에 의한 유전자발현데이터 분류, 황규백, 장정호, 장병탁, 한국 정보과학회 춘계 학술 대회 논문집(B), pp. 434-436, 2003
    3. 정보병목기법에 의한 유전자 발현 데이터의 이중 클러스터링, 김병희, 황규백, 장정호, 장병탁, 한국 정보과학회 춘계 학술 대회 논문집(B), pp. 362-364, 2003
    4. 비용의존학습에 의한 인유두종 바이러스의 분류, 황소현, 박성배, 장병탁, 한국 정보과학회 춘계 학술 대회 논문집(B), pp. 401-403, 2003
    5. 시냅스 전위활동에 기반한 분자신경망, 정호진, 조동연, 장병탁, 한국 정보과학회 춘계 학술 대회 논문집(B), pp. 416-418, 2003
    6. 진화연산을 이용한 자연어 파싱, 김동민, 박성배, 장병탁, 한국 정보과학회 춘계 학술 대회 논문집(B), pp. 419-421, 2003
    7. 최대 엔트로피 부스팅 모델을 이용한 품사 모호성 해소, 박성배, 장병탁, 한국 정보과학회 춘계 학술 대회 논문집(B), pp. 522-524, 2003
    8. 결정 트리에 의한 인유두종 바이러스의 위험군 분류, 황소현, 박성배, 장병탁 한국 데이터마이닝 학회 추계학술대회 논문집, pp. 148-160, 2002
    9. 은닉변수모델을 이용한 문서 추천, 이종우, 장병탁, 한국 지능정보시스템학회 추계 학술대회 논문집, pp. 514-519, 2002
    10. 최대엔트로피 부스팅 모델을 이용한 전치사 접속 모호성 해소, 박성배, 장병탁, 한국 정보과학회 가을 학술발표 논문집 (II), 제 29권 2호, pp. 670-672, 2002
    11. 계층적 군집화를 통한 이스트(Yeast) 단백질의 고차 상호 작용 추출, 엄재홍, 장병탁, 한국 정보과학회 가을 학술발표 논문집 (II), 제 29권 2호, pp. 364-366, 2002
    12. Co-Trained Support Vector Machines을 이용한 문서분류, 박성배, 장병탁, 한국 정보과학회 봄 학술발표 논문집 (B), 제 29권 1호, pp. 259-261, 2002
    13. 잠재의미구조 기반 단어유사도에 의한 역어 선택, 장정호, 김유섭, 장병탁, 한국정보과학회 봄 학술발표 논문집 (B), 제 29권 1호, pp. 502-504, 2002
    14. S-HMM을 이용한 텍스트 정보추출 , 엄재홍, 장병탁, 한국 정보과학회 봄 학술발표 논문집 (B), 제 29권 1호, pp. 328-330, 2002
    15. Latent variable model 기반 text learning에 관한 비교 연구, 장정호, 장병탁, 한국 뇌학회 학술대회 논문집,, pp. 120-121, 2002  


Project Title

LaText: Text Mining based on Latent Variable Models

Sponsor

Ministry of Science and Technology

Principal Investigator

Prof. Byoung-Tak Zhang

Researchers

Jong-Woo Lee Park

Jeong-Ho Chang

Jang-Min O

Kyu-Baek Hwang

Duration

August 2001 - May 2004

Cooperative Research Institute

Soongsil University,  Chonnam National University


Contact Jeong-Ho Chang
E-Mail jhchang@bi.snu.ac.kr
Phone +82-2-880-1847
Fax +82-2-875-2240


This page is maintained by Jeong-Ho Chang (jhchang@bi.snu.ac.kr).
Last Updates: April 28, 2003.