FACT

Filtering And Classification of Texts


1. Project overview

   웹상의 정보의 증가로 인해 사용자는 예전보다 더 많은 정보에 접근할 수 있는 반면 다른 한 편으로는 급속하게 늘어난 수 많은 정보중에서 자신에게 유용한 정보를 찾는 데 더 많은 시간을 투자해야만 한다. 그리므로 컴퓨터가 사람을 대신하여 웹으로부터 양질의 정보를 찾아낸다면 사용자에게 매우 유용한 도구가 될 것이다. 이를 위해서는 웹을 포함한 인터넷에 존재하는 대규모의 전자 문서로부터 원하는 정보를 정확히 찾고 그 텍스트의 내용을 분석하여 사용자가 요구하는 정확한 정보를 제공할 수 있는 정보 분류 및 검색 기술의 개발이 필수적이다. 이에, 본 연구는 정보 분류 및 검색 기술을 개발한 후, 이를 바탕으로 지능형 온라인 뉴스 서비스 시스템을 개발하고자 한다. 이 시스템은 인터넷으로부터 사용자의 컴퓨터에 정보를 자동으로 전송해 주는 일종의 지능형 푸쉬(push) 서비스로서, 이 서비스를 이용함으로써 사용자는 많은 시간을 절약할 수 있다. 즉 인터넷을 서핑하며 원하는 정보를 찾아 다니는 대신 주문된 정보(customized information)가 여러 사이트로부터 자동으로 수집되어 사용자에게 전자 메일이나 웹 페이지의 형태로 배달되는 것이다.


 

 

2. 연구 목표

인터넷 상에서 내용 기반의 대규모의 텍스트 분류 및 여과 기술을 개발하고 이를 이용하여 고도로 정제된 뉴스 기사를 제공하는 지능형 개인 정보 서비스 시스템을 개발

1차년도 오프라인 대규모 텍스트 분류 기술 개발
2차년도 온라인 대규모 텍스트 여과 및 검색 기술 개발
3차년도 지능형 온라인 뉴스 서비스 시스템 개발 및 성능 평가


3. Publications
  • S. Kim and B-T. Zhang, Genetic Mining of HTML structures for Effective web-document retrieval, Applied Intelligence (Special Issue on Text and Web Mining), 1999 (accepted).
  • Y-W. Seo and B-T. Zhang, Personalized web-document filtering using reinforcement learning, Applied Artificial Intelligence, 1999 (accepted).
  • S-B. Park, B-T. Zhang, and Y-T. Kim, Word sense disambiguation by learning decision trees from unlabeled data, Applied Intelligence, 2000 (accepted).
  • Y-H. Kim, S-B. Park, and B-T. Zhang, Text filtering using unlabeled documents, In Proc of the 23th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR-2001), 2001 (submitted).
  • S-B. Park, Y-H. Kim, and B-T. Zhang, Automatic webpage classificatoin enhanced by data, In Proc. of the 17th Int. Joint Conf. on Artificial Intelligence(IJCAI-2001), 2001 (submitted).
  • J-H. Chang and B-T. Zhang, Using stochastic helmholtz machine for text learning, In ICCPOL 2001, 2001 (accepted).
  • S. Kim and B-T. Zhang, Evolutionary learning of web-document structure for information retrieval, The 2001 Congress on Evolutionary Computation(CEC 2001), 1999 (accepted).
  • Y-H. Kim, S. Kim, J-H. Eom, and B-T. Zhang, TREC-9 Experiments, Text REtrieval Conference (TREC-9), 2000.
  • H-J. Shin and B-T. Zhang, Extracting topic words and clustering documents using probabilistic graphical models, ACM SIGKDD International Conference on Knowledge Discovery & Data Mining Workshop on Text Mining, 2000.
  • J-H. Chang and B-T. Zhang, Text categorization using stochastic helmholtz machines, ACM SIGKDD International Conference on Knowledge Discovery & Data Mining Workshop on Text Mining, 2000.
  • S. Kim and B-T. Zhang, Web-document retrieval by genetic learning of importance factors for HTML tags, Pacific Rim International Conference on Artificial Intelligence (PRICAI 2000), 2000.
  • Y-H. Kim, S-Y. Hahn, and B-T. Zhang, Text filtering by boosting naive bayes, 24th Annual International ACM SIGIR Conference (SIGIR-2000), 2000.
  • S-B. Park, B-T. Zhang, and Y-T. Kim, Word sense disambiguation by learning decision trees from unlabeled data, Annual Meeting of the Association for Computational Linguistics, 2000.
  • Y-W. Seo and B-T. Zhang, Learning user's preferences by analyzing web-browsing behaviors, ACM International Conference on Automous Agents (Agents-2000), 2000.
  • Y-W. Seo and B-T. Zhang, A reinforcement learning agent for personalized information filtering, International Conference on Intelligent User Interfaces (ACM IUI'2000), 2000.
  • D-H. Shin, Y-H. Kim, S. Kim, J-H. Eom, and B-T. Zhang, TREC-8 Experiments, Text REtrieval Conference (TREC-8), 1999.
  • D-H. Shin and B-T. Zhang, A two-stage retrieval model for the TREC-7 Ad-hoc task, Text REtrieval Conference (TREC-7), 1998.
  • 양진산, 장병탁, 베이지안 네트워크를 이용한 전자상거래 고객들의 성향 분석한국퍼지 및 지능시스템학회, 11(1):2-8, 2001.
  • 서영우, 장병탁, Learning Agents, 한국정보과학회 (B), 18(5):26-35, 2000.
  • 한상윤, 장병탁, 부스팅 학습을 이용한 문서여과, 한국정보과학회 (B), 2000 (submitted).
  • 장정호, 장병탁, Competitive Unit을 사용한 Helmholtz machine에 의한 문서 클러스터링한국정보과학회 봄 학술 발표 논문집, 2001 (submitted).
  • 문현구, 장병탁, 채팅 텍스트로부터의 화자감정 상태 학습,한국정보과학회 봄 학술 발표 논문집, 2001 (submitted).
  • 김유환, 장병탁, 베이지안 부스팅 학습에 의한 문서 분류, 한국정보과학회 봄 학술 발표 논문집 (B) 27권 1호, 2000.
  • 엄재홍, 장병탁, 대규모 문서 데이터 집합에서 Q&A를 위한 질의문 분류 기법, 한국정보과학회 봄 학술 발표 논문집 (B) 27권 1호, 2000.
  • 박성배, 장병탁, 김영택, 의미 부착이 없는 데이터로부터의 학습을 통한 의미 중의성 해소, 한국정보과학회 봄 학술 발표 논문집 (B) 27권 1호, 2000.
  • 신형주, 장병탁, 김영택, 텍스트 문서의 주제어 추출을 위한 확률적 그래프 모델의 학습, 한국정보과학회 봄 학술 발표 논문집 (B) 27권 1호, 2000.
  • 김선, 장병탁, 진화연산을 이용한 웹 문서의 특성 학습, 한국 퍼지 및 지능시스템 학회 춘계 학술발표 논문집 10권 1호, 2000.
  • 신형주, 장병탁, 김영택, 대용량 문서분류에서의 비선형 주성분 분석을 이용한 특징 추출, 한국정보과학회 봄 학술 발표 논문집 (B) 26권 2호, 1999.
  • 서영우, 장병탁, 웹 정보 검색 환경에서의 사용자 기호 학습, 한국정보과학회 봄 학술 발표 논문집 (B) 26권 2호, 1999.
  • 오장민, 장병탁, 김영택, SVM학습을 이용한 다중 클래스 뉴스 그룹 문서 분류, 한국정보과학회 봄 학술 발표 논문집 (B) 26권 2호, 1999.
  • 장정호, 장병탁, 김영택, 최대 엔트로피 기반 문서 분류기의 학습, 한국정보과학회 봄 학술 발표 논문집 (B) 26권 2호, 1999.
  • 신동호, 장병탁, 계층적 클러스터링을 이용한 텍스트 정보 검색 모델, 인공지능, 신경망 및 퍼지시스템 종합학술대회 (JCEANF'99), 1999.
  • 김유환, 장병탁, 베이지안 분류학습을 위한 텍스트 데이터의 독립성분분석, 인공지능, 신경망 및 퍼지시스템 종합학술대회 (JCEANF'99), 1999.
  • 서영우, 장병탁, 개인 취향의 정보 여과를 위한 강화학습 에이전트, 정보과학의 통계학 응용 학술회의 논문집, 1999.
  • 신동호, 장병탁, 2단계 모델을 이용한 TREC Ad-hoc 실험, 한국정보과학회 봄 학술 발표 논문집 (B) 26권 1호, 1999.
  • 서영우, 장병탁, 강화학습을 이용한 인터넷 문서 여과, 한국정보과학회 봄 학술 발표 논문집 (B) 26권 1호, 1999.


Project Title

대학기초연구지원사업

Sponsor

정보통신부

Duration

July 1 1998 - June 30 2001

Principal Investigator

Prof. Byoung-Tak Zhang

Researchers

Seong-Bae Park

Jong-Woo Lee

Jae-Hong Eom

Sang-Jun Park

Dong-Yeon Cho


Contact

Yu-Hwan Kim

Phone

+82-2-880-7300

Fax

+82-2-875-2240


This page is maintained by Yu-Hwan Kim (yhkim@scai.snu.ac.kr). Last update: October 21, 2000.