Knowledge Grid 분석 - 분산환경 기반 과학기술지식처리 지원 플랫폼 개발에 관한 연구

➀ Data Access Service(DAS)

- 추론된 모델(마이닝 결과)의 검색뿐만 아니라 마이닝될 데이터(데이 터 소스)의 출판과 검색을 담당

➁ Tools and Algorithms Access Service(TAAS)

- 추출 툴, 데이터 마이닝 툴, 시각화 툴의 출판과 검색을 담당

➂ Execution Plan Management Service(EPMS)

- 데이터 소스, 추출 툴, 데이터 마이닝 툴, 시각화 도구 사이의 데이터

흐름과 상호 작용을 기술하는 그래프에 의하여 실행 계획이 표현됨 - 실행 그래프를 생성함으로써 애플리케이션의 구조를 정의하고, 리소 스에 관련된 일련의 제약 사항을 추가함

➃ Result Presentation Service(RPS)

- 연관 규칙, 클러스터링 모델, 그리고 분류와 같은 추출된 지식 모델 을 제시하고 시각화하는 기능을 제공

2) 고 수준 K-Grid 레이어는 분산 지식 발견 작업을 구성하고 검증하고 실행하는 서비스들을 포함한다.

➀ Knowledge Directory Service(KDS)

- Knowledge Grid 리소스(호스트, 데이터, 레포지터리, 툴, 알고리즘, 실행 계획, 지식 모델 등)를 기술하는 메타데이터를 핸들링

- Knowledge Metadata Repository(KMR)에 저장

➁ Resource Allocation and Execution Management Service(RAEMS) - 추상화된 실행 계획의 제약 조건을 만족하는 적합한 리소스를 찾음 - 각 데이터 마이닝 프로세스의 리소스 요구사항을 정의하는 인스턴스 화된 실행 계획을 생성해서 Knowledge Execution Plan Repository(KEPR)에 저장하고 실행

- 애플리케이션을 실행하고, Knowledge Base Repository(KBR)에 실행 결과를 저장하는 작업을 관리

K-Grid의 클라이언트 인터페이스는 KDD(Knowledge Discovery in Databases) 애플리케이션을 디자인하고 작업을 제출하고 결과를 시각화하

EPMS로부터 통지를 받는다. K-Grid를 위한 클라이언트 인터페이스는 보 다 나은 디자인을 생성하기 위해서 K-Grid 환경에 의하여 제공되는 고 수준 서비스와 특징들을 이용한다. 이러한 과정을 통하여 사용자에게 분 산된 KDD 애플리케이션의 구성 절차를 쉽게 안내한다. 클라이언트 인터 페이스는 선택된 서비스가 어떻게 다른 서비스들과 상호 작용하는지를 반 영해야 하고 통합을 쉽게 할 수 있어야 한다. 게다가 실행에 대한 특정 요구 사항을 명시할 수 있어야 하고 결과에 대한 시각화를 허용해야 한 다.

그림 12는 K-Grid의 클라이언트 인터페이스인 VEGA를 이용하여 작업 구성을 수행한 예를 보여준다.

(그림 12) VEGA 인터페이스

VEGA에 의하여 제공되는 추상화를 사용함으로써 사용자는 하부의 그 리드 인프라스트럭처를 가지고 애플리케이션 구조를 연결시키는 작업을

직접적으로 수행할 필요가 없다. 결과적으로 VEGA는 EPMS와 다른 K-Grid 서비스들의 기능을 통합한다.

VEGA가 제공하는 특징은 다음과 같다.

➀ 작업 구성(task composition)

- 계산에 참여하는 개체를 정의하고 개체들 사이에 유지되는 관계를 명시

➁ 일관성 검사(consistency checking)

➂ 실행 계획 생성(execution plan generation)

- 계산 모델(computation model)을 XML로 표현되는 실행 계획 (execution plan)으로 변환

따라서 VEGA는 K-Grid 프레임워크 안에서 여러 개의 분산 데이터 마 이닝 애플리케이션을 구현하는데 사용된다.

Knowledge Grid 아키텍처는 그림 13과 같다.

(그림 13) Knowledge Grid 아키텍처

WSRF 매커니즘을 사용함으로써 K-Grid 서비스는 하나 이상의 오퍼레

이션을 제공하는 웹 서비스로 구성된다. 고 수준 K-Grid 서비스에 의하 여 제공되는 오퍼레이션은 사용자 수준 애플리케이션에 의하여 호출되도 록 디자인된다. 그리고 핵심 K-Grid 서비스에 의하여 제공되는 오퍼레이 션은 고 수준 및 핵심 K-Grid 서비스에 의하여 호출되도록 디자인된다.

그리고 사용자는 자신의 컴퓨터에 위치하는 클라이언트 인터페이스를 사 용하여 K-Grid 기능에 접근할 수 있다. 클라이언트 인터페이스는 임의적 으로 작성된 복잡한 실행 계획에 의하여 기술되는 분산 데이터 마이닝 애 플리케이션을 정의하는 것뿐만 아니라, 데이터와 소프트웨어의 검색, 데이 터 전송, 간단한 job 실행과 같은 기본적인 작업 수행을 허용하는 통합 비주얼 환경이다. 클라이언트 인터페이스는 그것의 작업을 서로 다른 고 수준 K-Grid 서비스에 의하여 제공되는 적절한 오퍼레이션을 호출함으로 써 수행하는데, 그러한 서비스들은 일반적으로 서로 다른 그리드 노드에 서 실행된다.

K-Grid 서비스는 3개의 필수 연산(operation)과 하나 이상의 서비스 특 징적인 연산을 제공한다. 3개의 필수 연산으로는 상태가 있는 리소스를 생성하기 위하여 사용되는 createResource 연산과 계산 결과에 대한 통보 를 요청하기 위해서 사용되는 subscribe 연산, 그리고 리소스를 제거하기 위해서 사용되는 destroy 연산이 있다.

K-Grid 서비스의 종류 및 관련 연산은 다음과 같다.

K-Grid는 WSRF 기반의 웹 서비스 버전을 사용함으로써 서비스 구성 및 통합 관점에서 서비스 대 서비스 상호작용을 단순화하면서도 확장성을 증대시킬 수 있는 이점을 얻게 되었다. 다시 말해서 K-Grid 서비스와 외 부의 웹 서비스 및 그리드 서비스와의 상호작용을 쉽게 통합할 수 있다.

결론적으로 데이터 마이닝 그리드 서비스는 인터넷에 산재되어 있는 많 은 양의 데이터 셋과 고 성능 컴퓨터를 사용하는 지식 발견 애플리케이션 을 개발하는데 필요한 핵심 요소이다. 본 장에서는 K-Grid 아키텍처 관 점에서 데이터 마이닝 그리드 서비스의 정의와 조합에 대해서 살펴보았 다. K-Grid는 데이터와 툴의 출판과 검색, 실행 제출 및 리소스 관리, 그 리고 처리된 결과의 제공과 같은 다양한 그리드 서비스와 연산을 제공한 다.

[참고문헌]

[1] P. Brezany, I. Janciak, and A. M. Tjoa, "GridMiner: A Fundamental Infrastructure for Building Intelligent Grid Systems", The 2005 IEEE/WIC/ACM International Conference on Web Intelligence (WI'05), pp. 150-156, Compiegne, France, September 19-22, 2005.

[2] C. Goble, C. Wroe, and R. Stevens, "The myGrid project: services, architecture and demonstrator", in All Hands Meeting, pp. 595-603, 2003.

[3] S. Alsairafi, F. S. Emmanouil, M. Ghanem, N. Giannadakis, Y. Guo, D. Kalaitzopoulos, M. Osmond, A. Rowe, J. Syed, and P. Wendel,

"The Design of Discovery Net: Towards Open Grid Services for Knowledge Discovery", International Journal of High Performance Computing Applications, Volume 17, Issue 3, pp. 297-315, 2003.

[4] Nhien-An Le-Khac, Tahar Kechadi, and Joe Carthy, "ADMIRE Framework: Distributed Data Mining on Data Grid Platforms", Proceedings of 1st International Conference on Software and Data Technologies ICSOFT'06, pp. 67-72, 2006.

[5] OGSA (Open Grid Services Architecture), http://www.globus.org/ogsa

[6] WSRF (Web Services Resource Framework), http://www.globus.org/wsrf

[7] Globus Toolkt 4,

http://www.globus.org/toolkit

[8] D. Talia, P. Trunfio, and O. Verta, "The Weka4WS framework for distributed data mining in service-oriented Grids", Concurrency and computation : practice & experience, v. 20, no. 16, pp. 1933-1951, John Wiley & Sons, 2008.

[9] A. Congiusta, D. Talia, and P. Trunfio, "Service-oriented middleware for distributed data mining on the grid", Journal of Parallel and Distributed Computing, Volume 68, Issue 1, pp. 3-15, 2007.

[10] D. Talia, and P. Trunfio, "How Distributed Data Mining Tasks can Thrive as Services on Grids", In Proc. of National Science Foundation Symposium on Next Generation of Data Mining and Cyber-Enabled Discovery for Innovation (NGDM'07), Baltimore, USA, 2007.

[11] A. Congiusta, D. Talia, and P. Trunfio, "Distributed data mining services leveraging WSRF", Future Generation Computer Systems 23, pp. 34-41, ELSEVIER, 2007.

[12] V. Stankovski, J. Trnkoczy, M. Swain, W. Dubitzky, V. Kravtsov, A. Schuster, T. Niessen, D. Wegener, M. May, M. Rohm, and J.

Franke, "Digging Deep into the Data Mine with DataMiningGrid", IEEE Internet Computing, pp. 69-76, 2008.

[13] S. P. Choi, S. H. Myaeng, and H. Y. Cho, "Guiding Practical Text Classification Framework to Optimal State in Multiple Domains", Transactions on Internet and Information Systems, Volume 3, Issue 3, pp. 285-307, 2009.

[14] S. P. Choi, C. H. Jeong, Y. S. Choi, and S. H. Myaeng, "Relation Extraction based on Extended Composite Kernel using Flat Lexical Features", Journal of KIISE : Software and Applications, vol. 36, no. 8, Aug. 2009. (in Korean)

[15] Globus Toolkit 4 Programmer’s Tutorial, http://gdp.globus.org/gt4-tutorial

[16] A. Harrison, I. Wang, I. Taylor, and M. Shields, "WS-RF Workflow in Triana", International Journal of High Performance

Computing Applications (IJHPCA) Special Issue on Workflow Systems in Grid Environments, 2007.

[17] D. Hull, K. Wolstencroft, R. Stevens, C. Goble, M. Pocock, P. Li, and T. Oinn, "Taverna: a tool for building and running workflows of services", Nucleic Acids Research, vol. 34, iss. Web Server issue, pp. 729-732, 2006.

[18] I. Altintas, C. Berkley, E. Jaeger, M. Jones, B. Ludascher, and S.

Mock, "Kepler: An extensible system for design and execution of scientific workflows", 16th International Conference on Scientific and Statistical Database Management, pp. 423-424, 2004.

[19] BPEL (Business Process Execution Language),

http://www.oasis-open.org/committees/tc_home.php?wg_abbrev=wsbpel [20] WSCI (Web Service Choreography Interface),

http://www.w3.org/TR/wsci

문서에서 분산환경 기반 과학기술지식처리 지원 플랫폼 개발에 관한 연구 (페이지 49-57)