• 검색 결과가 없습니다.

Comparison analysis of big data integration models

N/A
N/A
Protected

Academic year: 2021

Share "Comparison analysis of big data integration models"

Copied!
14
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2017, 28

(

4)

,

755–768

빅데이터 통합모형 비교분석

ᆼᄇᆼᄒ

1

· ᄋᆷᄃᆼᄒ

2

1ᆼᄉᆼᄂᆷ도 도ᄎ2ᆼᄉᆼ대ᄒᆨ교 ᄌᆼ보톄ᄒᆨᄀ

ᄌ ᅥ

ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2017ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ

요 약

ᄇ ᅵ

ᆨᄃ ᅦᄋ ᅵᄐ ᅥᄀ ᅡ 4ᄎ ᅡ ᄉ ᅡ ᆫᄋ ᅥ ᆸᄒ ᅧ ᆨᄆ ᅧ ᆼᄋ ᅴ ᄒ ᅢ ᆨᄉ ᅵ ᆷᄋ ᅳᄅ ᅩ ᄌ ᅡᄅ ᅵᄒ ᅡᄆ ᅧ ᆫᄉ ᅥ ᄇ ᅵ ᆨᄃ ᅦᄋ ᅵᄐ ᅥ ᄀ ᅵᄇ ᅡ ᆫ ᄎ ᅥᄅ ᅵ ᄆ ᅵ ᆾ ᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄂ ᅳ ᆼᄅ ᅧ ᆨᄋ ᅵ ᄀ ᅵᄋ ᅥ ᆸᄋ ᅴ ᄆ ᅵ ᄅ

ᅢ ᄀ ᅧ ᆼᄌ ᅢ ᆼᄅ ᅧ ᆨᄋ ᅳ ᆯ ᄌ ᅪᄋ ᅮᄒ ᅡ ᆯ ᄌ ᅥ ᆫᄆ ᅡ ᆼᄋ ᅵᄃ ᅡ. ᄇ ᅵ ᆨᄃ ᅦᄋ ᅵᄐ ᅥ ᄎ ᅥᄅ ᅵ ᄆ ᅵ ᆾ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄋ ᅱᄒ ᅡ ᆫ RHadoopᄀ ᅪ RHIPE ᄆ ᅩᄒ ᅧ ᆼᄋ ᅳ ᆫ Rᄀ ᅪ Hadoopᄋ ᅴ ᄐ ᅩ ᆼ ᄒ ᅡ ᆸᄆ ᅩᄒ ᅧ ᆼᄋ ᅳᄅ ᅩ ᄌ ᅵ ᄀ ᅳ ᆷ ᄁ ᅡᄌ ᅵ ᄀ ᅡ ᆨᄀ ᅡ ᆨᄋ ᅴ ᄆ ᅩᄒ ᅧ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅢᄉ ᅥᄂ ᅳ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅡ ᄆ ᅡ ᆭᄋ ᅵ ᄌ ᅵ ᆫᄒ ᅢ ᆼᄃ ᅬᄋ ᅥ ᄋ ᅪ ᆻ ᄋ ᅳᄂ ᅡ ᄃ ᅮ ᄆ ᅩᄒ ᅧ ᆼ ᄀ

ᅡ ᆫ ᄇ ᅵᄀ ᅭ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄀ ᅥᄋ ᅴ ᄋ ᅵᄅ ᅮᄋ ᅥ ᄌ ᅵᄌ ᅵ ᄋ ᅡ ᆭᄋ ᅡ ᆻᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄃ ᅢᄋ ᅭ ᆼ ᄅ ᅣ ᆼᄋ ᅴ ᄉ ᅵ ᆯᄌ ᅦ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅪ ᄆ ᅩᄋ ᅴᄉ ᅵ ᆯᄒ ᅥ ᆷ ᄃ ᅦᄋ ᅵᄐ ᅥ ᄋ

ᅦᄉ ᅥ ᄃ ᅡᄌ ᅮ ᆼ ᄒ ᅬᄀ ᅱ (multiple regression)ᄋ ᅪ ᄅ ᅩᄌ ᅵᄉ ᅳᄐ ᅵ ᆨ ᄒ ᅬᄀ ᅱ (logistic regression) ᄎ ᅮᄌ ᅥ ᆼᄋ ᅳ ᆯ ᄋ ᅱᄒ ᅡ ᆫ ᄆ ᅥᄉ ᅵ ᆫᄅ ᅥᄂ ᅵ ᆼ (machine learning) ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷᄋ ᅳ ᆯ MapReduce ᄑ ᅳᄅ ᅩᄀ ᅳᄅ ᅢ ᆷ ᄀ ᅮᄒ ᅧ ᆫᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ RHadoopᄀ ᅪ RHIPE ᄀ ᅡ ᆫᄋ ᅴ ᄇ ᅵ ᄀ

ᅭ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄀ ᅩᄌ ᅡ ᄒ ᅡ ᆫᄃ ᅡ. ᄀ ᅮᄎ ᅮ ᆨᄃ ᅬ ᆫ ᄇ ᅮ ᆫ ᄉ ᅡ ᆫ ᄏ ᅳ ᆯ ᄅ ᅥᄉ ᅳᄐ ᅥ (distributed cluster) ᄒ ᅡᄋ ᅦᄉ ᅥ ᄃ ᅮ ᄆ ᅩᄒ ᅧ ᆼᄀ ᅡ ᆫ ᄉ ᅥ ᆼᄂ ᅳ ᆼ ᄉ ᅵ ᆯᄒ ᅥ ᆷ ᄀ ᅧ ᆯᄀ ᅪ, RHIPEᄋ ᅳ ᆫ RHadoopᄋ ᅦ ᄇ ᅵᄒ ᅢ ᄃ ᅢᄎ ᅦᄅ ᅩ ᄈ ᅡᄅ ᅳ ᆫ ᄎ ᅥᄅ ᅵᄉ ᅩ ᆨ ᄃ ᅩᄅ ᅳ ᆯ ᄇ ᅩᄋ ᅵ ᆫ ᄇ ᅡ ᆫᄆ ᅧ ᆫᄋ ᅦ ᄉ ᅥ ᆯᄎ ᅵ, ᄉ ᅡᄋ ᅭ ᆼᄆ ᅧ ᆫᄋ ᅦᄉ ᅥ ᄋ ᅥᄅ ᅧᄋ ᅮ ᆷᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅧ ᆻ ᄃ

ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄇ ᅵ ᆨᄃ ᅦᄋ ᅵᄐ ᅥ, ᄃ ᅡᄌ ᅮ ᆼ ᄒ ᅬᄀ ᅱ, ᄅ ᅩᄌ ᅵᄉ ᅳᄐ ᅵ ᆨ ᄒ ᅬᄀ ᅱ, RHadoop, RHIPE.

1. 서론

ᅩᄂᆯ 4차 ᄉᆫᄋᆸᄒᆨᄆᆼ이 미래 시대ᄅᆯ어ᄀᆯ 최대 화두이다. 4차 ᄉᆫᄋᆸᄒᆨᄆᆼᄋᆫ ᄋᆫ기니ᄇᆫ 디지ᄐᆯ ᄀ

ᅵ 사뫄 ᄋᆫᄀᆯ되ᄂ ᅩᄋᆫᄀᆯ (hyperconnectivity) · 초지ᄂᆼ (superintelligence)ᅵ대ᄅ ᅡ리키네 ᄇ

ᅦ이터가 4차 ᄉᆫᄋᆸᄒᆨᄆᆼ의 ᄒᆨᄉᆷ기소 부ᄉᆼ하고 ᄋᆻ다. 따라서 4차 ᄉᆫᄋᆸᄒᆨᄆᆼ의 ᄉᆼ패 ᄋᆯ쇠ᄂᆫ ᄇᆨ데이터ᄀ

ᆽ고 ᄋᆻ다고 ᄒᆯ 수 ᄋᆻ다 (Jee, 2017).

ᆫ 고ᄇᆯ IT 시ᄌᆼ조사ᄀ IDCᅴ 보고서에 의하ᄆᆫ 애 세계 ᄇᆨ데이터 ᄆᆾ ᄇᆫᄉᆨ 시ᄌᆼ의 규모ᄂ 1500ᄋᆨ ᄃᆯ러 (ᄋᆨ 172조 ᄋᆫ)ᄅᆷᄋᆺ으로 예ᄉᆼ하고, 2020ᄂᆫ이 되ᄆᆫ 2100ᄋᆨ ᄃᆯ러 (ᄋᆨ 239조 ᄋᆫ)ᅴ 규ᄆ

ᆯ ᄀᆺ으로 내다보고 ᄋᆻ다. 개 ᄇᆨ데이터 시ᄌᆼ ᄋᆨ시 세계 ᄌᆼ세에 따라 ᄂᇁᄋᆼᄌᆼᄋᆯ이ᄅᆺ으로 ᄋ

ᆼ되나에 ᄇᆨ데이터 기ᄇᆫ ᄇᆫᄉᆨ ᄆᆾ 예ᄎᆨ ᄂᆼᄅᆨᄋᆷᄋᆼ,ᅲᄐᆼ, ᄐᆼᄉᆫ ᄃᆫᄋᆸ ᄌᆫᄇᆫ에 ᄀᆯ쳐 주요 ᄀᆼᄌᆼᄅᆨᄋ

ᆯ ᄌᆫᄆᆼ이다 (IDC, 2015).

Hadoop애ᄋᆼ 데이터ᄅᆯ ᄇᆫ저ᄌᆼ ᄆᆾ 처리ᄒᆯ 수 ᄋᆻ노포스 프레ᄋᆷ워크로 자지 ᄂᆯ리 사ᄋ

ᅬ고 ᄋᆻ으나 기ᄇᆫᄌᆨ으로 제괴ᄂ ᅦ이터 ᄇᆫᄉᆨ도구의 부재로 ᄋᆫ하여 데이터 과ᄒᆨ자ᄃᆯᄋᆫ Hadoop ᆼᄋ

ᅥ 데이터 ᄇᆫᄉᆨ위ᄒᆫ ᄇᆯ도의 도구ᄅᆯ ᄑᆯ요로 하고 ᄋᆻ다. ᄆᆯᄅᆫ Hadoopᅵᄇᆫ 대ᄋᆼ 데이터 ᄇᆫᄉᆨᄋ

ᆫ 아파치 마하ᄋᆺ (Apache Mahout)ᅪ ᄀᇀ어ᄉᆫ러ᄂᆼ 라이브러리 (machine learnig library)가 ᄋᆻ으ᄂ

ᅡ바ᄋᆫ어로 구ᄒᆫ되어 ᄋᆻ고 또ᄒᆫ ᄀᆫᄌᆸ, 뷰, ᄒᆸᄋᆸᄑᆯ터ᄅᆼ 뱌에 ᄀᆫ되어 ᄋᆻ어 ᄇᆷᄋᆼᄉᆼ이 ᄄᆯ어지ᄂᆫᄌ

1

(51154) ᄀ ᅧ ᆼᄉ ᅡ ᆼᄂ ᅡ ᆷᄃ ᅩ ᄎ ᅡ ᆼᄋ ᅯ ᆫ ᄉ ᅵ ᄋ ᅴᄎ ᅡ ᆼᄀ ᅮ ᄌ ᅮ ᆼ ᄋ ᅡ ᆼᄃ ᅢᄅ ᅩ 300, ᄃ ᅩᄎ ᅥ ᆼ, ᄀ ᅩ ᆼ ᄆ ᅮᄋ ᅯ ᆫ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (52828) ᄀ ᅧ ᆼᄂ ᅡ ᆷ ᄌ ᅵ ᆫᄌ ᅮᄉ ᅵ ᄌ ᅵ ᆫᄌ ᅮᄃ ᅢᄅ ᅩ 501, ᄀ ᅧ ᆼᄉ ᅡ ᆼᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ ᄆ ᅵ ᆾ RINS.

E-mail: [email protected]

(2)

ᅵ ᄋᆻ다. 오ᄂᆯ 톄 프로그ᄅᆷ ᄋᆫ어 R우ᄀᆯ, ᅦ이스ᄇᆨ, ᅩ라ᄏᆯ, IBM, SAP 듸 ᄇᆫᄉᆨᄋᆫᄌᆫ으로 ᄎ

ᆨᄒᆯ ᄌᆼ도로 톄 ᄇᆫᄉᆨ ᄆᆾ 뛰어ᄂᆫ 그래ᄑᆨ 기ᄂᆼᄋᆽ고 ᄋᆻ으나 대ᄋᆼ 데이터 처리ᄅ ᅱᄒᆫ 스케ᄋ

ᆼ(scalability)ᄋᆽ고 ᄋᆻ지 ᄋᆭ다.

ᆫ ᄂᆫ메서ᄂᆫ Rᅪ Hadoop의 ᄐᆸ모ᄒᆼᄋᆫ RHadoop과 RHIPEᄋ ᅵ아여 대ᄋᆼ 데이터에서 ᄃ

ᅬ귀 (multiple regression)와 로지스ᄐᆨ 회귀 (logistic regression) 추ᄌᆼ위ᄒᆫ 머ᄉᆫ러ᄂᆼ ᄋᆯ고리ᄌᆷᄋ Hadoopᅴ MapReduce 구ᄒᆫᄋᆯ 태 두 ᄐᆸ모ᄒᆼᄀᆫ 비교ᄇᆫᄉᆨ하고자 ᄒᆫ다. R과 Hadoop의 ᄐᆸ모ᄒᆼᄋ

ᆫ RHadoopᅪ RHIPE 외에 여러가지 모ᄒᆼ이 ᄋᆻ다. 예ᄅᆯ ᄃᆯᄆᆫ, R Streаming 모ᄒᆼ, RHive 모ᄒᆼ ᄃ

ᆻ다. R Streаming 모ᄒᆼᄋᆫ MapReduceᆨᄋᆸᄋᆯ R ᄋᆫ어로 구ᄒᆫᄒᆫ 다ᄋᆷ Hadoop Streaming아아ᄋ Hadoop ᄆᆼᄅᆼ 라ᄋᆫ (commаnd line)에서 ᄉᆯᄒᆼ하ᄂᆼᄉᆨ으로 사아기 ᄀᆫᄑᆫᄒᆫ ᄇᆫᄆᆫ에 카이ᄋᆫ트 ᄎᆨᄆ

ᅦ서 ᄐᆸ이 아니다. 그리고 RHive 모ᄒᆼᄋᆫ Rᅪ 대ᄋᆼ 데이터 웨어하우스 시스ᄐᆷᄋᆫ Hive와 ᄋᆫ다ᄋ SQL ᄋᆫ어ᄋᆫ HiveQL라아여 데이터 ᄌᆸᄀᆫ ᄆᆾ ᄇᆫᄉᆨ위ᄒᆫ 모ᄒᆼ이다.

ᅮ리의 RHadoop 모ᄒᆼᄋᆫ Hadoop Streamingᅴ 래퍼 (wrapper)처ᄅᆷ ᄌᆨ되ᄂᆫ R ᅢ키지 ᄌᆨ (fam- ily of R packages)ᅳ로서 Park ᄃᆼ (2013), Oanceaᅪ Dragoescu (2014), Rotte ᄃᆼ (2015), Harish

ᆼ (2015), Shin ᄃᆼ (2015, 2016)ᅦ 의해 ᄋᆫ구되ᄋᆻ고, RHIPE 모ᄒᆼᄋᆫ Hadoopᅴ 구ᄉᆼ요소ᄋᆫ HDFS (Hadoop Distributed File System)ᅪ MapReduce ᄌᆨᄋᆸᄋ ᅵ하ᄂ ᅡ나의 ᄇᆼ대ᄒᆫ R 패키지로ᄉ Guha ᄃᆼ (2012), Koᅪ Kim (2013), Lin ᄃᆼ (2013), Oanceaᅪ Dragoescu (2014), Hafen ᄃᆼ (2014), Jung ᄃᆼ (2014, 2016)ᅦ 의해 ᄋᆫ구되ᄋᆻ다. 자지 두 ᄐᆸ모ᄒᆼ RHadoop과 RHIPEᄀᆫ 비교ᄂᆫᄋ

ᅦ기 (word count)와 ᄀᇀᄋᆫᄉᆫ ᄌᆨᄋᆸ에서 비교레외하고ᄂ ᅥ의 이루어 지지 ᄋᆭᄋᆻ다 (Prakash ᄋ Bejda, 2015).

Figure 1.1 Integrated architecture of R with Hadoop

Rᅪ Hadoop의 ᄐᆸ모ᄒᆼ의 구조ᄂᆫ Figure 1.1ᅪ ᄀᇀ이 레이어 아키ᄐᆨ처 (layered architecture) ᄒᆼᄐ

ᅩ 나타ᄂᆯ 수 ᄋᆻ다 (Forte, 2015; White, 2012). Figure 1.1의 ᄐᆸ구조ᄂ ᅧ러 대의 ᄏᆷ퓨터도 구ᄉ

ᅬ어 ᄋᆻ나드웨어 레이어 (hadware layer), HDFS와 MapReduce로 이루어ᄌᆫ Hadoop 프레ᄋᆷ워크ᄋ

ᅵ뒈어 레이어 (middleware layer), R의 톄ᄌᆨ 레이어 (statistical layer), 그리고 Hadoop 프레ᄋᆷᄋ

ᅳ 사이에서 ᄋᆫ터페이스 ᄋᆨᄒᆯ아ᄂᆫ ᄋᆫ터페이스 레이어 (interface layer)로 구ᄉᆼ되어 ᄋᆻ다. 톄ᄌᆨ ᄅ

ᅵ어에ᄂᆫ Rᅬ에 Hadoop과 ᄋᆫ디 가ᄂᆫ SPSS, SAS와 ᄀᇀᄋᆫ 톄 프로그ᄅᆷ이 ᄋᆻ으나 이드로그ᄅ

ᆯ유료이ᄆᆫ서 최ᄉᆫ 라이브러리레가네 ᄒᆫ계가 ᄋᆻ고 또ᄒᆫ Java, C, Python 돠의 ᄋᆫ다ᄂ

(3)

ᅥ려이 ᄋᆻ다. RHadoop과 RHIPEᄋᆫ Rᅪ Hadoop사이의 ᄋᆫ터페이스 레이어에 사ᄂ ᅢ표ᄌᆨᄋᆫ ᄐ

ᆸ모ᄒᆼ이다 (Oancea 와 Dragoescu, 2014).

ᆫ ᄂᆫ메서 두 ᄐᆸ모ᄒᆼ RHadoop과 RHIPEᄀᆫ 비교ᄇᆫᄉᆨᄋ ᅱ해 ᄆᆫ저 다ᄌ ᅬ귀와 로지스ᄐᆨ 회ᄀ

ᅮᄌᆼ위ᄒᆫ ᄇᆫ처리ᄋᆼ 커스터 (distributed cluster)루차고, ᄉᆯ제 데이터와 모의ᄉᆯᄒᆷ 데이터ᄋ

ᅥ RHadoop과 RHIPE 모ᄒᆼᄋᆼᄉᆼᄋᆯ아보기 위해 기ᄇᆫ Rᅢ키지에서 회귀 ᄇᆫᄉᆨ에 대ᄒᆫ lm() ᄒ

ᅮ와 로지스ᄐᆨ 회귀 ᄇᆫᄉᆨ에 대ᄒᆫ glm() ᄒᆷ수 그리고 bigmemory 패키지에서 biglm()ᄒᆷ수와 bigglm()

ᆷ수와의 처리소리교ᄒᆫ다. 그리고 두 모ᄒᆼ RHadoop과 RHIPE ᄀᆫ의 처리 소ᄅ ᅵ교하고자 ᄒ

ᅡ.

ᆫ ᄂᆫ믜 구ᄉᆼ아와 ᄀᇀ다. 제 2 ᄌᆯ에서ᄂᆫ Rᅪ Hadoop의 ᄐᆸ모ᄒᆼᄋᆫ RHadoop과 RHIPE의 ᄀ

ᅭ에 대해 ᄉᆯ펴보고, 제 3 ᄌᆯ에서나죄귀와 로지스ᄐᆨ 회귀 추ᄌᆼ ᄋᆯ고리제 대해 ᄉᆯ펴보고자 ᄒᆫ다.

ᅳ리고 제 4 ᄌᆯ과 제 5 ᄌᆯ에서ᄂᆨᄀᆨ RHadoop과 RHIPE의 ᄉᆯᄒᆷᄒᆫᄀᆼ과 ᄉᆼᄂᆼᄇᆫᄉᆨ에 대해 ᄉᆯ펴보고, ᄌ 6 ᄌᆯ에서 ᄀᆯᄅᆫᄋᆽ고자 ᄒᆫ다.

2. R과 Hadoop의 통합모형 개요

2.1. RHadoop 모형

RHadoopᅩᄒᆼᄋᆫ Rᅪ Hadoop 사이 카이ᄋᆫ트 ᄎᆨᄆᆫ에서 ᄐᆸ에가ᄂᆫ Revolution Analytics

ᅦ 의해 개보프 소스 프로ᄌᆨ트이다. RHadoopᄋᆫ 5ᅢ의 R 패키지도 구ᄉᆼ되어 ᄋᆻ고 그 제서 ᄌ

ᅭ 패키지ᄂᆫ rmr, rhdfs, rhbaseᅵ다. rmr 패키지ᄂᆫ Rᅪ MapReduce 사이의 ᄋᆫ터페이스 ᄋᆨᄒᆯ아고, rhdfsᅢ키지ᄂᆫ Rᅪ HDFSᄅᆫᄀᆯ시켜주ᄂᆨᄒᆯ아고, rhbase 패키지ᄂᆫ Rᅦ서 HBase 데이터베이ᄉ

ᅵ하ᄂᆨᄒᆯᄋᆫ다. 이대키지ᄃᆯᄋᆨ 노드에 ᄉᆯ치되어 네트워크 ᄐᆼᄉᆫᄋᆯ 태 ᄇᆫ처리루ᄒᆼᄒ

ᅡ. RHadoop ᄉᆯ치니라ᄅᆫ Rᅢ키지데 의ᄌᆫ (dependency)ᅡ지ᄆᆫ 매우 ᄀᆫᄃᆫ하다.

ᅡᄋᆷᄋᆫ RHadoopᅩᄒᆼ에서 MapReduce 프로그ᄅᆷ ᄌᆨᄉᆼ에 대해 ᄃᆫ어세기에 대ᄒᆫ 예라지고 Mapᄀ Reduceᅩ 나누어 ᄉᆯᄆᆼ하고자 ᄒᆫ다. 다ᄋᆷᄋᆫ Mapᅳ로그ᄅᆷ아타내고 ᄋᆻ다.

map = f unction(., val){

listOf words ← strsplit(val, split = ” ”) words ← unlist(listOf words)

keyval(words, 1) }

ᅱ map ᄒᆷ수ᄂᆫ HDFSᅦ 저ᄌ<ᅵ, ᄀᆹ> ᄒᆼ태의 데이터리스트 ᄒᆼ태로 ᄋᆰ어서 처리ᄒᆫ다. 이 ᄄ

ᅦ이터ᄂᆫ strsplit()ᆷ수라아여 ᄀᆼᄇᆨ이즈로 ᄃᆫ어ᄇᆯ로 쪼개어 ᄇᆫ수에 저ᄌᆼᄒᆫ다. 그리고 ᄀᆨ ᄃ

ᅥᄇᆯ로 쪼개ᄌᆫ 데이터ᄂᆫ unlist() ᆷ수에 의해 ᄇᆨ터 ᄒᆼ태로 ᄇᆫ회고 keyval() ᄒᆷ수ᄅ ᅵ아여 <키,

ᆹ> ᄒᆼ태로 HDFS에 보내ᄌᆫ다. 여기서 <키>ᄂᆫ어, <ᄀᆹ>ᄋᆫ어의 개수라타ᄂᆫ다. 다ᄋᆷᄋᆫ Re- duceᅳ로그ᄅᆷ아타내고 ᄋᆻ다.

reduce = f unction(key, val){

keyval(key, sum(val)) }

ᅱ reduce ᄒᆷ수ᄂᆫ mapᆷ수에 의해 ᄉᆼᄉᆼᄃ<ᅵ, ᄀᆹ>에 대해 ᄃᆫ어의 개수ᄅᆯ기위해 <키>리ᄌ

ᅳ로 <ᄀᆹ>데 대해 ᄒᆸᄉᆫ하고 그 ᄀᆯ과ᄅᆯ keyval()ᆷ수ᄅᆯ 태 HDFS로 보내ᄌᆫ다. 다ᄋᆷᄋᆫ mapreduce

(4)

ᆷ수의 사ᄋᆼ태이다.

mapreduce(input, output, input.f ormat, map, reduce, combine)

ᅱ mapreduce ᄒᆷ수에서 input ᄋᆫ자, output ᄋᆫ자, map ᄋᆫ자, reduce ᄋᆫ자 뎌러가지 ᄋᆫ자리ᄌ

ᆫ다. 여기서 input ᄋᆫ자ᄂᆫ HDFSᆼ의 ᄋᆸᄅᆨ 파ᄋᆯ이ᄌᆼ하고 output ᄋᆫ자ᄂᆫ HDFSᆼ의 ᄎᆯᄅᆨ 파ᄋᆯᄋ

ᅵᄌᆼᄒᆫ다.

2.2. RHIPE 모형

RHIPE ᅩᄒᆼᄋᆫ 애 D&R (divide and recombine)이라ᄂᆫ ᄇᆫᄉᆨ기ᄇᆸᄋᆯ 태 대ᄋᆼ의 ᄇᆸᄒᆫ 데이ᄐ

ᆨᄋ ᅦ이터 ᄉᆺ (subset)으로 나누어 (divide) ᄇᆫᄉᆨᄒᆫ 다ᄋ ᆫ체 데이터에 대해 ᄀᆯ과ᄅ ᅢ조ᄒᆸ (re- combine)ᅡᄂ ᆼᄉᆨ으로 MapReduce ᄌᆨᄋᆸᄋ ᅮᄒᆼᄒᆫ다. RHIPEᄋ ᆨ 데이터노드 (dаtаnode)에 대ᄒ R, ᅳ로토커퍼 (protocol buffer)ᄅ ᆯ치해야ᄒᆷ으로 RHadoop에 비해 다소 ᄉᆯ치가 어ᄅᆸ다. 여기ᄉ

ᅳ로토커퍼누조헤이터ᄅᆯ ᄌᆨᄅᆯ화 (data serialization) ᄒᆯ 수 ᄋᆻᄂᆼᄒᆼ 메커니지다.

ᅡᄋᆷᄋᆫ어 세기에 대ᄒᆫ 예라지고 RHIPE 모ᄒᆼ에서 MapReduce 프로그ᄅᆷᄋᆯ Mapᅪ Reduceᄅ

ᅡ누어 ᄉᆯᄆᆼ하고자 ᄒᆫ다. 다ᄋᆷᄋᆫ Mapᅳ로그ᄅᆷ아타내고 ᄋᆻ다.

map = expression({

listOf words ← strsplit(map.values, split = ” ”) words ← unlist(listOf words)

rhcollect(words, 1) })

ᅱ map ᄒᆷ수ᄂᆫ HDFSᅦ ᄋᆻᄂᆫ <ᅵ, ᄀᆹ> ᄒᆼ태의 데이터리스트 ᄒᆼ태로 ᄋᆰ어서 처리ᄒᆫ다. 그리ᄀ rhcollectᆷ수ᄂᆫ mapᅢ스크의 ᄀᆯ과ᄅᆯ <ᅵ, ᄀᆹ> ᄒᆼ태의 데이터로 reduce 태스크로 ᄌᆫᄉᆫ다. 다ᄋᆷᄋ Reduceᅳ로그ᄅᆷ아타내고 ᄋᆻ다.

reduce = expression(

pre ← {hap = 0},

reduce ← {hap ← sum(hap, unlist(reduce.values)}, post ← {rhcollect(reduce.key, hap)}

)

ᅱ reduce ᄒᆷ수ᄂᆫ 3ᅢ의 ᄋᆫ자 pre, reduce 그리고 post로 구ᄉᆼ되어 ᄋᆻ다. ᄎᆺᄇᆫ째 pre ᄋᆫ자ᄂ ᅡᄋ

ᆫ ᄇᆫ수의 초기화하네 사외고 두ᄇᆫ재 reduce ᄋᆫ자ᄂᆫ ᄉᆯ제 처리ᄒᆯ ᄌᆨᄋᆸ내ᄋᆼᄋᆼ의하고 세ᄇᆫ째 post

ᆫ자ᄂᆫ reduce ᄋᆫ자에서 계ᄉᆫ ᄀᆯ과ᄅᆯ rhcollect ᆷ수ᄅᆯ 태 HDFS에 ᄌᆫ사ᄂ ᆨᄒᆯᄋ ᆫ다. 다ᄋᆷᄋ rhwatchᆷ수의 사ᄋᆼᄒᆼ태이다.

rhwatch(input, output, input.f ormat, map, reduce, combine)

ᅱ rhwatch ᄒᆷ수ᄂᆫ input ᄋᆫ자, output ᄋᆫ자, map ᄋᆫ자, reduce ᄋᆫ자 뎌러가지 ᄋᆫ자리ᄌᆼᄒᆫ다.

mapᅪ reduce ᄋᆫ자ᄂᆫ Mapᅳ로그ᄅᆷ와 Reduce 프로그ᄅᆷᄋᆼ의ᄒᆫ map ᄒᆷ수와 reduce ᄒᆷ수리ᄌᆼᄒ

ᅮ고, input과 output ᄋᆫ자ᄂᆫ HDFSᆼ의 ᄋᆸᄎᆯᄅᆨ 파ᄋᆯ의 ᄀᆼ로리ᄌᆼᄒᆫ다.

수치

Figure 1.1 Integrated architecture of R with Hadoop
Figure 4.1 Distributed cluster architecture
Table 4.1 Cluster hardware and software requirements
Table 5.1ᄂ ᅳ ᆫ ᄉ ᅵ ᆯᄌ ᅦ ᄃ ᅦᄋ ᅵᄐ ᅥᄋ ᅦᄉ ᅥ ᄃ ᅡᄌ ᅮ ᆼ ᄒ ᅬᄀ ᅱᄎ ᅮᄌ ᅥ ᆼᄋ ᅳ ᆯ ᄋ ᅱᄒ ᅡ ᆫ ᄆ ᅩᄒ ᅧ ᆼᄃ ᅳ ᆯ ᄋ ᅴ ᄎ ᅥᄅ ᅵ ᄉ ᅩ ᆨ ᄃ ᅩᄅ ᅳ ᆯ ᄂ ᅡᄐ ᅡᄂ ᅢ ᆫᄃ ᅡ.
+3

참조

관련 문서

The purpose of this research is to analyze big data structure and various objects in big data industry based on ecological perspective.. Big data is rapidly emerging as a

KEYWORDS: Big Data, Bus Headway Prediction, Machine Learning, Public Transportation, Smart City, Information Architecture 키 워 드: 빅데이터, 머신러닝, 버스 배차간격

This study has been performed to verify the importance through select the factors in order to active adoption of Big Data technology and utilization when enterprises use Big

Big Data platform can achieve a large amount of data collection, storage, processing, retrieval, analysis, and visualization by using Hadoop Ecosystem.. Currently ESM

In this study, we examine the characteristics of big data on social security services and analyze the MLB statistical techni- ques, with a view to designing an MLB model capable

Cloud-based health big-data management comprises the use of data mining, machine learning, and other forms of detailed analyses on the vast amounts of collected data to find

The objective of this study is to evaluate model performance for stage prediction of the Neuro-Fuzzy and regression analysis stage prediction models in these data-derived

Most people are now familiar with the concepts of big data, deep learning, machine learning, and artificial intelligence (AI) and have a vague expectation that AI using medical