• 검색 결과가 없습니다.

Logistic regression of large scale data using distributed processing algorithm

N/A
N/A
Protected

Academic year: 2021

Share "Logistic regression of large scale data using distributed processing algorithm"

Copied!
103
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게 l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다. 저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다. Disclaimer 저작자표시. 귀하는 원저작자를 표시하여야 합니다. 비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다. 변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

(2)

이 학 석 사 학 위 논 문

분산 처리 알고리즘을 이용한

대용량 데이터의 로지스틱 회귀분석

아 주 대 학 교 대 학 원

의 학 과 /의 학 전 공

정 성 재

(3)

분산 처리 알고리즘을 이용한

대용량 데이터의 로지스틱 회귀분석

지 도 교 수 박 래 웅

이 논 문 을 이 학 석 사 학 위 논 문 으 로 제 출 함 .

2017년 8월

아 주 대 학 교 대 학 원

의 학 과 /의 학 전 공

정 성 재

(4)

정 성 재 의 이 학 석 사 학 위 논 문 을 인 준 함 .

심 사 위 원 장

박 래 웅 인

윤 덕 용 인

신 승 수 인

아 주 대 학 교 대 학 원

2017년 6월 22일

(5)

- 국 문 요 약 -

분 산 처 리 알 고 리 즘 을 이 용 한 대 용 량 데 이 터 의 로 지 스 틱 회 귀

분 석

일 반 적 으 로 로 지 스 틱 회 귀 분 석 ( Lo g is tic r e gr e s sio n) 과 같 은 전 통 적 인 통 계 분 석 방 법 은 한 기 관 의 데 이 터 를 이 용 하 도 록 설 계 되 어 있 다 . 기 존 의 통 계 방 법 론 을 분 산 연 구 망 ( D i str ib ute d r e se a r c h ne t wo r k, D R N ) 에 적 용 하 면 , 다 기 관 의 데 이 터 를 활 용 한 연 구 가 가 능 하 다 . 이 전 의 연 구 를 통 해 다 기 관 의 데 이 터 를 활 용 하 는 방 법 은 알 려 져 있 으 나 , 대 용 량 을 가 진 다 기 관 의 데 이 터 를 분 석 하 기 에 는 적 절 하 지 않 다 . 본 연 구 에 서 는 대 용 량 데 이 터 를 보 유 한 다 기 관 의 데 이 터 를 분 석 할 수 있 는 로 지 스 틱 회 귀 방 법 을 제 시 하 는 것 을 목 적 으 로 한 다 . 이 방 법 을 b ig L R 이 라 명 명 하 였 다 . b i g L R 은 다 기 관 의 대 용 량 데 이 터 를 활 용 한 로 지 스 틱 회 귀 분 석 방 법 이 다 . 로 지 스 틱 회 귀 분 석 은 뉴 턴 - 랩 슨 방 법 ( N e wt o n - Ra p hso n m e tho d ) 을 이 용 한 최 대 우 도 추 정 법 ( ma xi mu m l i ke li ho o d e st i ma t io n, M LE ) 에 따 라 회 귀 계 수 를 추 정 한 다 . 이 과 정 에 R 에 서 대 용 량 데 이 터 처 리 에 활 용 하 는 데

(6)

이 터 덩 어 리 ( C hu n k) 개 념 을 적 용 하 여 b i g L R -s in g le 방 법 을 제 시 하 였 다 . 이 방 법 을 기 존 의 다 기 관 의 데 이 터 를 이 용 한 로 지 스 틱 회 귀 분 석 방 법 에 적 용 하 여 , b ig L R -d i st 방 법 을 제 시 하 고 다 기 관 의 데 이 터 를 이 용 한 로 지 스 틱 회 귀 방 법 에 대 용 량 데 이 터 를 처 리 할 수 있 도 록 하 였 다 . 전 통 적 인 방 법 과 비 교 하 였 을 때 , 추 정 된 계 수 의 차 이 를 보 이 지 않 았 다 . 이 를 통 해 동 일 한 잘 알 려 진 수 학 적 인 방 식 으 로 동 작 하 기 때 문 에 결 과 에 차 이 가 없 음 을 확 인 하 였 다 . b i g L R 은 공 통 데 이 터 모 델 을 기 반 으 로 하 는 분 산 연 구 망 에 적 용 가 능 하 다 . 각 기 관 별 결 과 가 아 니 라 , 통 합 된 데 이 터 로 분 석 하 는 결 과 와 동 일 한 하 나 의 회 귀 모 형 을 도 출 할 수 있 다 . 이 를 통 해 다 양 한 국 내 외 공 동 연 구 수 행 에 기 여 할 수 있 을 것 이 라 기 대 한 다 .

핵 심 어 : Lo g is tic r e gr e ssio n, N e wt o n - Ra p hso n me t ho d , B i g d a t a , D a ta c h u n k ,

(7)

차 례

국 문 요 약 . . . i 차 례 . . . iii 그 림 차 례 . . . v 표 차 례 . . . vi I . 서 론 . . . 1 A . 연 구 의 배 경 . . . 1 1 . 공 통 데 이 터 모 델 을 활 용 한 분 산 연 구 망 . . . 1 2 . 다 기 관 로 지 스 틱 회 귀 분 석 의 필 요 성 및 방 법 . . . 1 6 3 . R 을 이 용 한 로 지 스 틱 회 귀 분 석 방 법 . . . 2 2 4 . 대 용 량 다 기 관 데 이 터 의 로 지 스 틱 회 귀 분 석 방 법 의 필 요 성 . . . 2 3 B . 연 구 의 목 적 . . . 2 4 I I . 연 구 대 상 및 방 법 . . . 2 5 A . 로 지 스 틱 회 귀 분 석 개 요 . . . 2 5 B . 로 지 스 틱 회 귀 모 형 추 정 방 법 . . . 2 6 C . 대 용 량 데 이 터 를 이 용 한 로 지 스 틱 회 귀 모 형 의 추 정 . . . 3 3 D . 다 기 관 데 이 터 를 이 용 한 로 지 스 틱 회 귀 모 형 의 추 정 . . . 3 7

(8)

E . 개 발 환 경 . . . 4 1 F . 성 능 평 가 . . . 4 4 I I I . 결 과 . . . 4 5 A . 대 상 데 이 터 . . . 4 5 B . 로 지 스 틱 회 귀 분 석 결 과 . . . 4 9 I V. 고 찰 . . . 5 1 V. 결 론 . . . 6 6 참 고 문 헌 . . . 6 7 부 록 . . . 7 6 A B S T R A C T . . . 9 2

(9)

그 림 차 례

F i g u r e 1 . Wo r k f l o w o f a n a l y s i s w i t h C o m m o n D a t a M o d e l ··· 1 0 F i g u r e 2 . C o m p o n e n t s o f O b s e r v a t i o n a l M e d i c a l O u t c o m e s P a r t n e r s h i p ( O M O P ) C o m mo n D a t a M o d e l ( C D M ) v e r s i o n 5 . 0 ··· 1 3 F i g u r e 3 . C o m p o n e n t s o f S e n t i n e l C o m m o n D a t a M o d e l ( C D M ) v e r s i o n 6 . 0 · 1 4 F i g u r e 4 . C o mp o n e n t s o f N a t i o n a l P a t i e n t - C e n t e r e d C l i n i c a l R e s e a r c h N e t w o r k ( P C O R n e t ) C o m m o n D a t a M o d e l ( C D M ) v e r s i o n 3 . 0 ··· 1 5 F i g u r e 5 . P r o c e s s t o e s t i ma t e c o e ff i c i e n t o f b i g L R - s i n g l e ··· 3 5 F i g u r e 6 . P r o c e s s t o e s t i ma t e c o e ff i c i e n t o f b i g L R - d i s t ··· 3 9

(10)

표 차 례

Ta b l e 1 . C D M t y p e o f D R N p r o j e c t s ··· 3 Ta b l e 2 . D e v e l o p m e n t e n v i r o n m e n t s ··· 4 2 Ta b l e 3 . P yt h o n l i b r a r i e s ··· 4 3 Ta b l e 4 . D i s t r i b u t i o n o f s e x ··· 4 6 Ta b l e 5 . D i s t r i b u t i o n o f b i r t h m o n t h s a n d h y p e r t e n s i o n ··· 4 7 Ta b l e 6 . E s t i m a t e d c o e f f i c i e n t s ··· 5 0 Ta b l e 7 . E l a p s e d t i m e c o mp a r i s o n o f d i s t r i b u t e d l o g i s t i c r e g r e s s i o n ··· 6 1

(11)

I. 서 론

A. 연 구 의 배 경

1 . 공 통 데 이 터 모 델 을 활 용 한 분 산 연 구 망

최 근 보 건 의 료 분 야 에 서 는 빅 데 이 터 의 영 향 으 로 한 기 관 에 서 보 유 하 고 있 는 데 이 터 전 체 를 활 용 하 고 자 하 는 움 직 임 이 활 발 하 다 . 국 내 보 건 의 료 분 야 에 서 도 각 병 원 의 전 자 의 무 기 록 ( E le c tr o ni c me d i c a l r e c o r d s, E M R ) 이 나 국 민 건 강 보 험 공 단 과 건 강 보 험 심 사 평 가 원 의 건 강 검 진 자 료 와 보 험 청 구 자 료 등 으 로 부 터 추 출 한 대 용 량 데 이 터 를 분 석 하 여 각 종 서 비 스 개 발 이 나 연 구 에 활 용 하 고 자 하 는 사 례 가 증 가 하 고 있 다 . ( Le e e t a l. , 2 0 1 6 ; 김 혜 숙 a n d 정 래 석 , 2 0 1 7 ) 전 통 적 으 로 보 건 의 료 분 야 의 연 구 는 각 기 관 이 보 유 하 고 있 는 데 이 터 를 이 용 하 거 나 개 인 정 보 활 용 동 의 를 거 쳐 수 집 한 데 이 터 를 이 용 하 여 통 계 분 석 을 수 행 한 다 . 한 기 관 의 데 이 터 를 활 용 한 연 구 결 과 에 는 몇 가 지 단 점 을 내 포 하 고 있 다 . 데 이 터 가 상 대 적 으 로 많 은 질 병 이 나 부 작 용 에 대 한 연 구 는 활 발 하 지 만 그 렇 지 않 은 희 귀 질 환 이 나 드 문 부 작 용 사 례

(12)

에 대 한 연 구 는 어 려 운 것 이 현 실 이 다 . 또 한 , 데 이 터 에 각 기 관 의 특 성 이 반 영 되 어 인 구 전 체 의 성 질 을 반 영 한 다 고 보 기 어 렵 다 . ( Yo o n e t a l. , 2 0 1 6 b ) 이 러 한 문 제 를 극 복 하 기 위 하 여 의 학 연 구 분 야 에 서 는 O b se r va t io na l H e a l t h D a t a a n d I n f o r ma t i c s ( O H D S I ) ( H r i p c s a k e t a l . , 2 0 1 5 ) , S e n t i n e l I n i t i a t i v e ( B a l l e t a l . , 2 0 1 6 ) , N a t i o n a l P a t i e n t - C e n t e r e d C l i n i c a l R e s e a r c h N e t w o r k ( P C O R n e t ) ( F l e u r e n c e e t a l . , 2 0 1 4 ) , P a t i e n t - C e n t e r e d S c a l a b l e N a t i o n a l N e t w o r k F o r E ff e c t i v e n e s s R e s e a r c h ( p S C A N N E R ) ( O h n o - M a c h a d o e t a l . , 2 0 1 4 ) , E u r o p e a n M e d i c a l I n f o r m a t i o n F r a m e w o r k ( E M I F ) ( E M I F, 2 0 1 6 ) 와 같 은 공 동 연 구 를 위 한 다 양 한 분 산 연 구 망 ( D istr ib u te d Re s e a r c h N e t w o r k , D R N ) 프 로 젝 트 들 이 진 행 되 고 있 다 . 각 D R N 프 로 젝 트 들 은 각 자 의 공 통 데 이 터 모 델 ( Co m mo n D a ta M o d e l, CD M ) 을 기 반 으 로 각 기 관 이 보 유 한 데 이 터 를 동 일 한 데 이 터 구 조 로 변 환 하 여 운 용 하 고 있 다 ( Ta b l e 1 ) .

(13)

Ta b l e 1 . C D M t y p e o f D R N p ro j e c t s D R N p r o j e c t C D M O b s e r v a t i o n a l H e a l t h D a t a a n d I n f o r m a t i c s ( O H D S I ) O M O P C D M S e n t i n e l I n i t i a t i v e S e n t i n e l C D M N a t i o n a l P a t i e n t - C e n t e r e d C l i n i c a l R e s e a r c h N e t wo r k ( P C O R n e t ) P C O R n e t C D M P a t i e n t - C e n t e r e d S c a l a b l e N a t i o n a l N e t w o r k F o r E ff e c t i v e n e s s R e s e a r c h ( p S C A N N E R ) O M O P C D M E u r o p e a n M e d i c a l I n f o r m a t i o n F r a m e w o r k ( E M I F ) O M O P C D M A b b r e v i a t i o n s : D R N , D i s t r i b u t e d r e s e a r c h n e t w o r k ; O M O P, O b s e r v a t i o n a l M e d i c a l O u t c o m e s P a r t n e r s h i p ; C D M , C o m mo n d a t a mo d e l

(14)

O H D S I 는 O b s e r v a t i o n a l M e d i c a l O u t c o m e s P a r t n e r s h i p ( O M O P ) 으 로 부 터 파 생 된 국 제 적 협 의 체 이 다 . 주 로 관 찰 연 구 방 법 론 과 데 이 터 를 활 용 하 기 위 한 분 석 도 구 및 시 각 화 도 구 등 을 개 발 한 다 . 이 를 위 해 각 기 관 마 다 상 이 한 데 이 터 구 조 를 동 일 하 게 적 용 하 기 위 하 여 O M O P CD M 이 라 는 공 통 데 이 터 모 델 을 이 용 한 다 . 각 기 관 마 다 공 통 데 이 터 모 델 을 적 용 하 면 모 든 기 관 의 데 이 터 를 동 일 한 구 조 로 표 준 화 할 수 있 다 . 또 한 의 학 분 야 용 어 의 표 준 안 을 만 들 어 제 공 한 다 . 각 기 관 마 다 처 방 코 드 나 진 단 코 드 등 사 용 하 는 용 어 의 표 준 안 이 다 르 기 때 문 에 다 양 한 표 준 용 어 전 체 를 관 리 할 수 있 는 새 로 운 코 드 를 부 여 하 여 O M O P 표 준 용 어 를 제 공 한 다 . 표 준 화 된 데 이 터 구 조 와 용 어 를 이 용 하 여 모 든 기 관 에 적 용 가 능 한 방 법 론 및 분 석 도 구 의 개 발 과 적 용 이 용 이 하 다 . S e n t i n e l I n i t i a t i v e 는 미 국 식 품 의 약 국 ( F o o d a n d D r u g A d m i n i s t r a t i o n , F D A ) 로 부 터 시 작 되 었 다 . 의 료 제 품 의 안 전 성 감 시 를 위 한 국 가 적 전 자 시 스 템 으 로 Se nt i ne l 시 스 템 을 개 발 하 였 다 . 이 시 스 템 은 FD A 규 제 제 품 을 사 용 하 여 보 고 된 이 상 반 응 을 추 적 하 는 기 존 의 FD A 감 시 기 능 을 보

(15)

완 하 여 FD A 가 이 러 한 제 품 의 안 전 성 을 사 전 에 평 가 할 수 있 도 록 한 다 . S e n t i n e l 시 스 템 의 첫 단 계 로 M i n i - S e n t i n e l 이 라 는 파 일 럿 프 로 그 램 을 실 행 하 였 다 . 이 파 일 럿 프 로 젝 트 를 통 해 국 가 적 차 원 의 시 스 템 의 적 합 성 과 과 학 적 접 근 법 의 필 요 성 을 알 아 보 고 자 시 작 하 였 다 . 이 과 정 에 서 S e n t i n e l C D M 을 정 의 하 고 각 기 관 에 분 산 되 어 있 는 데 이 터 베 이 스 에 적 용 하 여 데 이 터 를 수 집 하 지 않 고 도 원 격 으 로 분 석 이 가 능 하 도 록 하 였 다 . 2 0 1 4 년 에 는 M i n i - S e n t i n e l 을 종 료 하 고 S e n t i n e l 시 스 템 을 도 입 하 였 다 . P C O R n e t 은 T h e P a t i e n t - C e n t e r e d O u t c o m e s R e s e a r c h I n s t i t u t e ( P C O R I ) 에 서 설 립 한 프 로 젝 트 이 다 . 미 국 국 가 차 원 에 서 환 자 전 자 건 강 기 록 ( E l e c t r o n i c h e a l t h r e c o r d s , E H R ) 을 이 용 하 여 비 교 효 과 연 구 ( C o m p a r a t i v e e ff e c t i v e n e s s r e s e a r c h , C E R ) 를 수 행 하 기 위 한 목 적 으 로 시 작 되 었 다 . 이 를 위 해 5 0 개 주 에 11 개 의 임 상 데 이 터 연 구 네 트 워 크 ( C li nic a l d a ta r e se a r c h n e t wo r k s , C D R N s ) 와 1 8 개 의 환 자 참 여 연 구 네 트 워 크 ( P a t i e n t - p o w e r e d r e s e a r c h n e t wo r k s , P P R N s ) 를 설 립 하 였 다 . C D R N s 는 방 대 한 인 구 의 전 자 건 강 기 록 과 환 자 로 부 터 발 생 하 는 전 자 정 보 들 을 활 용 하 고 , P P RN s 는 환 자

(16)

커 뮤 니 티 를 중 심 으 로 연 구 자 와 연 계 를 통 하 여 구 성 되 었 다 . CD RN s 와 P P R N s 간 의 연 구 를 지 원 하 기 위 하 여 분 산 연 구 망 을 구 축 하 였 다 . 연 구 가 능 한 데 이 터 셋 을 만 들 수 있 도 록 P CO R ne t C D M 을 개 발 하 였 다 . P C O R n e t C D M 은 M i n i - S e n t i n e l 에 서 사 용 된 C D M 을 기 반 으 로 하 여 개 발 되 었 다 . p S C A N N E R 는 P C O R n e t 의 C D R N 중 하 나 로 , 기 존 에 존 재 하 는 VA I n f o r m a t i c s a n d C o m p u t i n g I n f r a s t r u c t u r e ( V I N C I ) , T h e U n i v e r s i t y o f C a l i f o r n i a R e s e a r c h e x c h a n g e ( U C - R e X ) , S c a l a b l e N a t i o n a l N e t w o r k f o r E ff e c t i v e n e s s R e s e a r c h ( S C A N N E R ) 의 연 합 컨 소 시 엄 이 다 . 캘 리 포 니 아 지 역 의 1 0 개 기 관 에 서 참 여 하 고 있 으 며 , 임 상 데 이 터 연 구 를 위 한 총 2 천 1 백 만 명 이 상 의 환 자 데 이 터 를 보 유 하 고 있 다 . 각 데 이 터 들 은 서 로 다 른 모 델 로 구 성 되 어 있 지 만 , p S C AN N E R 프 로 젝 트 를 통 해 O M O P CD M 으 로 변 환 하 였 다 . SC A N N E R 프 로 젝 트 를 통 해 개 발 된 개 인 정 보 보 호 와 보 안 이 강 화 된 분 산 분 석 도 구 를 이 용 하 여 분 석 을 수 행 할 수 있 다 . E M I F 는 유 럽 의 1 4 개 국 5 8 개 기 관 이 참 여 하 는 프 로 젝 트 로 , 건 강 데 이

(17)

터 의 효 율 적 인 재 사 용 이 가 능 한 환 경 을 만 드 는 E M I F -P la t fo r m 과 이 플 랫 폼 의 개 발 에 도 움 이 될 수 있 는 다 음 두 가 지 연 구 주 제 를 포 함 한 다 . 알 츠 하 이 머 병 의 보 호 인 자 와 발 생 인 자 의 식 별 과 검 증 을 위 한 E M I F - AD , 비 만 의 대 사 합 병 증 의 예 측 인 자 의 식 별 과 검 증 을 위 한 E M I F -M e ta b o lic . 공 통 데 이 터 모 델 과 분 석 도 구 개 발 에 있 어 국 제 컨 소 시 엄 인 O H D SI 와 협 력 하 고 있 으 며 O M O P CD M 을 공 통 데 이 터 모 델 로 채 택 하 였 다 . 주 요 플 랫 폼 으 로 E M I F C a ta lo g ue 를 개 발 중 에 있 다 . 공 통 데 이 터 모 델 은 기 관 별 로 상 이 한 데 이 터 구 조 를 동 일 한 구 조 의 데 이 터 모 델 로 적 용 하 는 개 념 이 다 ( F i gur e 1 ) . 기 존 의 연 구 는 각 기 관 별 데 이 터 구 조 에 맞 는 분 석 용 코 드 를 작 성 하 거 나 프 로 토 콜 을 정 의 하 여 데 이 터 를 전 처 리 하 는 과 정 이 요 구 되 었 다 . 공 통 데 이 터 모 델 로 변 환 된 데 이 터 는 구 조 가 동 일 하 기 때 문 에 분 석 용 코 드 나 소 프 트 웨 어 를 공 유 하 여 동 일 한 조 건 으 로 분 석 을 수 행 할 수 있 다 는 장 점 이 있 다 . 동 일 한 구 조 의 데 이 터 로 부 터 발 생 한 분 석 결 과 는 취 합 하 여 해 석 하 거 나 재 분 석 을 수 행 하 는 경 우 에 도 수 월 하 다 . 서 로 다 른 데 이 터 구 조 를 가 진 경 우 에 는 이 전

(18)

연 구 의 재 현 이 어 렵 고 , 분 석 코 드 를 재 사 용 하 기 어 렵 다 는 단 점 이 있 다 . 특 히 , 다 변 량 분 석 시 단 변 량 분 석 과 달 리 하 나 의 값 을 구 할 수 없 다 . 따 라 서 , 여 러 개 의 값 을 이 용 한 메 타 분 석 이 필 요 하 다 . 이 러 한 문 제 가 존 재 하 기 때 문 에 여 러 기 관 들 이 참 여 하 는 공 동 연 구 망 에 서 는 각 자 의 데 이 터 베 이 스 를 하 나 의 공 통 데 이 터 모 델 로 변 환 하 여 동 일 한 구 조 의 데 이 터 베 이 스 를 활 용 하 고 있 다 . 공 통 데 이 터 모 델 기 반 의 공 동 연 구 망 에 참 여 하 기 위 해 서 는 원 본 데 이 터 를 공 통 데 이 터 모 델 로 변 환 하 는 E T L ( E x tr a c t io n, Tr a n s fo r ma t io n , L o a d i n g ) 과 정 이 필 수 적 이 다 . 각 기 관 에 서 운 용 하 는 원 본 데 이 터 베 이 스 나 데 이 터 웨 어 하 우 스 의 구 조 를 모 두 파 악 하 여 공 통 데 이 터 모 델 의 적 절 한 테 이 블 및 변 수 로 매 핑 하 는 번 거 로 운 작 업 이 필 요 하 다 . 게 다 가 , 국 내 병 원 에 서 사 용 하 는 대 부 분 의 진 단 코 드 나 약 물 처 방 코 드 등 의 료 코 드 체 계 는 국 제 표 준 을 따 르 지 않 는 경 우 가 많 다 . 국 내 에 서 는 아 주 대 학 교 에 서 아 주 대 학 교 병 원 E H R을 O M O P CD M 으 로 변 환 한 사 례 가 있 다 . ( Yo o n e t a l. , 2 0 1 6 a ) 이 러 한 경 우 에 는 각 병 원 마 다 원 내 의

(19)

료 코 드 체 계 를 국 제 표 준 코 드 와 호 환 이 가 능 하 도 록 매 핑 하 는 과 정 이 필 요 하 다 . 아 주 대 학 교 에 서 는 진 단 코 드 로 국 제 질 병 사 인 분 류 1 0 차 개 정 판 ( I n t e r n a t i o n a l s t a t i s t i c a l c l a s s i f i c a t i o n o f d i s e a s e s a n d r e l a t e d h e a l t h p r o b l e m s , 1 0 t h r e v i s i o n , I C D - 1 0 ) 의 한 국 표 준 안 인 한 국 표 준 질 병 사 인 분 류 ( K o r e a n s t a n d a r d c l a s s i f i c a t i o n o f d i s e a s e a n d c a u s e o f d e a t h v e r. 5 , K C D - 5 ) 를 사 용 하 고 , 약 물 처 방 과 처 치 코 드 로 병 원 에 서 임 의 로 정 한 코 드 를 사 용 하 고 있 다 . 진 단 코 드 는 국 제 표 준 인 S ys te ma t iz e d N o me nc la tur e o f M e d ic i ne C l i n i c a l Te r ms ( S N O M E D - C T ) , 약 물 처 방 코 드 는 R x N o r m 과 A n a t o m i c a l T h e r a p e u t i c C h e m i c a l ( AT C ) 코 드 , 처 치 코 드 는 H e a lt hc a r e Co m mo n P r o c e d u r e C o d i n g S y s t e m ( H C P C S ) , I C D 9 t h r e v i s i o n p r o c e d u r e c o d i n g s y s t e m ( I C D - 9 - P C S ) , C u r r e n t P r o c e d u r a l Te r m i n o l o g y, 4 t h e d i t i o n ( C P T- 4 ) 에 각 각 매 핑 하 였 다 . E T L 과 정 을 거 쳐 약 2 0 0 만 명 의 데 이 터 를 O M O P C D M 으 로 변 환 하 였 다 . 변 환 된 C D M 데 이 터 의 요 약 된 통 계 정 보 는 h t t p : / / a m i . a j o u . a c . k r : 8 0 8 0 를 통 해 확 인 할 수 있 다 .

(20)

F i g u r e 1 . Wo r k f l o w o f a n a l y s i s w i t h C o m m o n D a t a M o d e l . A n a n a l y t i c m e t h o d c a n b e a p p l i e d t o m u l t i p l e i n s t i t u t e i f t h e y h a v e c o n v e r t e d t h e i r

(21)

공 통 데 이 터 모 델 은 O H D SI , p SC A N N E R 그 리 고 E M I F 등 에 서 활 용 하

는 O M O P CD M 과 Se nti ne l I nit ia ti ve 에 서 개 발 한 Se nti ne l C D M , Se nti ne l

C D M 을 기 반 으 로 확 장 된 P C O R n e t C D M 등 각 프 로 젝 트 의 성 격 에 따 라 다 양 한 형 태 로 설 계 되 어 활 용 되 고 있 다 . O M O P C D M ( O H D S I , 2 0 1 4 ) 은 총 3 9 개 의 테 이 블 로 이 루 어 져 있 다 ( F i g u r e 2 ) . 임 상 정 보 를 담 당 하 는 c l i n i c a l d a t a 영 역 , 임 상 정 보 로 부 터 추 출 할 수 있 는 d e r i ve d e l e m e nt s, 기 관 의 정 보 를 담 고 있 는 h e a lt h s yst e m d a t a , 비 용 관 련 데 이 터 를 담 당 하 는 he a lt h e c o n o mic s, 표 준 용 어 를 통 칭 하 는 v o c a b u l a r y, C D M 의 메 타 정 보 를 담 고 있 는 m e t a - d a t a 로 구 분 하 여 테 이 블 을 정 의 하 고 있 다 . 각 테 이 블 에 대 한 설 명 은 부 록 1 에 포 함 되 어 있 다 . M i n i - S e n t i n e l C D M 은 1 0 개 의 테 이 블 로 구 성 되 어 있 으 나 , 최 근 S e n t i n e l C D M ( I n i t i a t i v e , 2 0 1 7 ) 으 로 전 환 되 었 고 , v 6 . 0 으 로 업 데 이 트 를 통 해 2 개 의 테 이 블 이 추 가 되 었 다 ( Fi gur e 3 ) . M i ni - Se nt ine l CD M 을 기 반 으 로 하 는 P C O R n e t C D M ( P C O R n e t , 2 0 1 5 ) 은 M i n i - S e n t i n e l C D M 의 1 0 개 테 이 블 에 5 개 의 테 이 블 이 추 가 되 어 총 1 5 개 의 테 이 블 로 구 성 되 었 다 ( Fi g ur e 4 ) .

(22)

S e n t i n e l C D M 과 P C O R n e t C D M 의 테 이 블 설 명 은 부 록 2 와 3 에 포 함 되 어

(23)

F i g u r e 2 . C o m p o n e n t s o f O b s e r v a t i o n a l M e d i c a l O u t c o m e s P a r t n e r s h i p ( O M O P ) C o m m o n D a t a M o d e l ( C D M ) v e r s i o n 5 . 0 . C l i n i c a l i n f o r m a t i o n i s s t o r e d i n a t a b l e o f S t a n d a r d i z e d c l i n i c a l d a t a , S t a n d a r d i z e d d e r i v e d e l e me n t s a r e d e r i v e d f r o m S t a n d a r d i z e d c l i n i c a l d a t a , S t a n d a r d i z e d h e a l t h s y s t e m d a t a c o n t a i n s d a t a r e l a t e d t o f a c i l i t i e s a n d p r o v i d e r s , C o s t r e l a t e d d a t a i s s t o r e d i n S t a n d a r d i z e d h e a l t h e c o n o m i c s , S t a n d a r d i z e d m e t a - d a t a c o n s i s t s o f i n f o r m a t i o n a b o u t t h e t r a n s i t i o n t o C D M , Vo c a b u l a r i e s a r e m a i n t a i n e d i n S t a n d a r d i z e d v o c a b u l a r i e s r e l a t e d t a b l e s . A d e s c r i p t i o n o f e a c h t a b l e i s s h o w n i n S u p p l e m e n t a r y 1 .

(24)

F i g u r e 3 . C o m p o n e n t s o f S e n t i n e l C o m m o n D a t a M o d e l ( C D M ) v e r s i o n 6 . 0 . * A d d e d i n v e r s i o n 6 . 0 . S e n t i n e l C D M c o n s i s t s o f 1 2 t a b l e s . A d e s c r i p t i o n o f

(25)

F i g u r e 4 . C o m p o n e n t s o f N a t i o n a l P a t i e n t - C e n t e re d C l i n i c a l R e s e a r c h N e t w o r k ( P C O R n e t ) C o m m o n D a t a M o d e l ( C D M ) v e r s i o n 3 . 0 . P C O R n e t C D M w a s i n s p i r e d b y S e n t i n e l C D M a n d a d d e d 5 n e w t a b l e s t o t h e e x i s t i n g

(26)

2 . 다 기 관 로 지 스 틱 회 귀 분 석 의 필 요 성 및 방 법

데 이 터 의 프 라 이 버 시 문 제 로 인 하 여 기 관 외 부 로 원 본 데 이 터 의 유 출 이 어 렵 기 때 문 에 , 각 기 관 별 로 분 석 을 수 행 한 결 과 물 을 취 합 하 여 활 용 하 고 있 다 . 일 반 적 으 로 통 계 적 방 법 론 이 나 통 계 분 석 을 위 한 소 프 트 웨 어 는 단 일 데 이 터 를 대 상 으 로 분 석 을 수 행 하 도 록 설 계 되 어 있 다 . 하 지 만 , 기 존 의 방 법 론 에 약 간 의 개 선 을 통 하 여 여 러 기 관 의 데 이 터 를 통 합 분 석 하 는 방 법 론 으 로 새 로 적 용 할 수 있 다 . ( Wa n g e t a l. , 2 0 1 6 a ) 이 와 관 련 하 여 다 양 한 연 구 가 진 행 되 고 있 다 . 그 중 에 서 도 U ni ve r sit y o f C a l i f o r n i a , S a n D i e g o ( U C S D ) 의 O h n o - m a c h a d o 교 수 의 연 구 가 활 발 하 다 .

대 표 적 인 사 례 로 G r id B ina r y Lo gi sti c Re gr e s sio n ( G LO RE ) ( Wu e t a l . , 2 0 1 2)

알 고 리 즘 이 있 다 . G L O RE 알 고 리 즘 은 종 속 변 수 가 0 또 는 1 의 값 을 가 지

는 이 항 형 로 지 스 틱 회 귀 분 석 방 법 을 다 기 관 에 적 용 하 기 위 한 방 법 이 다 .

분 산 된 데 이 터 의 필 드 의 의 미 는 동 일 하 고 레 코 드 가 다 르 다 고 가 정 한 다 .

이 를 수 평 분 할 된 데 이 터 라 한 다 . 반 대 로 분 산 된 데 이 터 의 레 코 드 가 의

(27)

G L O R E 알 고 리 즘 에 서 각 기 관 은 각 자 보 유 한 데 이 터 를 이 용 하 여 계 수 를 추 정 한 다 . 이 과 정 에 서 발 생 하 는 중 간 계 산 값 들 을 중 앙 서 버 로 전 달 한 다 . 서 버 에 서 는 각 기 관 으 로 부 터 전 달 받 은 중 간 결 과 값 들 을 취 합 하 여 하 나 의 데 이 터 셋 으 로 분 석 한 것 과 동 일 한 결 과 를 도 출 할 수 있 다 . 이 후 , G L O R E 알 고 리 즘 에 베 이 지 안 이 론 을 적 용 한 E x p e c t a t i o n P r o p a g a t i o n L o g i s t i c R E g R e s s i o n ( E X P L O R E R ) ( Wa n g e t a l . , 2 0 1 3 ) 알 고 리 즘 이 발 표 되 었 다 . 데 이 터 를 추 가 하 여 모 델 을 갱 신 하 고 자 할 때 , G LO RE 알 고 리 즘 은 이 전 의 데 이 터 를 포 함 하 여 다 시 수 행 해 야 하 는 비 효 율 적 인 면 이 있 다 . 또 한 , G L O RE 알 고 리 즘 은 동 기 화 방 식 으 로 각 기 관 이 실 시 간 으 로 데 이 터 를 주 고 받 아 야 한 다 . 중 간 에 통 신 에 장 애 가 발 생 하 거 나 어 느 한 기 관 이 라 도 에 러 가 발 생 하 면 제 대 로 동 작 하 지 않 는 다 . 하 지 만 , E X P L O R E R 알 고 리 즘 은 증 가 하 는 데 이 터 에 따 라 모 델 을 갱 신 할 수 있 는 온 라 인 학 습 법 이 다 . 비 동 기 방 식 으 로 동 작 하 기 때 문 에 통 신 이 나 특 정 기 관 에 서 발 생 하 는 오 류 로 인 한 학 습 과 정 의 문 제 를 방 지 할 수 있 다 . G L O R E 알 고 리 즘 과 E X P L O R E R 알 고 리 즘 을 기 반 으 로 온 라 인 로 지 스

(28)

틱 회 귀 분 석 이 가 능 한 We b G L O R E ( J ia n g e t a l. , 2 0 1 3 ) 가 인 터 넷 을 통 해 사 용 할 수 있 도 록 웹 서 비 스 형 태 로 공 개 되 었 다 . G L O R E 알 고 리 즘 은 계 수 추 정 과 정 에 서 계 산 된 결 과 값 을 주 고 받 는 다 . 여 기 서 전 송 되 는 값 들 이 암 호 화 과 정 을 거 치 지 않 아 완 전 히 안 전 하 다 고 보 기 에 는 어 렵 다 . G LO RE 알 고 리 즘 같 은 로 지 스 틱 회 귀 분 석 에 서 는 계 수 추 정 을 위 해 뉴 턴 -랩 슨 방 법 을 이 용 한 다 . 최 적 의 계 수 를 추 정 하 기 위 해 서 는 뉴 턴 - 랩 슨 방 법 을 반 복 적 으 로 수 행 하 는 과 정 이 필 요 하 다 . D i ff e r e n t i a l l y p r i v a t e d i s t r i b u t e d l o g i s t i c r e g r e s s i o n ( J i e t a l . , 2 0 1 4 ) 논 문 에 서 는 이 과 정 에 차 별 형 프 라 이 버 시 ( d i ff e r e nti a l p r iv a c y) 방 법 을 적 용 하 여 중 간 결 과 값 들 을 암 호 화 하 였 다 . 이 항 형 종 속 변 수 를 다 루 는 G LO RE 알 고 리 즘 이 나 E X P LO RE R 알 고 리 즘 외 에 도 다 항 형 종 속 변 수 를 가 지 는 G r id mul ti -c a te go r y r e sp o n se l o g i s t i c mo d e l s ( Wu e t a l . , 2 0 1 5 ) 를 발 표 하 였 다 . 이 연 구 를 통 해 순 서 가 있 는 값 을 종 속 변 수 로 가 지 는 순 서 형 로 지 스 틱 회 귀 와 3 개 이 상 의 종 속 변 수 값 을 가 지 는 다 항 로 지 스 틱 회 귀 를 위 한 두 종 류 의 모 델 을 제 안 하 였

(29)

다 . 또 한 , 생 존 분 석 을 위 한 Co x p r o p o r tio na l ha z a r d s ( Co x P H ) mo d e l 을 다 기 관 에 서 수 행 할 수 있 는 분 산 형 Co x P H 모 델 을 개 발 하 여 We b G L O RE 와 같 은 웹 서 비 스 형 태 로 We b -b a se d D i str ib ute d Co x Re gr e ss io n M o d e l ( We b D I S C O ) ( L u e t a l . , 2 0 1 5 ) 를 공 개 하 였 다 . 최 근 G L O R E 알 고 리 즘 에 보 안 을 강 화 한 S e c u r e M u l t i - p a r t y C o mp u t a t i o n G r i d L o g i s t i c R e g r e s s i o n ( S M A C - G L O R E ) ( S h i e t a l . , 2 0 1 6 ) 알 고 리 즘 이 발 표 되 었 다 . G LO RE 알 고 리 즘 은 중 간 계 산 결 과 물 을 전 달 하 므 로 환 자 단 위 의 데 이 터 전 달 을 방 지 할 수 있 다 . SM A C - G LO RE 알 고 리 즘 은 환 자 단 위 의 데 이 터 뿐 만 아 니 라 중 간 계 산 결 과 값 도 보 호 할 수 있 다 . 이 알 고 리 즘 은 컴 퓨 터 는 AN D , O R, N O T 같 은 기 본 적 인 논 리 게 이 트 ( lo g ic g a t e s ) 의 결 합 으 로 구 성 되 어 있 다 는 데 에 서 아 이 디 어 를 얻 어 회 로 기 반 의 보 안 방 법 을 적 용 하 였 다 . 암 호 화 과 정 에 서 논 리 게 이 트 를 이 용 하 기 때 문 에 정 수 나 실 수 값 은 2 진 수 로 변 환 하 여 처 리 된 다 . 앞 서 소 개 한 알 고 리 즘 은 모 두 수 평 분 할 된 데 이 터 를 이 용 하 였 다 .

(30)

V E RT I c a l G r i d l O g i s t i c r e g r e s s i o n ( V E RT I G O ) ( L i e t a l . , 2 0 1 6 ) 알 고 리 즘 은 수 직 분 할 된 데 이 터 를 이 용 한 다 . 이 알 고 리 즘 은 동 일 한 환 자 에 대 해 각 기 관 이 보 유 한 변 수 가 다 른 경 우 에 적 용 할 수 있 다 . G LO RE 알 고 리 즘 과 마 찬 가 지 로 환 자 단 위 의 데 이 터 는 전 달 하 지 않 는 다 . 이 외 에 도 다 기 관 데 이 터 를 활 용 하 기 위 한 다 양 한 방 법 들 이 알 려 져 있 다 . 수 평 분 할 된 데 이 터 를 이 용 한 분 산 처 리 방 법 으 로 부 스 팅 ( b o o s t i n g ) 방 법 ( G a m b s e t a l . , 2 0 0 7 ) , 서 포 트 벡 터 머 신 ( s u p p o r t v e c t o r m a c h i n e , S V M ) 방 법 ( Yu e t a l . , 2 0 0 6 a ; Va i d ya e t a l . , 2 0 0 8 b ) 등 이 알 려 져 있 으 며 , 로 지 스 틱 회 귀 와 같 은 학 습 알 고 리 즘 에 맵 리 듀 스 ( M a p -r e d uc e , M R) 기 법 을 적 용 한 사 례 ( C h u e t a l. , 2 0 0 6 ) 와 E X P LO RE R 알 고 리 즘 과 같 이 베 이 지 안 기 법 을 이 용 한 사 례 ( W. , 2 0 0 6 ; A mb r o se e t a l. , 2 0 1 2 ) 도 보 고 되 었 다 . 수 직 분 할 된 데 이 터 를 이 용 한 방 법 으 로 는 선 형 회 귀 ( Sa ni l e t a l. , 2 0 0 4 ; K a r r e t a l . , 2 0 0 9 ) , 나 이 브 베 이 즈 ( n a ïv e B a y e s ) ( Va i d y a e t a l . , 2 0 0 8 a ) , 로 지 스 틱 회 귀 ( Sla v ko vic e t a l. , 2 0 0 7 ; N a r d i e t a l. , 2 0 1 2 ) , 서 포 트 벡 터 머 신 ( Yu e t a l . , 2 0 0 6 b ) 등 을 이 용 한 사 례 가 있 다 . 각 기 관 에 전 달 되 는 데 이 터 를

(31)

보 호 하 기 위 하 여 데 이 터 자 체 를 익 명 화 ( a no n y mit y) ( S we e n e y, 2 0 0 2 ; M a c h a n a v a j j h a l a e t a l . , 2 0 0 6 ; L i e t a l . , 2 0 0 7 ) 하 거 나 차 별 형 프 라 이 버 시 ( d i ff e r e n t i a l p r i v a c y ) ( C h a u d h u r i a n d C l a i r e , 2 0 0 9 ; F r i e d ma n a n d S c h u s t e r, 2 0 1 0 ; P a t h a k a n d R a j , 2 0 11 ) , 안 전 한 다 자 간 계 산 ( s e c u r e m u l t i - p a r t y c o mp u t a t i o n , S M C ) ( K a r r e t a l . , 2 0 0 4 ; F i e n b e rg e t a l . , 2 0 0 6 ) , 준 동 형 암 호 화 ( h o mo m o r p h i c e n c r y p t i o n ) ( Z h a n g e t a l . , 2 0 1 5 ; Wa n g e t a l . , 2 0 1 6 b ) 등 보 안 기 법 을 적 용 할 수 있 다 .

(32)

3 . R 을 이 용 한 로 지 스 틱 회 귀 분 석 방 법

로 지 스 틱 회 귀 분 석 은 의 학 연 구 뿐 만 아 니 라 다 양 한 분 야 에 서 널 리 활 용 되 는 통 계 적 기 법 이 다 . 통 계 분 석 용 소 프 트 웨 어 R 에 서 는 sta ts 패 키 지 의 gl m 함 수 를 이 용 하 여 로 지 스 틱 회 귀 분 석 과 같 은 일 반 화 선 형 모 형 을 수 행 한 다 . 하 지 만 , 대 용 량 의 데 이 터 를 이 용 하 여 분 석 하 기 에 는 어 려 움 이 있 다 . 대 용 량 데 이 터 를 이 용 하 여 gl m 함 수 의 기 능 을 수 행 하 기 위 한 R 패 키 지 로 b i gl m 패 키 지 와 sp e e d gl m 패 키 지 가 있 다 . 이 패 키 지 들 은 원 본 데 이 터 를 덩 어 리 ( c h u n k) 단 위 의 데 이 터 로 구 분 하 여 데 이 터 를 활 용 한 다 . ( Wa n g e t a l. , 2 0 1 6 a )

(33)

4 . 대 용 량 다 기 관 데 이 터 의 로 지 스 틱 회 귀 분 석 방 법 의 필 요 성

G L O R E 알 고 리 즘 은 다 기 관 의 로 지 스 틱 회 귀 분 석 방 법 이 다 . 이 알 고 리 즘 은 각 기 관 간 에 원 본 데 이 터 는 전 송 하 지 않 고 , 계 산 된 중 간 결 과 물 들 을 공 유 하 여 로 지 스 틱 회 귀 분 석 결 과 물 을 산 출 한 다 . G L O RE 알 고 리 즘 은 다 기 관 의 로 지 스 틱 회 귀 에 초 점 이 맞 추 어 져 있 어 , 대 용 량 데 이 터 를 이 용 하 기 에 는 어 렵 다 . 데 이 터 덩 어 리 개 념 을 G LO RE 알 고 리 즘 에 적 용 하 여 대 용 량 데 이 터 를 이 용 한 로 지 스 틱 회 귀 분 석 에 서 다 기 관 의 데 이 터 를 이 용 해 수 행 할 수 있 을 것 이 다 .

(34)

B. 연 구 의 목 적

본 연 구 에 서 는 G LO R E 알 고 리 즘 을 기 반 으 로 하 는 b i g L R 알 고 리 즘 을 개 발 하 여 A) 단 일 기 관 에 서 대 용 량 의 데 이 터 를 이 용 한 로 지 스 틱 회 귀 모 형 추 정 ( b i g L R -s i ng l e ) 방 법 을 정 의 하 고 , B ) A의 방 법 을 이 용 하 여 다 기 관 의 대 용 량 데 이 터 를 이 용 한 로 지 스 틱 회 귀 모 형 추 정 ( b ig L R - d ist) 을 목 표 로 한 다 . 각 각 의 결 과 와 R 을 이 용 한 일 반 적 인 로 지 스 틱 회 귀 분 석 결 과 를 비 교 하 였 다 . 이 를 통 해 대 용 량 의 데 이 터 를 가 진 분 산 된 CD M 환 경 에 서 로 지 스 틱 회 귀 모 형 을 추 정 하 는 방 법 에 대 하 여 알 아 보 았 다 . 본 연 구 방 법 을 활 용 하 여 각 기 관 의 대 용 량 데 이 터 를 이 용 하 여 다 기 관 로 지 스 틱 회 귀 분 석 을 수 행 하 고 자 한 다 .

(35)

II. 연 구 대 상 및 방 법

A. 로 지 스 틱 회 귀 분 석 개 요

회 귀 분 석 은 종 속 변 수 에 대 한 독 립 변 수 의 영 향 력 을 추 정 할 수 있 는 통 계 적 기 법 이 다 . 일 반 선 형 회 귀 모 형 은 독 립 변 수 와 종 속 변 수 의 선 형 관 계 를 표 현 하 는 선 형 회 귀 계 수 를 추 정 한 다 . 종 속 변 수 가 이 항 형 변 수 일 때 는 로 지 스 틱 회 귀 모 형 을 이 용 하 여 회 귀 계 수 를 추 정 한 다 . 모 수 인 회 귀 계 수 를 추 정 하 고 가 설 검 정 을 적 용 하 여 모 형 의 적 합 성 을 평 가 한 후 , 분 석 결 과 를 이 용 하 여 종 속 변 수 와 독 립 변 수 간 의 관 계 를 파 악 하 거 나 종 속 변 수 를 예 측 혹 은 분 류 하 는 데 활 용 한 다 . ( H o s me r e t a l. , 2 0 0 0 )

(36)

B. 로 지 스 틱 회 귀 모 형 추 정 방 법

단 순 선 형 회 귀 에 서 독 립 변 수

𝑥

에 대 한 종 속 변 수

𝑌

의 조 건 부 기 대 값 은

𝐸(𝑌|𝑥) = 𝛽

0

+ 𝛽

1

𝑥

라 하 고 ,

𝑥

(−∞, ∞)

범 위 의 값 을 가 진 다 . 종 속 변 수 가 이 항 형 변 수 일 때 , 독 립 변 수 에 따 른 종 속 변 수 의 값 으 로

0

또 는

1

의 값 을 가 지 고 , 이 경 우 선 형 회 귀 모 형 을 적 용 하 면 종 속 변 수 와 독 립 변 수 간 의 관 계 를 적 절 히 설 명 할 수 없 다 . 따 라 서 , 로 짓 변 환 ( lo g it t r a n s f o r m a t i o n ) 을 통 해

0

에 서

1

사 이 의 확 률 을 계 산 하 도 록 한 다 . 로 지 스 틱 회 귀 모 형 에 서 조 건 부 기 대 값 ( c o n d itio n a l e xp e c te d va lu e ) 은

𝐸(𝑌|𝑥) = 𝜋(𝑥) =

𝑒

𝛽0+𝛽1𝑥

1 + 𝑒

𝛽0+𝛽1𝑥

이 고 , 종 속 변 수

𝑌

가 1을 가 질 조 건 부 확 률 (co ndit iona l probabilit y) 을

(37)

라 표 현 하 고 , 종 속 변 수

𝑌

가 0을 가 질 조 건 부 확 률 은

𝑃(𝑌 = 0|𝑥) = 1 − 𝜋(𝑥)

라 표 현 한 다 . 로 짓 변 환 을 적 용 하 면 다 음 과 같 다 .

𝑔(𝑥) = 𝑙𝑛 *

𝜋(𝑥)

1 − 𝜋(𝑥)

+ = 𝛽

0

+ 𝛽

1

𝑥

𝑔(𝑥)

는 선 형 회 귀 모 형 의 성 질 을 갖 는 다 .

𝑔(𝑥)

는 선 형 이 고 ,

𝑥

(−∞, ∞)

범 위 의 값 을 가 진 다 . 로 지 스 틱 회 귀 모 형 에 서

𝑝

개 의 독 립 변 수

𝑥

가 주 어 졌 을 때 , 로 지 스 틱 회 귀 모 형 의 로 짓 ( lo g it ) 은 다 음 과 같 이 표 현 한 다 .

𝑔(𝑥) = 𝛽

0

+ 𝛽

1

𝑥

1

+ 𝛽

2

𝑥

2

+ ⋯ + 𝛽

𝑝

𝑥

𝑝 종 속 변 수

𝑌

, 독 립 변 수

𝑋

𝑛

개 관 찰 값 ( o b se r va t io n s) 이 있 다 고 가 정 하 자 .

𝑌

0

이 나

1

의 값 을 가 진 다 . 모 수 ( u n kn o wn p a r a me te r )

𝛽

0

, ⋯ , 𝛽

𝑝의 값 을 추 정 하 여 야 로 지 스 틱 회 귀 모 형 을 적 합 할 수 있 다 . 선 형 회 귀 모 형 에 서 는 모 수 추 정 에 최 소 제 곱 법 ( le a st sq ua r e s me t ho d ,

(38)

L S M ) 을 이 용 한 다 . 이 방 법 은 모 형 을 기 반 으 로 예 측 된 값 과 관 찰 값

𝑌

의 편 차 의 제 곱 의 합 을 최 소 화 하 는 값 으 로

𝛽

0

, ⋯ , 𝛽

𝑝을 선 택 한 다 . 최 소 제 곱 법 은 선 형 회 귀 모 형 의 기 본 적 인 가 정 하 에 바 람 직 한 통 계 적 성 질 을 가 지 지 만 , 종 속 변 수 로 써 이 항 형 변 수 를 갖 는 로 지 스 틱 회 귀 모 형 에 서 는 동 일 한 성 질 을 갖 지 못 한 다 . 일 반 적 으 로 로 지 스 틱 회 귀 모 형 에 서 는 최 대 우 도 추 정 법 ( m a xi mu m l i k e l i h o o d e s t i m a t o n , M L E ) 을 이 용 한 다 . 관 찰 값 이 발 생 할 확 률 을 최 대 화 하 는 값 을 모 수 로 추 정 한 다 . 이 방 법 을 적 용 하 기 위 해 서 는 우 도 함 수 ( l i k e l i h o o d f u n c t i o n ) 를 정 의 하 여 야 한 다 . 이 함 수 는 관 찰 값 이 발 생 할 확 률 나 타 내 고 , 이 확 률 을 최 대 화 하 는 값 을 모 수 의 추 정 치 로 선 택 한 다 .

𝑦

𝑖

= 1

일 때 조 건 부 확 률 은

𝜋(𝑥

𝑖

)

,

𝑦

𝑖

= 0

일 때 조 건 부 확 률 은

1 − 𝜋(𝑥

𝑖

)

이 다 . 이 식 을 정 리 하 면

(𝑥

𝑖

, 𝑦

𝑖

)

일 때 의 조 건 부 확 률 은 다 음 과 같 이 나 타 낼 수 있 다 .

𝜋(𝑥

𝑖

)

𝑦𝑖

,1 − 𝜋(𝑥

𝑖

)-

1−𝑦𝑖

(39)

각 관 찰 값 은 독 립 이 라 고 가 정 하 기 때 문 에 , 우 도 함 수 는 위 식 의 곱 으 로 계 산 할 수 있 다 .

𝑙(𝛽) = ∏ 𝜋(𝑥

𝑖

)

𝑦𝑖

,1 − 𝜋(𝑥

𝑖

)-

1−𝑦𝑖 𝑛 𝑖=1 최 대 우 도 의 원 리 에 따 라

𝛽

의 예 측 값 으 로 위 방 정 식 을 최 대 화 하 는 값 을 취 한 다 . 수 학 적 으 로 계 산 하 기 용 이 하 도 록 자 연 로 그 를 취 하 면 다 음 과 같 다 .

𝐿(𝛽) = 𝑙𝑛,𝑙(𝛽)- = ∑*𝑦

𝑖

𝑙𝑛,𝜋(𝑥

𝑖

)- + (1 − 𝑦

𝑖

)𝑙𝑛,1 − 𝜋(𝑥

𝑖

)-+

𝑛 𝑖=1

= ∑{𝑦

𝑖

𝛽

𝑇

𝑥

𝑖

− 𝑙𝑛(1 + 𝑒

𝛽 𝑇𝑥 𝑖

)}

𝑛 𝑖=1 이 를 로 그 우 도 함 수 ( lo g li ke li ho o d f u nc t io n) 라 고 한 다 . 로 그 우 도 함 수 를 최 대 화 하 는

𝛽

의 값 을 찾 기 위 해 서 로 그 우 도 함 수 를

𝛽

에 대 하 여 미 분 ( d i ff e r e nt ia te ) 하 고

0

으 로 놓 는 다 . 이 를 우 도 방 정 식 ( l i k e l i h o o d e q u a t i o n ) 이 라 한 다 .

𝑛

개 의 관 찰 값 을 가 진

𝑝

개 의 독 립 변 수

𝑥

가 있 다 고 가 정 하 자 . 로 그 우 도 함 수 를

𝛽

에 대 하 여 미 분 하 여 얻 어 지 는

(40)

𝑝 + 1

개 의 우 도 방 정 식 이 있 다 . 이 우 도 방 정 식 은 다 음 과 같 이 표 현 된 다 .

∑,𝑦

𝑖

− 𝜋(𝑥

𝑖

)-𝑛 𝑖=1

= 0

∑ 𝑥

𝑖𝑗

,𝑦

𝑖

− 𝜋(𝑥

𝑖

)-𝑛 𝑖=1

= 0

이 고 ,

𝑗 = 1,2, ⋯ , 𝑝

이 다 . 선 형 회 귀 에 서

𝛽

는 선 형 이 기 때 문 에 우 도 방 정 식 은 편 차 제 곱 합 ( su m o f s q u a r e d d e v i a t i o n s ) 을 미 분 하 여 쉽 게 모 수 를 구 할 수 있 다 . 로 지 스 틱 회 귀 에 서 는 위 우 도 방 정 식 이

𝛽

에 대 하 여 비 선 형 이 기 때 문 에 반 복 재 가 중 최 소 제 곱 법 ( i te r a ti ve y r e we i g hte d le a st sq ua r e s, I R L S ) 를 이 용 해 계 산 한 다 . 본 연 구 에 서 는 뉴 턴 - 랩 슨 방 법 ( N e wto n - Ra p hso n me t ho d ) 을 이 용 하 여 로 지 스 틱 회 귀 모 형 의 모 수 를 추 정 하 고 자 한 다 . 이 과 정 에 서 로 그 우 도 함 수 의

1

차 미 분 식 ( fir st d e r iva ti ve ) 과

2

차 미 분 식 ( s e c o nd d e r i va t iv e ) 이 필 요 하 다 . 각 각 을 수 식 으 로 정 리 하 면 다 음 과 같 다 . ( H a st ie e t a l. , 2 0 0 9 )

(41)

𝜕𝑙(𝛽)

𝜕𝛽

= ∑ 𝑥

𝑖

(𝑦

𝑖

− 𝜋(𝑥

𝑖

))

𝑁 𝑖=1

= 0

𝜕

2

𝑙(𝛽)

𝜕𝛽𝜕𝛽

𝑇

= − ∑ 𝑥

𝑖

𝑥

𝑖𝑇

𝜋(𝑥

𝑖

)(𝑦

𝑖

− 𝜋(𝑥

𝑖

))

𝑁 𝑖=1 그 리 고 , 뉴 턴 - 랩 슨 방 법 에 서 새 로 운

𝛽

를 찾 는 과 정 은 아 래 수 식 을 따 른 다 .

𝛽

𝑛𝑒𝑤

= 𝛽

𝑜𝑙𝑑

− (

𝜕

2

𝑙(𝛽)

𝜕𝛽𝜕𝛽

𝑇

)

−1

𝜕𝑙(𝛽)

𝜕𝛽

위 수 식 을 행 렬 표 현 법 ( ma tr i x no ta tio n) 으 로 나 타 내 면 다 음 과 같 다 .

𝜕𝑙(𝛽)

𝜕𝛽

= 𝑋

𝑇

(𝑦 − 𝑝)

𝜕

2

𝑙(𝛽)

𝜕𝛽𝜕𝛽

𝑇

= −𝑋

𝑇

𝑊𝑋

𝛽

𝑛𝑒𝑤

= 𝛽

𝑜𝑙𝑑

+ (𝑋

𝑇

𝑊𝑋)

−1

𝑋

𝑇

(𝑦 − 𝑝)

𝑌

는 종 속 변 수 ,

𝑋

𝑁 × (𝑃 + 1)

행 렬 ,

𝑃

는 추 정 된 확 률 ,

𝑊

𝑁 × 𝑁

대 각 행 렬 을 나 타 낸 다 . 위 수 식 을 반 복 적 으 로 수 행 하 면 확 률

𝑃

, 대 각 행 렬

𝑊

등 이 변 화 하 면

(42)

서 최 적 의 해 를 찾 아 나 간 다 . 이 알 고 리 즘 을 반 복 재 가 중 최 소 제 곱 법 이 라

한 다 . 초 기 의

𝛽

0

으 로 설 정 하 여 반 복 을 시 작 한 다 . 로 그 우 도 함 수 가 오

목 한 형 태 를 보 이 기 때 문 에 , 일 반 적 으 로 이 알 고 리 즘 은 하 나 의 값 으 로

(43)

C. 대 용 량 데 이 터 를 이 용 한 로 지 스 틱 회 귀 모 형 의 추

뉴 턴 - 랩 슨 방 법 에 서 활 용 하 는 로 그 우 도 함 수 의

1

차 미 분 식 과

2

차 미 분 식 에 따 르 면 , 각 행 단 위 데 이 터 를 이 용 한 다 . 따 라 서 , 각 데 이 터 조 각 을 이 용 하 여 계 산 후 산 출 된 결 과 물 을 취 합 하 여 새 로 운 계 수 를 계 산 할 수 있 다 . 이 를 수 도 코 드 로 표 현 하 면 다 음 과 같 다 . 원 본 데 이 터 를 덩 어 리 ( c hu n k) 단 위 의 데 이 터 로 분 할 하 고 , 각 데 이 터 덩 어 리 를 이 용 하 는 방 식 이 다 . 덩 어 리 크 기 를 지 정 하 지 않 으 면 메 모 리 에 서 허 용 가 능 한 크 기 로 자 동 으 로 계 산 하 도 록 하 였 다 . 계 수 추 정 과 정 에

(44)

서 각 데 이 터 덩 어 리 마 다 로 그 우 도 함 수 의 미 분 을 계 산 하 고 , 전 체 데 이 터 덩 어 리 로 부 터 계 산 을 마 치 고 난 후 , 새 로 운 계 수 값 을 추 정 한 다 . 추 정 된 계 수 는 이 전 단 계 에 서 추 정 된 계 수 의 값 과 비 교 하 여

10

−6의 정 밀 도 보 다 작 은 경 우 , 반 복 과 정 을 중 단 하 고 추 정 된 계 수 를 최 종 결 과 물 로 나 타 낸 다 . 데 이 터 덩 어 리 가

1

개 인 경 우 는 데 이 터 를 읽 어 오 는 과 정 이 한 번 만 수 행 되 지 만 , 덩 어 리 가

2

개 이 상 인 경 우 는 계 수 추 정 과 정 중 반 복 적 으 로 수 행 된 다 . 따 라 서 ,

𝑇

의 데 이 터 로 딩 시 간 ,

𝐶

개 의 데 이 터 덩 어 리 ,

𝐼

회 의 반 복 이 라 고 할 때 , 전 체 적 인 수 행 시 간 은 대 략

(𝑇 × 𝐶 × 𝐼)

만 큼 늘 어 나 게 된 다 .

(45)

F i g u r e 5 . P ro c e s s t o e s t i m a t e c o e f f i c i e n t o f b i g L R - s i n g l e . ① S p l i t t h e d a t a i n t o d a t a c h u n k s . ② C a l c u l a t e p r o b a b i l i t i e s w i t h l o g i t f o r e a c h d a t a c h u n k . ③ C a l c u l a t e t h e f i r s t a n d s e c o n d d e r i v a t i v e s o f l o g - l i k e l i h o o d f u n c t i o n f o r e a c h d a t a c h u n k . ④ S u m t h e m a t r i x e l e m e n t s o f ③ . ⑤ C a l c u l a t e n e w c o e ff i c i e n t s . ⑥ I te r a t e ② to ⑤ u nt il v a r ia t io n o f e sti ma te d c o e ff ic ie n ts c o n ve rge d to s p e c i f i c p r e c i s i o n .

(46)

𝑁

개 의 행 과

𝑀

개 의 열 로 구 성 된 데 이 터 가 있 다 고 하 자 .

𝑁

개 의 행 은

𝐶

개 의 데 이 터 조 각 으 로 분 할 하 여 각 각 을 계 산 하 여

𝑀

개 의 행 과

1

개 의 열 을 가 지 는

1

차 미 분 값 을 가 지 는 행 렬 과 ,

𝑀

개 의 행 과 열 을 가 지 는

2

차 미 분 값 을 가 지 는 행 렬 을 얻 을 수 있 다 . 이 행 렬 들 은 각 데 이 터 조 각 의 개 수 만 큼 만 들 어 지 고 , 각 행 렬 의 합 을 통 하 여 데 이 터 조 각 을 통 합 한 다 . 이 를 이 용 하 여 추 정 된 계 수 값 을 산 출 한 다 .

(47)

D. 다 기 관 데 이 터 를 이 용 한 로 지 스 틱 회 귀 모 형 의 추

앞 에 서 설 명 한 대 용 량 데 이 터 의 로 지 스 틱 회 귀 분 석 방 법 에 G L O RE 알 고 리 즘 을 적 용 하 여 여 러 기 관 에 분 산 되 어 있 는 데 이 터 를 이 용 하 여 단 일 기 관 에 서 로 지 스 틱 회 귀 모 형 을 수 행 한 것 과 같 이 하 나 의 로 지 스 틱 회 귀 모 형 을 산 출 하 도 록 적 용 하 였 다 . 각 기 관 에 서 는 다 음 수 도 코 드 와 같 은 흐 름 으 로 동 작 한 다 . 대 용 량 데 이 터 의 로 지 스 틱 회 귀 분 석 방 법 에 따 라 로 그 우 도 함 수 의 미 분

(48)

을 계 산 하 여 계 산 된 미 분 값 을 서 버 로 전 달 한 다 . 서 버 에 서 는 아 래 수 도 코 드 와 같 이 각 기 관 으 로 부 터 계 산 된 로 그 우 도 함 수 의 미 분 값 들 을 전 달 받 아 새 로 운 계 수 를 추 정 한 다 . 그 리 고 , 이 를 각 기 관 에 전 달 하 고 새 로 운 추 정 된 계 수 로 설 정 하 여 반 복 과 정 이 수 행 되 도 록 한 다 . 추 정 된 계 수 는 이 전 단 계 에 서 추 정 된 계 수 의 값 과 비 교 하 여

10

−6의 정 밀 도 보 다 작 은 경 우 , 반 복 과 정 을 중 단 하 고 추 정 된 계 수 를 최 종 결 과 물 로 나 타 낸 다 . 중 앙 서 버 에 서 동 일 한 계 수 값 을 각 기 관 에 전 달 하 므 로 각 기 관 에 서 도 동 시 에 반 복 과 정 을 중 단 하 게 된 다 . 각 기 관 에 서 서 버 로 데 이 터 를 전 달 하 는 과 정 에 서 환 자 의 민 감 한 개 인 정 보 의 원 본 이 전 달 되 는 것 이 아 니 고 , 원 본 데 이 터 로 부 터 계 산 된 숫 자 만 전 달 되 기 때 문 에 각 기 관 의 환 자 단 위 데 이 터 에 대 한 프 라 이 버 시 가

(49)

보 호 될 수 있 다 . F i g u r e 6 . P ro c e s s t o e s t i m a t e c o e f f i c i e n t o f b i g L R - d i s t . ① C a l c u l a t e t h e f i r s t a n d s e c o n d d e r i v a t i v e s o f l o g l i k e l i h o o d f u n c t i o n a s f o l l o w m e t h o d o f b i g L R -s i n g l e . ② S e n d t h e m a t r i c e -s t o t h e -s e r v e r . ③ C a l c u l a t e n e w c o e ff i c i e n t -s . ④ S e n d t h e e s t i m a t e d c o e ff i c i e n t s t o e a c h c l i e n t . ⑤ I t e r a t e ① t o ④ u n t i l v a r i a t i o n o f e s t i m a t e d c o e ff i c i e n t s c o n v e r g e d t o s p e c i f i c p r e c i s i o n .

(50)

𝐶

개 의 기 관 에

𝑀

개 의 열 로 구 성 된 데 이 터 가 있 다 고 하 자 . 각 기 관 에 서 는 원 본 데 이 터 를 이 용 하 여 대 용 량 데 이 터 의 로 지 스 틱 회 귀 분 석 방 법 에 따 라 계 산 을 거 쳐 산 출 된

𝑀

개 의 행 과

1

개 의 열 을 가 지 는

1

차 미 분 값 을 가 지 는 행 렬 과 ,

𝑀

개 의 행 과 열 을 가 지 는

2

차 미 분 값 을 가 지 는 행 렬 을 얻 을 수 있 다 . 이 행 렬 들 은 중 앙 서 버 에 서 수 집 하 여 , 각 행 렬 의 합 을 통 하 여 각 기 관 의 데 이 터 를 통 합 한 다 . 이 를 이 용 하 여 추 정 된 계 수 값 을 산 출 한 다 .

(51)

E. 개 발 환 경

Wi n d o w s 7 6 4 b i t O S ( M i c r o s o f t , R e d m o n d , WA ) 환 경 의 일 반 적 인 개 인 용 컴 퓨 터 ( P e r so na l Co mp ute r, P C) 에 서 개 발 하 였 다 . 주 요 사 양 은 Ta b le 2 과 같 다 . 대 용 량 데 이 터 의 로 지 스 틱 회 귀 분 석 알 고 리 즘 과 다 기 관 데 이 터 의 로 지 스 틱 회 귀 분 석 알 고 리 즘 모 두 그 래 픽 사 용 자 인 터 페 이 스 ( G r a p hic a l U s e r I n t e r f a c e , G U I ) 프 로 그 램 으 로 개 발 하 였 다 . A n a c o n d a ( C o n t i n u u m A n a l y t i c s , A u s t i n , T X ) 플 랫 폼 에 서 P y t h o n 2 . 7 을 활 용 하 여 개 발 하 였 으 며 , 개 발 에 활 용 한 P yt ho n 라 이 브 러 리 는 Ta b le 3 와 같 다 .

(52)

Ta b l e 2 . D e v e l o p m e n t e n v i ro n m e n t s C o mp o n e n t D e t a i l s O S Wi n d o w s 7 U l t i m a t e K 6 4 b i t C P U I n t e l C o r e i 5 - 6 5 0 0 T 2 . 5 0 G H z R A M 1 2 . 0 G B A n a c o n d a Ve r s i o n 4 . 3 . 0 . 1 P y t h o n Ve r s i o n 2 . 7 . 1 3 A b b r e v i a t i o n s : O S , O p e r a t i n g s y s t e m ; C P U , C e n t r a l p r o c e s s i n g u n i t ; R A M , R a n d o m a c c e s s m e m o r y A n a c o n d a i s a h i g h p e r f o r ma n c e d i s t r i b u t i o n o f P y t h o n .

(53)

Ta b l e 3 . P y t h o n l i b r a r i e s P y t h o n l i b r a r y D e t a i l s P s u t i l Ve r s i o n 5 . 0 . 1 N u m P y Ve r s i o n 1 . 11 . 3 S c i P y Ve r s i o n 0 . 1 8 . 1 P a n d a s Ve r s i o n 0 . 1 9 . 2 P y m s s q l Ve r s i o n 2 . 1 . 3 P y Q t 5 Ve r s i o n 5 . 6 . 0 p s u t i l i s a l i b r a r y f o r r e t r i e v i n g i n f o r m a t i o n o n r u n n i n g p r o c e s s e s a n d s y s t e m u t i l i z a t i o n . N u m P y i s a l i b r a r y p r o v i d i n g a r r a y p r o c e s s i n g f o r n u m b e r s , s t r i n g s , r e c o r d s , a n d o b j e c t s . S c i P y i s a s c i e n t i f i c l i b r a r y f o r m a t h e m a t i c s , s c i e n c e , a n d e n g i n e e r i n g . P a n d a s i s a l i b r a r y p r o v i d i n g p o w e r f u l d a t a s t r u c t u r e s f o r d a t a a n a l y s i s , t i m e s e r i e s , a n d s t a t i s t i c s . P y m s s q l i s a l i b r a r y p r o v i d i n g i n t e r f a c e t o M i c r o s o f t S Q L S e r v e r. P y Q t 5 i s a l i b r a r y p r o v i d i n g P yt h o n b i n d i n g s f o r t h e Q t c r o s s p l a t f o r m U I a n d a p p l i c a t i o n t o o l k i t .

(54)

F. 성 능 평 가

본 연 구 를 통 해 개 발 한 b i g L R 프 로 그 램 과 R 을 이 용 하 여 각 각 로 지 스 틱 회 귀 분 석 을 수 행 하 였 다 . 그 리 고 추 정 된 계 수 비 교 하 여 기 존 의 분 석 방 법 과 결 과 물 의 차 이 가 없 는 지 알 아 보 았 다 . 로 지 스 틱 회 귀 분 석 결 과 를 비 교 하 기 위 하 여 O H D SI 의 연 구 그 룹 에 서 수 행 한 S e a WAS 연 구 를 재 현 하 였 다 . S e a WA S 연 구 는 사 람 의 출 생 월 에 따 라 특 정 질 환 에 걸 릴 위 험 도 가 더 높 은 지 알 아 보 는 연 구 이 다 . 이 연 구 결 과 에 따 르 면 고 혈 압 의 경 우 1 월 에 출 생 한 사 람 이 위 험 도 가 가 장 높 았 고 , 1 0 월 에 출 생 한 사 람 이 위 험 도 가 가 장 낮 은 결 과 를 보 였 다 .

(55)

III. 결 과

A. 대 상 데 이 터

데 이 터 는 아 주 대 학 교 병 원 의 전 자 의 무 기 록 을 O M O P CD M 5 . 0 구 조 로 변 환 된 데 이 터 를 사 용 하 였 다 . 연 구 대 상 은 전 체 환 자 약 2 2 7 만 명 중 1 9 0 0 년 에 서 2 0 0 0 년 사 이 에 출 생 하 였 고 , 성 별 및 출 생 일 자 정 보 가 있 는 환 자 약 2 0 0 만 명 을 대 상 으 로 하 였 다 . 데 이 터 파 일 은 탭 ( ta b ) 을 구 분 자 로 하 는 t x t 파 일 로 구 성 하 였 다 . 데 이 터 용 량 은 약 4 7 . 7 M B 이 고 , 대 상 인 원 은 2 , 0 0 3 , 9 4 9 명 이 다 . 이 데 이 터 를 대 용 량 데 이 터 의 로 지 스 틱 회 귀 분 석 에 활 용 하 기 위 하 여 1 0 0 회 반 복 추 출 하 여 약 4 . 6 6 G B 의 데 이 터 를 생 성 하 였 다 . 범 주 형 변 수 의 처 리 를 위 하 여 출 생 월 변 수 는 1 월 을 기 준 으 로 하 여 가 변 수 화 하 였 다 . 출 생 월 에 따 른 고 혈 압 진 단 여 부 는 1 회 이 상 고 혈 압 진 단 을 받 은 사 람 은 1 , 그 렇 지 않 은 경 우 0 으 로 데 이 터 를 구 성 하 였 다 .

(56)

Ta b l e 4 . D i s t r i b u t i o n o f s e x N % M a l e 1 , 0 3 5 , 7 9 2 5 1 . 7 % F e m a l e 9 6 8 , 1 5 7 4 8 . 3 % To t a l 2 , 0 0 3 , 9 4 9 1 0 0 % A b b r e v i a t i o n s : N , N u m b e r o f p a t i e n t s 아 주 대 학 교 병 원 의 E M R에 등 록 된 환 자 중 1 9 0 0 년 에 서 2 0 0 0 년 사 이 의 출 생 인 원 은 2 0 0 만 3 9 4 9 명 이 다 . 이 중 남 성 은 약 5 1 . 7 % 인 1 0 3 만 5 7 9 2 명 이 고 , 여 성 은 4 8 . 3 % 인 9 6 만 8 1 5 7 명 이 다 .

(57)

Ta b l e 5 . D i s t r i b u t i o n o f b i r t h m o n t h s a n d h y p e r t e n s i o n N ( H T N ) % ( H T N ) J a n u a r y 2 0 3 , 0 3 3 ( 1 0 , 1 6 3 ) 1 0 . 1 % ( 5 . 0 % ) F e b r u a r y 1 9 9 , 3 1 9 ( 9 , 7 5 3 ) 9 . 9 % ( 4 . 9 % ) M a r c h 1 8 4 , 3 5 7 ( 1 0 , 1 4 2 ) 9 . 2 % ( 5 . 5 % ) A p r i l 1 5 7 , 2 2 8 ( 8 , 3 4 3 ) 7 . 8 % ( 5 . 3 % ) M a y 1 5 8 , 2 0 8 ( 8 , 4 9 3 ) 7 . 9 % ( 5 . 4 % ) J u n e 1 3 9 , 0 6 9 ( 6 , 8 3 3 ) 6 . 9 % ( 4 . 9 % ) J u l y 1 5 0 , 3 7 9 ( 7 , 6 2 8 ) 7 . 5 % ( 5 . 1 % ) A u g u s t 1 6 2 , 5 2 4 ( 8 , 6 4 8 ) 8 . 1 % ( 5 . 3 % ) S e p t e m b e r 1 6 0 , 2 2 2 ( 8 , 1 2 2 ) 8 . 0 % ( 5 . 1 % ) O c t o b e r 1 6 5 , 2 2 9 ( 8 , 1 0 1 ) 8 . 2 % ( 4 . 9 % ) N o v e m b e r 1 5 7 , 5 9 5 ( 7 , 6 4 7 ) 7 . 9 % ( 4 . 9 % ) D e c e m b e r 1 6 6 , 7 8 6 ( 8 , 7 0 6 ) 8 . 3 % ( 5 . 2 % ) To t a l 2 , 0 0 3 , 9 4 9 ( 1 0 2 , 5 7 9 ) 1 0 0 % ( 5 . 1 % )

(58)

A b b r e v i a t i o n s : N , N u m b e r o f p a t i e n t s ; H T N , H y p e r t e n s i o n

출 생 월 별 환 자 의 분 포 는 각 월 별 로 약 8 . 5 % 내 외 이 며 , 각 월 별 고 혈

(59)

B. 로 지 스 틱 회 귀 분 석 결 과

R 에 기 본 으 로 내 장 되 어 있 는 g l m 함 수 를 이 용 하 여 로 지 스 틱 회 귀 분 석 을 수 행 한 후 b ig L R 의 결 과 와 비 교 하 였 다 . b i g L R 알 고 리 즘 은 두 가 지 방 법 으 로 , A) 단 일 대 용 량 데 이 터 를 이 용 하 여 로 지 스 틱 회 귀 모 형 을 추 정 ( b i g LR - si n gle ) 하 였 고 , B ) 다 수 의 클 라 이 언 트 환 경 에 서 대 용 량 데 이 터 를 이 용 하 여 로 지 스 틱 회 귀 모 형 을 추 정 ( b ig L R -d is t) 하 였 다 . 이 를 통 해 b i g L R 알 고 리 즘 이 기 존 의 방 법 과 비 교 하 여 결 과 에 차 이 가 없 음 을 확 인 하 고 자 하 였 다 . 분 석 수 행 환 경 은 프 로 그 램 개 발 환 경 과 동 일 하 다 . 최 대 1 0 회 반 복 , 0 . 0 0 0 0 0 1 의 정 밀 도 에 서 R 을 이 용 한 로 지 스 틱 회 귀 분 석 결 과 와 b i g LR 을 이 용 한 계 수 추 정 값 은 모 두 동 일 한 결 과 를 보 였 다 ( Ta b l e 6 ) . 또 한 , b i g L R 을 이 용 해 다 수 의 클 라 이 언 트 환 경 에 서 로 지 스 틱 회 귀 분 석 을 수 행 한 경 우 에 도 서 버 에 서 추 정 된 결 과 와 각 클 라 이 언 트 에 서 추 정 된 결 과 가 동 일 한 것 으 로 확 인 되 었 다 .

(60)

Ta b l e 6 . E s t i m a t e d c o e f f i c i e n t s g l m b i g L R - s i n g l e b i g L R - d i s t I n t e r c e p t - 2 . 9 4 3 3 - 2 . 9 4 3 3 - 2 . 9 4 3 3 F e b r u a r y - 0 . 0 2 3 9 - 0 . 0 2 3 9 - 0 . 0 2 3 9 M a r c h 0 . 0 9 9 7 0 . 0 9 9 7 0 . 0 9 9 7 A p r i l 0 . 0 6 1 5 0 . 0 6 1 5 0 . 0 6 1 5 M a y 0 . 0 7 3 8 0 . 0 7 3 8 0 . 0 7 3 8 J u n e - 0 . 0 1 9 6 - 0 . 0 1 9 6 - 0 . 0 1 9 6 J u l y 0 . 0 1 4 0 0 . 0 1 4 0 0 . 0 1 4 0 A u g u s t 0 . 0 6 4 4 0 . 0 6 4 4 0 . 0 6 4 4 S e p t e m b e r 0 . 0 1 3 3 0 . 0 1 3 3 0 . 0 1 3 3 O c t o b e r - 0 . 0 2 1 8 - 0 . 0 2 1 8 - 0 . 0 2 1 8 N o v e m b e r - 0 . 0 3 2 7 - 0 . 0 3 2 7 - 0 . 0 3 2 7 D e c e m b e r 0 . 0 4 4 2 0 . 0 4 4 2 0 . 0 4 4 2

(61)

IV. 고 찰

본 연 구 를 통 해 분 산 된 대 용 량 데 이 터 를 이 용 하 여 로 지 스 틱 회 귀 분 석 을 수 행 할 수 있 는 b i g L R 알 고 리 즘 을 개 발 하 였 다 . b i g L R 은 기 존 에 R을 이 용 한 로 지 스 틱 회 귀 분 석 에 서 제 한 점 으 로 여 겨 지 는 대 용 량 데 이 터 및 다 기 관 데 이 터 의 한 계 를 극 복 하 기 위 한 방 법 으 로 사 용 될 수 있 다 . G L O R E 알 고 리 즘 에 비 하 여 더 많 은 양 의 데 이 터 를 효 율 적 으 로 처 리 할 수 있 다 . b i g L R 과 R 패 키 지 를 통 해 수 행 한 로 지 스 틱 회 귀 분 석 결 과 를 비 교 할 때 , 추 정 된 회 귀 모 형 에 서 차 이 를 보 이 지 않 았 다 . 본 연 구 와 같 이 대 용 량 데 이 터 를 위 한 기 능 이 구 현 되 어 있 지 않 다 면 , 이 미 존 재 하 는 알 고 리 즘 을 적 절 히 수 정 하 여 적 용 할 수 있 다 . ( Wa n g e t a l. , 2 0 1 6 a ) 로 지 스 틱 회 귀 분 석 은 의 학 연 구 뿐 만 아 니 라 다 양 한 분 야 에 서 널 리 활 용 되 는 통 계 적 기 법 이 다 . 따 라 서 , 거 의 모 든 통 계 분 석 용 소 프 트 웨 어 는 로 지 스 틱 회 귀 분 석 기 능 을 제 공 한 다 . R 에 서 는 s ta t s 패 키 지 의 gl m 함 수 를 이 용 하 여 로 지 스 틱 회 귀 분 석 과 같 은 일 반 화 선 형 모 형 을 수 행 한 다 .

(62)

하 지 만 , 대 용 량 의 데 이 터 를 이 용 하 여 분 석 하 기 에 는 어 려 움 이 있 다 . 대 용 량 데 이 터 를 이 용 하 여 gl m 함 수 의 기 능 을 수 행 하 기 위 한 R 패 키 지 로 b i g l m 패 키 지 ( L u m l e y, 2 0 1 5 ) 와 sp e e d gl m 패 키 지 ( E ne a e t a l. , 2 0 1 7 ) 가 있 다 . 마 이 크 로 소 프 트 사 는 상 용 제 품 에 포 함 되 어 있 는 패 키 지 Re vo S c a le R 의 S c a l e R 기 능 을 통 하 여 로 지 스 틱 회 귀 분 석 을 제 공 한 다 . ( S t e e n , 2 0 1 7 ) b i g L R 은 데 이 터 를 덩 어 리 단 위 로 구 분 하 고 , 각 덩 어 리 단 위 의 데 이 터 를 반 복 적 으 로 처 리 한 다 . R에 서 도 b ig l m 패 키 지 나 sp e e d g l m 패 키 지 를 이 용 하 여 데 이 터 를 덩 어 리 단 위 로 처 리 하 여 로 지 스 틱 회 귀 분 석 을 수 행 할

수치

표   차 례   Ta b l e   1 .   C D M   t y p e   o f   D R N   p r o j e c t s  ···············································  3   Ta b l e   2

참조

관련 문서

 Given a minimum support s, then sets of items that appear in at least s baskets are called frequent itemsets.

 Learn the definition and properties of SVD, one of the most important tools in data mining!.  Learn how to interpret the results of SVD, and how to use it

The data collected in the research were processed using the SPSS WIN software program, whether significant difference of Internet addiction exists or

12) S. Park, “A Review on Monitoring Mt. Baekdu Volcano Using Space-based Remote Sensing Observations”, Special Issue on Earthquake and Volcano Research using Remote Sensing

As shown in the results of this study through research methods and data processing described above, since customer service is increasingly important, dance

 So the rank vector r is an eigenvector of the web matrix M, with the corresponding eigenvalue 1.  Fact: The largest eigenvalue of a column stochastic

For the system development, data collection using Compact Nuclear Simulator, data pre-processing, integrated abnormal diagnosis algorithm, and explanation

I.e., if competitive ratio is 0.4, we are assured that the greedy algorithm gives an answer which is >= 40% good compared to optimal alg, for ANY input... Analyzing