2019, 30
(4)
,873–884
타자들의 특성 분석을 위한 포아송 방향성 비순환 그래피컬 모델 †
ᄇ ᅡ
ᆨ혜원
1
·박건웅2
12서울시립대 통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ
요 약
ᄋ
ᅣᄀ ᅮᄋ ᅦᄉ ᅥ ᄃ ᅡ ᆫᄉ ᅮ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄀ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅪᄒ ᅡ ᆨᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄂ ᅳ ᆫ ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ (sabermetrics) ᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅴ ᄌ
ᅮ ᆼ ᄋ ᅭᄉ ᅥ ᆼᄋ ᅳ ᆫ ᄌ ᅥ ᆷᄎ ᅡ ᄀ ᅡ ᆼᄌ ᅩᄃ ᅬᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄒ ᅡᄌ ᅵᄆ ᅡ ᆫ ᄋ ᅣᄀ ᅮ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄃ ᅳ ᆯ ᄋ ᅵ ᄋ ᅵᄅ ᅮᄂ ᅳ ᆫ ᄋ ᅵ ᆫᄀ ᅪ ᄆ ᅵ ᆾ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫ ᄀ ᅪ ᆫ ᄀ ᅨ ᄌ ᅡᄎ ᅦᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄋ ᅧ ᆫᄀ ᅮ ᄂ
ᅳ ᆫ ᄉ ᅡ ᆼᄃ ᅢᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄆ ᅡ ᆭᄋ ᅵ ᄋ ᅵᄅ ᅮᄋ ᅥᄌ ᅵᄌ ᅵ ᄋ ᅡ ᆭᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄄ ᅡᄅ ᅡᄉ ᅥ ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄃ ᅳ ᆯ ᄋ ᅴ ᄒ ᅪ ᆨᄅ ᅲ ᆯᄌ ᅥ ᆨ ᄋ ᅴᄌ ᅩ ᆫᄀ ᅪ ᆫ ᄀ ᅨᄅ ᅳ ᆯ ᄆ ᅩ ᄃ
ᅦ ᆯᄅ ᅵ ᆼᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳ (bayesian network) ᄄ ᅩᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯ (directed acyclic graphical models; DAG models)ᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ, ᄐ ᅡᄌ ᅡ ᄀ ᅪ ᆫᄅ ᅧ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄋ ᅴ ᄌ ᅵ ᆨ·ᄀ ᅡ ᆫᄌ ᅥ ᆸᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄀ ᅪ ᆫ ᄀ ᅨᄆ ᅡ ᆼᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄂ ᅳ ᆫ ᄃ
ᅦ ᄎ ᅩᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄆ ᅡ ᆽᄎ ᅮᄋ ᅥ ᆻᄃ ᅡ. ᄋ ᅵᄅ ᅳ ᆯ ᄋ ᅱᄒ ᅡᄋ ᅧ, ᄃ ᅡᄇ ᅧ ᆫᄅ ᅣ ᆼ ᄀ ᅡᄉ ᅡ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄋ ᅵ ᆫᄀ ᅪ ᄀ ᅪ ᆫ ᄀ ᅨᄆ ᅡ ᆼᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅧᄌ ᅮ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄑ ᅩᄋ ᅡᄉ ᅩ ᆼ ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ
ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄋ ᅵᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄌ ᅵᄑ ᅭᄀ ᅡ ᆫᄋ ᅴ ᄀ ᅪ ᆫ ᄀ ᅨᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄉ ᅢᄅ ᅩᄋ ᅮ ᆫ ᄀ ᅪ ᆫᄌ ᅥ ᆷᄋ ᅴ ᄐ ᅡᄌ ᅡ ᄂ ᅳ ᆼᄅ ᅧ ᆨ ᄌ ᅵ ᄉ
ᅮ ᄒ ᅩ ᆨᄋ ᅳ ᆫ ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄀ ᅵᄅ ᅳ ᆯ ᄀ ᅵᄃ ᅢᄒ ᅡ ᆫᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄃ ᅡᄇ ᅧ ᆫᄅ ᅣ ᆼ ᄀ ᅡᄉ ᅡ ᆫ ᄌ ᅡᄅ ᅭ, ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳ, ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ.
1. 서문 ᄉ
ᅳ포츠의 산업화와 여가시간의 증대는프로스포츠에 대한 높은 인기로 이어졌다. 특히 야구는우리나 ᄅ
ᅡ 프로스포츠 중가장큰시장규모를가지며, 한국 뿐아니라 미국, 일본 등많은나라에서 인기를얻고 이
ᆻ는 종목이다. 또한 야구는타 종목에 비해 선수들의 역할이 명확하게 구분되어있고 각 포지션에서 수 ᄒ
ᅢᆼ하는역할 역시 쉽게 범주화하여 객관적인 경기기록이 용이하다는 특성이 있다. 이러한 야구 경기의 ᄐ
ᅳᆨ성과 높은 인기로 인하여, 많은사람들이 야구 경기력 분석과관련된다양한 통계적 분석들을세이버 ᄆ
ᅦ트릭스 (sabermetrics)를 통해 시도하였다 (Lee, 2014b; Beneventano 등, 2012). 세이버메트릭스란 ᄂ
ᅮ적된자료를토대로 통계적인관점에서 야구에관한 분석을 하는 연구분야로, 안타, 홈런, 도루 등과 ᄀ
ᅡ
ᇀ은단순 통계량으로 선수의 능력을 분석하는것에서 벗어나 더 고차원적인 방법으로 선수의 경기력을 펴
ᆼ가할 수 있다는점에서 야구경기 분석의 주류로 자리 잡아 가고 있다 (Hong 등, 2016; Yang 등, 2015;
Lee, 2014b; Lee와 Kim, 2016).
ᄋ
ᅣ구 기록을 보다 과학적으로 분석 가능하게 하는세이버메트릭스는 많은장점을갖는다. 세이버메 ᄐ
ᅳ릭스 지수를활용하여 과학적이고 객관적인 방법으로 경기력에 대한 요인을 분석하는것은상황에 맞
†
ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄀ ᅪᄒ ᅡ ᆨᄀ ᅵᄉ ᅮ ᆯᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄇ ᅮ ᄆ ᅵ ᆾ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄀ ᅵ ᄒ ᅬ ᆨᄑ ᅧ ᆼᄀ ᅡᄋ ᅯ ᆫ ᄋ ᅴ ᄇ ᅡ ᆼᄉ ᅩ ᆼᄐ ᅩ ᆼᄉ ᅵ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅢᄇ ᅡ ᆯᄉ ᅡᄋ ᅥ ᆸ(ICTᄋ ᅲ ᆼ ᄒ ᅡ ᆸᄉ ᅥᄇ ᅵᄉ ᅳ ᄀ ᅧ
ᆼᄌ ᅢ ᆼᄅ ᅧ ᆨᄀ ᅡ ᆼᄒ ᅪ)ᄋ ᅴ ᄋ ᅵ ᆯᄒ ᅪ ᆫ ᄋ ᅳᄅ ᅩ ᄉ ᅮᄒ ᅢ ᆼᄒ ᅡᄋ ᅧ ᆻᄋ ᅳ ᆷ. [2018-0-01569, ᄀ ᅩᄀ ᅢ ᆨᄀ ᅪ ᆫ ᄅ ᅵ ᄑ ᅳ ᆯᄅ ᅢ ᆺᄑ ᅩ ᆷ ᄀ ᅵᄇ ᅡ ᆫ ᄋ ᅬᄀ ᅮ ᆨᄋ ᅵ ᆫ ᄆ ᅡ ᆽᄎ ᅮ ᆷᄒ ᅧ ᆼ ᄉ ᅭᄑ ᅵ ᆼ ᄆ ᅵ ᆾ ᄀ ᅪ ᆫᄀ ᅪ ᆼ ᄑ
ᅳᄅ ᅩᄆ ᅩᄉ ᅧ ᆫ ᄉ ᅥᄇ ᅵᄉ ᅳ ᄀ ᅢᄇ ᅡ ᆯ]
1
(02504) ᄉ ᅥᄋ ᅮ ᆯ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163, ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (02504) ᄉ ᅥᄋ ᅮ ᆯ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163, ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.
E-mail: [email protected]
느
ᆫ전략을수립하는데 필수 요소이기 때문에 매우 중요하다고 할 수 있다. 또한 선수 역시 세이버메트릭 ᄉ
ᅳ를 통하여 객관화된자신의 능력을확인하고, 더 나은방향으로 나아갈 수 있게된다. 마지막으로 팬 ᄃ
ᅳ
ᆯ의 여러 가지 의문을해소하는데 세이버메트릭스가활용가능하여, 세이버메트릭스는한국프로야구의 노
ᇁ은 인기를유지하는데큰도움을 준다고도 할 수 있다.
ᄆ
ᅵ국 프로야구 (major league baseball; MLB)와 한국 프로야구 (korea baseball organization;
KBO)에서 쓰이는대표적인 세이버메트릭스의 대표적인 예로 대체선수대비승수 (wins above replace- ment; WAR)가 있는데, 이는 특정 선수 대신 투입됐을 때 얼마나 많은 승리에 기여했는가를 나타내 느
ᆫ수치이다. 또한 공격 공헌도 (on base plust slugging; OPS)역시 보편화되고 잘 알려진 세이버메트 리
ᆨ스 통계량으로서 출루율과 장타율의 합으로 쉽게 계산할 수 있는 장점이 있다. 이 외에도 타자의 득 ᄌ
ᅥᆷ 기여도에관한 지표인 득점 생산 (run created; RC)과 추정 득점 (extrapolated runs; XR), 경기장 ᄋ
ᅴ 특징을반영하는 파크팩터 (park factor, PF), 주루에 대한 지표로 도루를 제외한 주루플레이 기여 ᄃ
ᅩ(ultimate base running, UBR), 도루 기여도(weighted stolen base runs, wSB) 등많은세이버메트 리
ᆨ스가 사용되고 있다:
WAR = (공격지표 + 주루지표 + 수비지표 + 포지션 보정 + 타석 / 30) (승리당 득점) . OPS = 출루율 +장타율 .
RC = {루타수 + 0.52 × (도루 + 희생타) + 0.26 × (4사구 - 고의4구)}
×(안타 + 4사구 - 도루 실패 - 병살타)/(타수 + 4사구 + 희생타).
XR = (1루타×0.5) + (2루타× 0.72) + (3루타×1.04) + (홈런× 1.44)+ (고의4구 × 0.25) + (도루 × 0.18) - (도루실패 ×0.32) - {(타수-안타-삼진) × 0.09} - (삼진 × 0.098) + {(4사구 - 고의4구) × 0.34} - (병살타 × 0.37) + (희비 × 0.37) + (희타 × 0.04).
RI = {(홈득점 + 홈실점) / 홈경기수} / {(원정득점 + 원정실점) / 원정경기수}
PF = RI× 100 - {(RI × 100 - 100)/2}.
ᄒ
ᅡ지만 각각의 세이버메트릭스 지수에는단점 역시 존재한다. 대체선수대비승수는선수의 가치를 종 ᄒ
ᅡᆸ적으로 평가하는방법이지만, 한국프로야구는수비관련 변수들의 적합한 가중치를산정하는데 필요 ᄒ
ᅡᆫ 자료가 아직 충분하지 않다. 공격 공헌도는 출루율 (OBP)과 장타율 (SLG)을단순히 더하여 계산 ᄋ
ᅵ 편리하지만, 출루율의 최댓값은 1, 장타율의 최댓값은 4이므로 이는지나치게 장타율에 치중된값이 ᄅ
ᅡ고도 볼수 있다. 또한, Yang 등 (2015)에 따르면, 득점 생산과 추정 득점의 계산공식은 매우 많은 ᄐ
ᅡ격 지표를사용하여 값의 표준편차가큰것으로 드러났다. 이러한 단점들은비단 특정 세이버메트릭 ᄉ
ᅳ의 문제만은아니다. Lee (2014a)와 Lee (2014b) 등이 언급한 바와 같이 국내에서 사용되고 있는많 ᄋ
ᅳ
ᆫ세이버메트릭스 지수의 상수값이 미국프로야구의 통산 기록에서 산출된값이라는 점에서, 이를 대 ᄎ
ᅦ할 만한 한국프로야구 기록을기반으로 하는 상수 값이 절실히 필요한 것으로 보인다. 또한, Lee와 Kim (2016)에서 지적하듯이 많은타격 변수를이용하면 변수들사이의 높은상관관계에 의해 다중공선 서
ᆼ (multicollinearity) 문제가 발생하여 적합한 선수 능력 평가 지수 통계량을개발하는데 문제가 생길 ᄉ
ᅮ 있다.
ᄄ
ᅡ라서 본 논문에서는선수 평가 지수 통계량에서 변수간의관계를고려할 수 있도록타자별 기초 통 ᄀ
ᅨ 변수들의 직·간접적인 관계망을 파악하는데 주 목적을 두었다. 이를 위해 통계량들의 확률적 의존 과
ᆫ계를 모델링할 수 있는 베이지안 네트워크 (Bayesian network) 또는 방향성 비순환 그래피컬 모델 (directed acyclic graphical models; DAG models)을이용하였다. 우리가 찾은 통계량들간의관계망을
ᄐ ᅩ
ᆼ하여 타격 지표간의관계를이용한 새로운관점의 타자 유형 분류 방법 혹은 선수 능력 지수를 찾길 ᄀ
ᅵ대한다.
ᄇ
ᅩᆫ연구의 구성은다음과 같다. 2절에서는방향성 그래피컬 모델의 이론적 배경을설명하고, 3절에서 느
ᆫ연구에 사용된데이터를소개하고, 야구 타격 통계관계망을 분석한다. 4절에서는연구의 결과를요 ᄋ
ᅣ
ᆨ하며 결론을맺는다.
2. 이론적 배경 및 연구방법 ᄋ
ᅵ 절에서는 본 논문에 사용된방향성 비순환그래피컬 모델의 기본적인 용어와 개념을소개하고, 한 ᄀ
ᅮ
ᆨ프로야구 선수들의 변수관계망 분석에 사용된 포아송방향성 비순환 그래피컬 모델에 대해 설명한 ᄃ
ᅡ.
2.1. 방향성 비순환 그래피컬 모델의 기본 개념
X1 X2
G1
X1 X2
G2
X1 X2
G3
Figure 2.1 Bivariate directed acyclic graphs of G
1, G
2and G
3ᄇ
ᅡᆼ향성 비순환그래피컬 모델은베이지안 네트워크라고도 불리며, 최근 복잡한 도메인에서 구성 요소 ᄃ
ᅳ
ᆯ사이의확률적 의존성을 분석하기 위한 데이터 마이닝 방법으로 주목받고 있다. 또한, 방향성 비순환 ᄀ
ᅳ래피컬 모델은변수 간의 이동 경로 및 인과관계 등을 체계적으로 추정 가능하게하여 의학, 기상학, ᄉ
ᅩ프트웨어, 스포츠 분야 등다양한 분야에서 이용되고 있다 (Yoo 등, 2014; Choi와 Lee, 2016; Park, 2019).
ᄇ
ᅡᆼ향성 비순환그래피컬 모델은그래프 이론과확률이론의 결합으로 이루어져 있다. 방향성 그래프 G는 (V, E)로 표현되며, V = {1, 2, . . . , p}는 노드 (node)들의 집합이고, E ⊂ V × V 는 노드 간 선 (edge)들의 집합이다. 노드 j로부터 k로 가는방향성 선의 경우 j → k 혹은 (j, k) ∈ E로 표현한다. 노 ᄃ
ᅳ j의 부모 집합 (parents set)은 Pa(j) := {k ∈ V | (k, j) ∈ E},그 반대를자식 집합 (children set) Ch(j) := {k ∈ V | (j, k) ∈ E}이라 한다. 방향성 비순환그래프는부모노드가 자식노드보다 먼저 위치 ᄒ
ᅡ는오더링 (ordering)을가지며, π = (π1, π2, ..., πp)이라 표기한다. 즉,모든 j < k에 대하여 πj 와 πk가 서로 선으로 연결되어 있으면, πj는반드시 πk의 부모 노드가된다.
ᄀ
ᅳ래프에 대응하는 확률벡터는 X := (Xj)j∈V으로 표기하고, 그래프의 결합확률분포는 P(G) = P(X1, X2, . . . Xp)으로 한다. 또한 노드 j ∈ V 에 대하여, P(Xj| XS)는확률벡터 XS:= {Xs| s ∈ S}
ᄀ
ᅡ 주어질 때 Xj의 조건부 확률분포를 의미한다. 이때 그래프의 결합밀도함수는 인수분해 정리 (fac- torization theorem)에 의하여 다음과 같다 (Lauritzen, 1996):
fG(X1, X2, . . . , Xp) =
p
Y
j=1
fG(Xj| XPa(j)). (2.1) ᄋ
ᅵ때 fG(Xj| XPa(j))는 XPa(j):= {Xk: k ∈ Pa(j)}가 주어질 때의 Xj의 조건부밀도함수이다. 방향 서
ᆼ 비순환그래피컬 모델은 인수분해 정리 성질을 통해 변수들간의 (조건부) 독립 및 종속관계를설명 ᄒ
ᅡᆯ 수 있다.
ᄇ
ᅡᆼ향성 비순환그래피컬 모델은변수간의 인과성 혹은 직·간접적인 영향력을설명할 수 있다는장점에 ᄃ
ᅩ 불구하고, 추가적인 정보 없이는 그래프 학습이 불가능한 식별성 (identifiability)문제을안고 있다.
ᄋ
ᅨ를 들어, Figure 2.1의 이변량 방향성 비순환그래피컬 모델을보면 G1에서는두 변수가 독립관계를 ᄋ
ᅵ루고 G2, G3의 경우에는 종속관계를이룬다. 따라서 변수들의 독립관계를이용해 G1을 G2, G3와 ᄀ
ᅮ분할 수 있지만, G2와 G3는추가 정보 없이는구분할 수 없다. 이처럼 독립관계만을이용해 찾을수 이
ᆻ는그래프에는한계가 있기 때문에, 과거에는완전한 그래프를찾는것보다는조건부 독립관계들을 공 ᄋ
ᅲ하는그래프별로 묶은 마르코프 동등그룹 (Markov equivalence class)을찾는것을최종 목표로 하 느
ᆫ연구들이 대부분이었다. 뿐만 아니라, 가산 자료에 적용가능한 조건부 독립성 검정 방법이 매우 제한 ᄌ
ᅥᆨ이기 때문에 가산 자료를위한 방향성 비순환그래피컬 모델 또한 많이활용되지 못하였다.
ᄒ
ᅡ지만 최근방향성 비순환그래피컬 모델의 식별성 문제를해결하기 위하여 추가적인 가정과 정보를 ᄋ
ᅵ용하는연구들이 많이 진행되었다 (Peters와 Buhlmann, 2014; Park과 Raskutti, 2015, 2018). 이들 주
ᆼ Park과 Raskutti (2015, 2018), Park과 Park (2019)은가산 자료에 적용할 수 있는방향성 비순환 ᄀ
ᅳ래피컬 모델을개발하였다. 또한 각 노드의 부모 노드가 주어졌을때 조건부 분포가 포아송 분포나 이 ᄒ
ᅡᆼ 분포 등과 같은이산형 일반화 초기하 분포족 (generalized hypergeometric distribution)에 속한다 ᄆ
ᅧᆫ 방향성 비순환그래프를추정 가능하다는것을 증명하였다 (Theorem 1, Park과 Park (2019)). 따라 ᄉ
ᅥ 본연구에서는야구 데이터에 적합한 포아송방향성 비순환그래피컬 모델을사용하여 변수들간의관 ᄀ
ᅨ를파악하였다.
2.2. 포아송 방향성 비순환 그래피컬 모델 ᄋ
ᅵ 절에서는다양한 그래피컬 모델 중포아송방향성 비순환 그래피컬 모델을 사용한 이유와 모델의 ᄒ
ᅡᆨ습 알고리즘에 대해 알아본다. 본 연구에서 포아송 방향성 비순환그래피컬 모델을사용하는이유는 ᄃ
ᅡ음과 같다. 첫번째 이유는야구의 단순 통계의 경우 가산 자료이므로 각 노드의 부모노드가 주어졌을 ᄄ
ᅢ 조건부 분포가 포아송 분포를따른다는가정에 적합하다고 판단되기 때문이다. 예를 들어, 야구의 타 겨
ᆨ 변수인 타수, 2루타, 3루타, 홈런 등은모두 0, 1, 2, . . . 의 값을가지는가산 자료이다. 두번째 이유는 ᄃ
ᅢ다수의 야구 통계량들은 실제로 인과 및 직접적인관계를가지고 있다는것이다. 예를 들어 안타 수는 1루타, 2루타, 3루타 그리고 홈런 수의 합으로 이루어져 있고, 타점은 홈런수에 직접적인 영향을받고, ᄐ
ᅡ석수와 다른 통계량 역시 직접적인관계를 갖는다. 마지막으로 다변량 가산자료를위한 포아송비방 ᄒ
ᅣᆼ성 그래피컬 모델의 경우 양의 상관관계를다루지 못하는한계가 있지만, 포아송방향성 비순환그래 ᄑ
ᅵ컬 모델의 경우 그러한 제약이 없다 (Yang 등, 2015). 앞서 설명한 것처럼 실제 많은야구 통계량들 ᄋ
ᅵ 양의 상관관계를갖기 때문에 포아송방향성 비순환그래피컬 모델이 야구 타격 변수의관계망 파악 ᄒ
ᅡ는데 더 적합하다고 판단하였다. 본 논문에서 사용한 변수들과 상관관계는 3장에서 자세히 살펴본다.
ᄑ
ᅩ아송방향성 비순환그래피컬 모델은각 노드의 부모 노드 집합이 주어졌을때 조건부 분포가 다음 ᄀ
ᅪ 같은포아송 분포를따르는방향성 비순환그래피컬 모델이다.
Xj| XPa(j)∼ Poisson(gj(XPa(j))).
ᄋ
ᅵ때, gj(.)는 (N ∪ {0})|Pa(j)|
→ R+인 XPa(j)에 대한 임의의 양의 함수 (positive function)이다. 본 노
ᆫ문에서는 gj(.)로 일변량 포아송 일반화 선형 모형 (generalized linear model, GLM)의 표준연결 함 ᄉ
ᅮ (link fucntion)인 gj(XPa(j)) = exp(θj+P
k∈Pa(j)θjkXk)를사용하였다. 이때 (θjk)k∈Pa(j)는선 혀
ᆼ 가중치를나타낸다. 식 (2.1)을이용하여 결합확률분포를표현하면 다음과 같다.
f (X1, X2, . . . , Xp) = exp X
j∈V
θjXj+ X
(k,j)∈V
θjkXkXj−X
j∈V
log Xj! −X
j∈V
eθj+
P
k∈Pa(j)θjkXk
.
ᄑ
ᅩ아송방향성 비순환그래피컬 모델은 임의의 노드 j ∈ V 에 대해 E(Xj| XPa(j))가 비축퇴성 (non- degenerated)을 가진다면 식별 가능하다는것이 증명되었다 (Park과 Park, 2019). 또한, 포아송 분포 ᄋ
ᅴ 과대산포 성질을이용한 OverDispersion Scoring (ODS) 알고리즘을 통해 일치성을 만족하는학습 ᄋ
ᅵ 가능하다 (Park과 Raskutti, 2018). ODS 알고리즘은 크게 3가지 과정으로 이루어져 있는데, 첫 ᄇ
ᅥᆫ째로 각 변수 j에 대하여 나머지 변수들 V \ j을 독립변수로 사용한 ℓ1-정규화 포아송 회귀분석을 ᄋ
ᅵ용하여 방향성 정보가 없는 그래프의 스켈레톤 (skeleton)을학습한다. 두번째로 각 노드의 부모 노 ᄃ
ᅳ 집합이 주어졌을 때 조건부 분포가 포아송 분포를따르므로, 조건 집합이 모든부모 노드를포함하 ᄀ
ᅩ 있으면 평균과 분산이 같고, 만약 그렇지 않으면 분산이 평균보다 더 커지는과대산포 성질을 이용 ᄒ
ᅡ여 노드의 오더링 (ordering) π = (π1, π2, ..., πp)을 추정한다. 예를 들어 Figure 2.1이 포아송 방 ᄒ
ᅣᆼ성 비순환 그래피컬 모델이라고 하면, 포아송 분포의 성질에 따라 G1에서는 Var(X1) = E(X1)과 Var(X2) = E(X2)이다. 하지만 G2에서는 Var(X1) = E(X1)이지만, X2에 대해서는다음과 같은과대 ᄉ
ᅡᆫ포 성질을 볼수 있다.
Var(X2) = E[Var(X2| X1)] + Var[E(X2| X1)] = E[g2(X1)] + Var[g2(X1)] > E[g2(X1)] = E(X2).
ᄆ
ᅡ찬가지로 G3에서는 Var(X2) = E(X2)이고 Var(X1) > E(X1)인 과대산포를확인 할 수 있다. ODS ᄋ
ᅡ
ᆯ고리즘은이와 같은과대산포 성질을이용하여 그래프의 오더링을찾는다. 마지막과정으로 추정된오 ᄃ
ᅥ링의 j 번째원소 πj에 대하여 부모 노드가될수 있는오더링의 앞선 원소들 π1, ..., πj−1만을 독립변 ᄉ
ᅮ로 사용한 ℓ1-정규화 포아송회귀분석을이용하여 방향성 선을추정한다.
처
ᆺ번째와 마지막 과정에서 사용한 ℓ1-정규화 포아송 회귀분석에서의 적절한 조율 모수 (tuning pa- rameter)를 정하기 위하여, k-겹 교차 검증 (k-fold cross-validation)을 사용하였다. k-겹 교차검증을 ᄐ
ᅩ
ᆼ한 모형 적합 결과는 폴드가 어떻게 정해지는지에 따라서 결과가 달라질 수 있다. 따라서, 본연구에 ᄉ
ᅥ는 일관된그래프 추정을위하여 k를샘플수로 정한 LOOCV (leave-one-out cross-validation)를적 ᄋ
ᅭ
ᆼ하였다.본 연구의 소스코드와 데이터는 https://github.com/sdtrd011/PoissonDAGforKBOstats ᄋ
ᅦ서 내려받을수 있다.
3. 데이터 분석
3.1. 데이터 및 기초 통계
Table 3.1 Abbreviations of Statistics (variables)
Variable Description Variable Description Variable Description
AVG Batting average 2B Double SB Stolen base
AB At bat 3B Triple CS Caught stealing
R Run scored HR Home runs BB Base on balls
H Hits RBI Run batted in HBP Hit by pitch
SO Strikeout GDP Ground into double play
ᄑ
ᅩ아송비순환 그래피컬 모델을 통해 모든선수들을 분석 가능하지만, 본연구에서는뚜렷한 특징을 ᄀ
ᅡ질만한 선수들을선별하여 분석하였다. 이에 따라 2016-2018년 정규 시즌 홈런 상위권선수 해당하 느
ᆫ 김재환, Jamie Romak 선수와, 타율상위권인 이정후 선수, 도루 상위권인 박해민, Roger Bernad- ina 선수를 분석하였다. 특별한 경우로 2016-2018 3년 통산 사구 1위를 기록한 최정 선수의 타격 변 ᄉ
ᅮ 관계망을 분석하였다. 모든 선수들의 데이터는 케이비리포트 (kbreport.com)기록실에 게시되어있 ᄂ
ᅳᆫ 2016년 부터 2018년까지의 데이터를이용하였다. 하지만, WAR, OPS 등과 같은 기초통계량을 통 ᄒ
ᅢ 가공된 세이버메트릭스는 사용하지 않았다. 즉, 순수 통계인 타수 (AB), 득점 (R), 안타 (H), 삼진
Table 3.2 Average of 6 players (Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi) and average of players who met the minimum plate appearances requirement in 2016-2018
Slugger Good hitter Speedy HBP 2016-2018
Name Kim.J Romak.J Lee.J Park.H Bernadina.R Choi.J Mean
AVG 0.333 0.279 0.340 0.294 0.315 0.283 0.309 (0.03)
AB 521 443.5 505.5 570 535 445.33 473.26 (54.84)
R 107 80 96 106.33 112 96.67 81.05 (18.41)
H 173.67 127 171 167.67 168.5 126.33 146.64 (23.22)
2B 34 19 31.5 27 25.5 19.33 26.60 (7.53)
3B 2 0 5 10 5.5 1 2.44 (2.58)
HR 38.67 37 4 6.67 23.5 40.33 18.78 (10.40)
RBI 124 85.5 52 61 90.5 97.67 80.85 (23.96)
SB 4.67 5.5 11.5 42.67 32 3.67 9.26 (9.72)
CS 1 3 4 12.33 10 3 4.05 (3.81)
BB 70.33 61 51 51.67 52 68.33 48.77 (16.53)
HBP 5.33 8 7 2.33 10.5 21.37 7.70 (4.73)
SO 121.33 119.5 62.5 88 107.5 120.67 86.78 (25.00)
GDP 7.67 6.5 7 7 9 8 10.53 (4.59)
(SO), 2루타 (2B), 3루타 (3B), 홈런 (HR), 타점 (RBI), 병살타 (GDP), 도루 (SB), 도루실패 (CS), 볼 ᄂ
ᅦᆺ (BB), 사구 (HBP)만 고려하였다. Table 3.1에 사용된 변수들과 그 약자를다시 정리하였다.
새
ᆼ소하거나 용어가 비슷하여 혼란을야기하는변수들에 대한 자세한 설명은다음과 같다. 타수란 타 겨
ᆨ을완료한횟수이며, 희생번트, 4구, 사구, 타격방해 또는주루방해에 의해 1루로 나간 경우는타수로 ᄀ
ᅨ산하지 않는다. 여기서 4구는 볼넷, 사구는 몸에 맞는 공을의미한다. 득점은 본인이 홈에 들어와 얻 ᄋ
ᅳ
ᆫ점수를의미하고, 타점은 본인이 타석에서 친 공으로획득한 점수를의미한다. 타자의 타격 후 수비 ᄉ
ᅮ가 그 타구를잡아 2명의 공격수를아웃시키는 것을 병살 또는 더블플레이라고 하며, 병살의 원인이 ᄃ
ᅬ는타자의 타격을병살타라고 한다.
ᄋ ᅡ
ᇁ서 설명한 13개의 변수들과 AVG의 선수 별 2016-2018년 평균과 2016-2018년에 규정 타석을 만 ᄌ
ᅩ
ᆨ한 선수들의 평균과 표준편차가 Table 3.2에 나타나있다. Table 3.2에서 볼수 있듯이 김재환 선수와 Jamie Romak 선수의 평균 HR값이 각각 38.67, 37이고, 이는전체 평균인 18.78에 비해서 매우 높은값 으
ᆯ가진다. 이정후 선수의 평균 AVG는 0.340로 평균 0.309보다 높은타율을보유하고 있지만, 홈런의 겨
ᆼ우 4개로 평균 18.78에 비해 낮은값을가진다. 도루 1, 2위 선수인 박해민 선수, Roger Bernadina 선 ᄉ
ᅮ의 평균 SB는각각 42.67, 32로 평균인 9.26보다 높은값을가진다. 최정 선수의 평균사구는 21.37개 ᄅ
ᅩ 전체 평균인 7.70개보다 매우 높은값을가짐을확인할 수 있었다. 마지막으로, 표본수는선수가 출 ᄌ
ᅥᆫ한 총 경기 수에서 수비만 참가하여 타수가 0인 경우는제외하였고, Jamie Romak, 이정후, Roger Bernadina 선수들은 2016년도 데이터가 존재하지 않아 2017년도와 2018년도의 데이터만 이용하였다.
ᄄ
ᅡ라서 김재환, Jamie Romak, 이정후, 박해민, Roger Bernadina, 최정 선수에게 해당하는표본수는 ᄀ
ᅡ
ᆨ각 463, 241, 250, 423, 264, 382이다.
부
ᆫ석에 사용한 변수는이산형 변수이므로 각 선수들의 변수들간의 상관계수를구하고, 이에 대한 순열 거
ᆷ정을해보았다. 상관계수를구할 때에는한 변수의 값이 모두 같아 상관계수가 구해지지 않는경우를 ᄀ
ᅩᆼ백으로 처리하였다. Figure 3.1에서 하 삼각행렬에 있는 진한 숫자가 스피어만 상관계수를,상 삼각행 려
ᆯ이 순열 검정의 p 값을 나타낸다. 유의수준 5%하에서 살펴보면, 대부분의 선수들의 AB, R, H, 2B, HR, RBI는서로 유의한 양의 상관계수를가지고 있는모습을확인할 수 있다. 하지만 동시에 AB가 직 저
ᆸ적인 연관성으로 설명하기 힘든 BB, HBP와 유의한 음의 상관관계를가지고 있을 수 있다. 또한 김 ᄌ
ᅢ환 선수는 AB와 SB, RBI와 BB, 박해민 선수는 HBP와 CS, H와 CS 등모든선수들이 설명하기 어 ᄅ
ᅧ운변수들간의 유의한 상관관계를보이는것도확인 할 수 있다.
(a) HR: Jaehwan Kim (b) HR: Jamie Romak (c) AVG: Jeonghu Lee
(d) SB: Haemin Park (e) SB: Roger Bernadina (f) HBP: Jeong Choi
Figure 3.1 Spearman correlation coefficient (lower triangle) and p value of permutation test (upper triangle) for Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi
보
ᆫ연구에서 고려한 데이터는선수들의 특징에 따라 대부분이 0인 변수들이 존재한다. 예를 들어 김 ᄌ
ᅢ환 선수는도루를거의 시도하지 않아, 총 463경기의 데이터 중에 459경기에서 도루 실패횟수 없음 으
ᆯ기록했다. Jamie Romak 선수와 최정 선수는 달리기가 느려 3루타를한번이라도 성공한 경기수가 ᄀ
ᅡ
ᆨ각 총 241경기중 241경기, 382 경기중 379경기를기록하였다. 본 논문에서 데이터 분석에 사용한 포 ᄋ
ᅡ송 방향성 비순환그래피컬 모델의 경우, 앞서 설명한 것처럼 비축퇴성 (non-degenerated)을가져야 ᄆ
ᅡᆫ 식별이 가능하다 (Park과 Park, 2019). 즉변수가 한가지 값을너무 많이 가지면 그래프 식별이 힘 ᄃ
ᅳ
ᆯ어져 한 값이 99% 이상 차지하는변수를제거하였다. 따라서 김재환 선수는 CS가, Jamie Romak 선 ᄉ
ᅮ와 최정 선수는 3B가 제외된12개의 변수가 분석에 이용되었다.
3.2. 분석 결과 ᄋ
ᅵ 절에서는다변량 가산 자료 변수들간의 직접적인 방향성관계를추정하는 ODS알고리즘을사용하 ᄋ
ᅧ, 타자들의 특징을방향성 그래프로 나타내었다. 먼저 본연구에서 고려한 6명의 선수들에게서 공통 ᄋ
ᅳ로 추정된방향성 선이 무엇인지 살펴본다. 그 후에는 홈런 타자들의 그래프의 특징을확인하기 위해, ᄐ
ᅡ율은 높지만 홈런 개수는적은이정후 선수의 그래프와 비교해보았다. 마지막으로 안타 외의 진루 기 ᄅ
ᅩ
ᆨ을갖는도루 상위권 선수들과 최정 선수의 그래프의 특징을확인해 보았다.
Figure 3.2에서 모든 선수들은 공통적으로 [AB → H], [AB → BB], [H → R], [HR → RBI]의 ᄇ
ᅡᆼ향성 선을가짐을확인 할 수 있으며, 발이 느린 Jamie Romak 선수를제외한 5명의 선수들은 [H → 2B]의 선 또한 공통으로 가진다. 김재환, Roger Bernadina 선수를 제외한 4명의 선수들 에게서는
AB
HBP BB H SO GDP
SB 2B 3B HR
CS R RBI
1
(a) HR: Jaehwan Kim
AB
HBP BB H SO GDP
SB 2B 3B HR
CS R RBI
2
(b) HR: Jamie Romak
AB
HBP BB H SO GDP
SB 2B 3B HR
CS R RBI
3
(c) AVG: Jeonghu Lee
AB
HBP BB H SO GDP
SB 2B 3B HR
CS R RBI
4
(d) SB: Haemin Park
AB
HBP BB H SO GDP
SB 2B 3B HR
CS R RBI
5
(e) SB: Roger Bernadina
AB
HBP BB H SO GDP
SB 2B 3B HR
CS R RBI
6
(f) HBP: Jeong Choi Figure 3.2 Estimated DAGs for the 6 KBO palyers
[AB → SO]의 방향성 선이, Jamie Romak, 최정 선수를제외한 4명의 선수들에게서는 [H → RBI]의 ᄉ
ᅥᆫ이 공통으로 나타났다.
ᄃ
ᅢ부분의 선수들에게서 공통적으로 추정된 7개의 방향성 선은 인과관계를잘 나타내고 있다. 자세히 ᄉ
ᅡ
ᆯ펴보면 [AB → H]와 [AB → BB], [AB → SO]의 경우, 타수는전체 타석에서 희생번트, 희생플 ᄅ
ᅡ이, 볼넷, 몸에 맞는 공, 타격 방해 등을 뺀 것이므로, 타수가 많아질수록 안타 개수와 삼진은 비례 ᄒ
ᅢ서 증가하고 볼넷 개수와는 반비례 관계를 가지므로, 추정된 방향성 선이 그 함수 관계 (functional relation)를잘 나타낸다고 볼수 있다. 또한 안타 개수와 2루타는비례관계를가지며, 안타 개수가 많 ᄋ
ᅡ질수록 득점과 타점이 높아질 가능성이 크기 때문에 [H → 2B]와 [H → R], [H → RBI]의 방향성 ᄉ
ᅥᆫ도 잘 추정되었음을확인 할 수 있다. 마지막으로 홈런을치면 타점이 올라가기 때문에 [HR → RBI]
ᄋ
ᅧᆨ시 잘 추정되었다고 할 수 있다. 이처럼 추정된방향성 그래프에는우수한 선수들이 가지는 특징이 선 ᄋ
ᅳ로 나타나져 있으며, 선수들의 주력과 같은 특징 역시 방향성 그래프에 잘 반영되어 있음을확인 할
ᄉ ᅮ 있다.
ᄀ ᅡ
ᆨ 유형별 타자들의 특징을파악하기 위해 먼저 홈런 타자들의 그래프 Figures 3.2 (a)와 3.2 (b)을비 ᄀ
ᅭ해 보았다. 김재환 선수와 Jamie Romak 선수에게서는다른선수들에게서는 볼수 없는 공통된방향 서
ᆼ 선을두 개 더 찾을수 있는데, 첫번째는 [H → SO]이고, 두번째는 [R → HR]이다. [H → SO]의 경 ᄋ
ᅮ, 타수가 주어져 있을때 안타 수와 삼진 수는반비례관계를가지므로 두 변수의 연결은합리적이라 ᄒ
ᅡᆯ 수 있다.
[R → HR]는두 선수가 2018년 기준 홈런 개수 1, 2위를한 선수들이고, 홈런이 차지하는 득점비율이 ᄃ
ᅡ른선수들에 비해 높으므로, 두 변수간의 연결이 타당하다고 볼수 있다. 이 연결은 2017년 기준 홈런 1위와 9위를차지한 최정 선수의 그래프 (Figure 3.2 (f))와 Roger Bernadina 선수의 그래프 (Figure 3.2 (e))에서도 찾을 수 있다. 하지만, 홈런 개수가 낮은 이정후 선수의 그래프 (Figure 3.2 (c))에서는 조
ᆫ재하지 않아, [R → HR]가 홈런 타자들에게 나타나는 특징이라는것을알 수 있다. 그러나 홈런 개수 ᄀ
ᅡ 많아질수록 득점이 비례해서 증가하므로 실제로는 [HR → R]이 합당하다고 할 수 있다. 즉추정된 ᄀ
ᅳ래프에서는 [R → HR]로 방향이 반대로 되어 있어, 직접적인관계가 있는변수들은찾았지만 그 인과 과
ᆫ계까지는정확히 추론하지 못한 점을확인할 수 있다.
ᄃ
ᅩ루 상위권 선수들의 특성을확인하기 위해 Figures 3.2 (d)와 3.2 (e)를살펴보자. 먼저 Figure 3.2 (d)를 통해 박해민 선수에게는 [H → SB]의 모습을 확인할 수 있고, Figure 3.2 (e)를 통해 Roger Bernadina 선수에게서는 [BB → SB]의 방향성 선을 볼수 있다. 두 선수를제외한 4명의 선수들의 그 ᄅ
ᅢ프에서는 SB가 독립된 변수로 남아 있으므로, 박해민 선수의 [H → SB]와 Roger Bernadina 선수의 [BB → SB]는다른선수들과는확연히 다른 특징임을알 수 있다. SB는 진루 후에 기록되는변수이므 ᄅ
ᅩ, 진루와관계된 H, BB가 도루 상위권 선수의 그래프에서 연결되는것은자연스러운결과라고 할 수 이
ᆻ다. 뿐만 아니라 두 선이 발생한 이유는박해민 선수는 2018년 안타 9위, Roger Bernadina 선수는 2018년 볼넷 7위를기록했다는것에서 찾을수 있었다. 이를 통해 변수관계망이 각 선수들의 진루 유 혀
ᆼ 역시 보여준다고 할 수 있다.
Figure 3.2 (f)에서 최정선수의 특징을보면, 다른선수들과 다른가장큰 특징은 [AB → HBP ]라고 ᄒ
ᅡᆯ 수 있다. 최정 선수는 2016 - 2018년 3년 통산 사구 1위를기록한 선수이다. 이러한 최정 선수의 특 지
ᆼ이 [AB → HBP ] 방향성 선에서 잘 나타나고 있음을확인 할 수 있다.
ᄆ ᅮ
ᆯ론각 선수별로 변수들의관계망을살펴보면 설명하기 어려운선들도 나타난다. 예를 들어, Jamie Romak 선수는 [SO → GDP ]의 방향성 선이 추가로 나타났다. 이 선은 방향성을 고려하지 않더라 ᄃ
ᅩ 설명하기 어려운 에러라고 판단된다. 이러한 에러가 발생한 주요한 이유로 Jamie Romak 선수의 GDP가 7개로 너무 낮은발생 빈도를 들수 있다. 이 외에도 이정후 선수의 Figure 3.2 (c)에서는 [R → BB]의 방향성 선과 Figure 3.2 (d)에서 박해민 선수는 [R → SB]의 방향성 선, Figure 3.2 (e)에서 Roger Bernadina 선수는 [R → BB]의 방향성 선이 설명이 어려운에러로 판단된다. 이는변수들의 조 ᄀ
ᅥᆫ부 분포가 정확히 포아송 분포를따르지 않거나, 적절치 못한 조율파라미터를선택했기 때문이라고 ᄒ
ᅡᆯ 수 있다. Table 3.3에 공통된 방향성 선과, 설명이 어려운선이 요약되어 있다. 현재까지는포아송 ᄇ
ᅵ순환방향성 그래피컬 모델이 유일한 방향성관계를가진 이산자료를위한 모델이므로 포아송비순환 ᄇ
ᅡᆼ향성 그래피컬 모델의 결과만 제시하였다. 추후 이산자료를위한 새로운방향성 그래피컬 모델을 사 ᄋ
ᅭ
ᆼ하거나, 더 적합한 조율모수를정하는방법을찾는다면 더 좋은결과가 나올것이라 기대한다.
4. 결론 및 토의 보
ᆫ연구에서는야구 통계량들간의 직접적인관계를파악하기 위하여 포아송방향성 비순환그래피컬 ᄆ
ᅩ델을이용하여 선수별 야구 타자 변수관계망을 분석해 보았고, 선수들의 고유한 특징이관계망에 잘
Table 3.3 The set of common, accountable, reversed, and unexplanable edges for the types of players.
Type Edges
Common
6 [AB → H], [AB → BB], [H → R], [HR → RBI]
5 [H → 2B]
4 [AB → SO], [H → RBI]
Hitters [H → SO], [R → HR]
Speedy [H → SB], [BB → SB]
Special [AB → HBP ] Reversed [R → HR]
Unexplanable [SO → GDP ], [R → BB], [R → SB]
ᄂ
ᅡ타나는것을확인 할 수 있었다. 예를 들어 평균타율은 높지만 홈런 개수가 낮은이정후 선수는 R과 HR사이의 선이 존재하지 않았지만, 홈런 타자들은모두 [R → HR]의 방향성 선을가지는관계망이 나 ᄐ
ᅡ났다. 또한 도루 상위권 선수들의 변수관계망에서도 다른선수들의관계망과 달리 SB가 진루와관련 되
ᆫ 변수들과 연결된모습을확인할 수 있었다. 마지막으로 사구 개수 부문에서 1위인 최정 선수의관계 ᄆ
ᅡᆼ에서도 다른선수들의 관계망에서는 볼수 없었던 [AB → HBP ]의 방향성 선이 있는것을 확인 할 ᄉ
ᅮ 있었다. 더 나아가 변수관계망을 통해 다양한 추가 정보를확인할 수 있었다. 예를 들어 홈런 평균 ᄋ
ᅵ 리그 평균과 비슷한 Roger Bernadina 선수와 최정 선수에게서도 R과 HR의 연결이 찾을수 있었다.
ᄋ
ᅵ는 변수관계망을 통해 선수들이 가지는주요한 특징 뿐만 아니라, 다른 특징 역시확인할 수 있다는 거
ᆺ을시사한다.
ᄎ
ᅬ근주목받고 있는세이버메트릭스는변수들의 상관관계를고려치 않고 너무 많은변수를사용하거 ᄂ
ᅡ, 우리나라 데이터가 아닌 MLB를기준으로 만들어진 계수를사용하기 때문에 한국프로야구 선수에 ᄃ
ᅢ한 분석의 통계량으로 사용하기에 적절하지 않을수 있다. 그러나 본연구에서 타자들의 변수관계망 으
ᆯ 분석해 본결과 사구와 고의 4구, 도루 실패 등은안타, 2루타, 3루타, 홈런 등과의 직접적인관계가 ᄎ
ᅡᆽ기 힘들었으므로, 안타와관련된 통계량을개발 할 때 필요한 변수를 줄일 수 있는가능성을보였다.
ᄄ
ᅩ한, 모든선수들의 데이터를이용하는것이 아닌, 한 선수의 데이터를이용하여 변수관계망을파악함 ᄋ
ᅳ로써 개개인의 특성을더 잘 반영할 수 있다는장점도 찾을수 있었다. 따라서 변수관계망을잘 이용 ᄒ
ᅡ여 더 좋은세이버메트릭스를개발한다면, 고차원적으로 선수의 경기력을 분석할 수 있는세이버메트 리
ᆨ스의 장점을강화시킬 수 있을것이라 판단된다. 더 나아가 선수 개개인의 변수관계망을 통해 선수들 ᄀ
ᅡᆫ의 특성을찾아 평가하고, 선수들의 맞춤형 훈련 방법과 전략을세우는데 도움이될 것이라 판단된다.
ᄆ
ᅡ지막으로 본연구에서 사용된ODS알고리즘은그래프 구조만 찾을수 있다는한계가 있었다. 따라서 ᄎ
ᅮ후에 추정된그래프를바탕으로 변수관계 정도를수치화 할 수 있는방법을찾는다면, 더 나은세이 ᄇ
ᅥ메트릭스를개발하는데 도움이될 것이라고 기대한다.
References