A Poisson directed acyclic graphical model for analyzing Korean baseball batter’s characteristics <sup>†</sup>

(1)

2019, 30

(

4)

,

873–884

타자들의 특성 분석을 위한 포아송 방향성 비순환 그래피컬 모델 ^†

ᄇ ᅡ

ᆨ혜원

¹

·박건웅

²

12서울시립대 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ

요 약

ᄋ

ᅣᄀ ᅮᄋ ᅦᄉ ᅥ ᄃ ᅡ ᆫᄉ ᅮ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄀ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅪᄒ ᅡ ᆨᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄂ ᅳ ᆫ ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ (sabermetrics) ᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅴ ᄌ

ᅮ ᆼ ᄋ ᅭᄉ ᅥ ᆼᄋ ᅳ ᆫ ᄌ ᅥ ᆷᄎ ᅡ ᄀ ᅡ ᆼᄌ ᅩᄃ ᅬᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄒ ᅡᄌ ᅵᄆ ᅡ ᆫ ᄋ ᅣᄀ ᅮ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄃ ᅳ ᆯ ᄋ ᅵ ᄋ ᅵᄅ ᅮᄂ ᅳ ᆫ ᄋ ᅵ ᆫᄀ ᅪ ᄆ ᅵ ᆾ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫ ᄀ ᅪ ᆫ ᄀ ᅨ ᄌ ᅡᄎ ᅦᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄋ ᅧ ᆫᄀ ᅮ ᄂ

ᅳ ᆫ ᄉ ᅡ ᆼᄃ ᅢᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄆ ᅡ ᆭᄋ ᅵ ᄋ ᅵᄅ ᅮᄋ ᅥᄌ ᅵᄌ ᅵ ᄋ ᅡ ᆭᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄄ ᅡᄅ ᅡᄉ ᅥ ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄃ ᅳ ᆯ ᄋ ᅴ ᄒ ᅪ ᆨᄅ ᅲ ᆯᄌ ᅥ ᆨ ᄋ ᅴᄌ ᅩ ᆫᄀ ᅪ ᆫ ᄀ ᅨᄅ ᅳ ᆯ ᄆ ᅩ ᄃ

ᅦ ᆯᄅ ᅵ ᆼᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳ (bayesian network) ᄄ ᅩᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯ (directed acyclic graphical models; DAG models)ᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ, ᄐ ᅡᄌ ᅡ ᄀ ᅪ ᆫᄅ ᅧ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄋ ᅴ ᄌ ᅵ ᆨ·ᄀ ᅡ ᆫᄌ ᅥ ᆸᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄀ ᅪ ᆫ ᄀ ᅨᄆ ᅡ ᆼᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄂ ᅳ ᆫ ᄃ

ᅦ ᄎ ᅩᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄆ ᅡ ᆽᄎ ᅮᄋ ᅥ ᆻᄃ ᅡ. ᄋ ᅵᄅ ᅳ ᆯ ᄋ ᅱᄒ ᅡᄋ ᅧ, ᄃ ᅡᄇ ᅧ ᆫᄅ ᅣ ᆼ ᄀ ᅡᄉ ᅡ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄋ ᅵ ᆫᄀ ᅪ ᄀ ᅪ ᆫ ᄀ ᅨᄆ ᅡ ᆼᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅧᄌ ᅮ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄑ ᅩᄋ ᅡᄉ ᅩ ᆼ ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ

ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄋ ᅵᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄌ ᅵᄑ ᅭᄀ ᅡ ᆫᄋ ᅴ ᄀ ᅪ ᆫ ᄀ ᅨᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄉ ᅢᄅ ᅩᄋ ᅮ ᆫ ᄀ ᅪ ᆫᄌ ᅥ ᆷᄋ ᅴ ᄐ ᅡᄌ ᅡ ᄂ ᅳ ᆼᄅ ᅧ ᆨ ᄌ ᅵ ᄉ

ᅮ ᄒ ᅩ ᆨᄋ ᅳ ᆫ ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄀ ᅵᄅ ᅳ ᆯ ᄀ ᅵᄃ ᅢᄒ ᅡ ᆫᄃ ᅡ.

ᄌ

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄃ ᅡᄇ ᅧ ᆫᄅ ᅣ ᆼ ᄀ ᅡᄉ ᅡ ᆫ ᄌ ᅡᄅ ᅭ, ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳ, ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ.

1. 서문 ᄉ

ᅳ포츠의 산업화와 여가시간의 증대는프로스포츠에 대한 높은 인기로 이어졌다. 특히 야구는우리나 ᄅ

ᅡ 프로스포츠 중가장큰시장규모를가지며, 한국 뿐아니라 미국, 일본 등많은나라에서 인기를얻고 이

ᆻ는 종목이다. 또한 야구는타 종목에 비해 선수들의 역할이 명확하게 구분되어있고 각 포지션에서 수 ᄒ

ᅢᆼ하는역할 역시 쉽게 범주화하여 객관적인 경기기록이 용이하다는 특성이 있다. 이러한 야구 경기의 ᄐ

ᅳᆨ성과 높은 인기로 인하여, 많은사람들이 야구 경기력 분석과관련된다양한 통계적 분석들을세이버 ᄆ

ᅦ트릭스 (sabermetrics)를 통해 시도하였다 (Lee, 2014b; Beneventano 등, 2012). 세이버메트릭스란 ᄂ

ᅮ적된자료를토대로 통계적인관점에서 야구에관한 분석을 하는 연구분야로, 안타, 홈런, 도루 등과 ᄀ

ᅡ

ᇀ은단순 통계량으로 선수의 능력을 분석하는것에서 벗어나 더 고차원적인 방법으로 선수의 경기력을 펴

ᆼ가할 수 있다는점에서 야구경기 분석의 주류로 자리 잡아 가고 있다 (Hong 등, 2016; Yang 등, 2015;

Lee, 2014b; Lee와 Kim, 2016).

ᄋ

ᅣ구 기록을 보다 과학적으로 분석 가능하게 하는세이버메트릭스는 많은장점을갖는다. 세이버메 ᄐ

ᅳ릭스 지수를활용하여 과학적이고 객관적인 방법으로 경기력에 대한 요인을 분석하는것은상황에 맞

†

ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄀ ᅪᄒ ᅡ ᆨᄀ ᅵᄉ ᅮ ᆯᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄇ ᅮ ᄆ ᅵ ᆾ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄀ ᅵ ᄒ ᅬ ᆨᄑ ᅧ ᆼᄀ ᅡᄋ ᅯ ᆫ ᄋ ᅴ ᄇ ᅡ ᆼᄉ ᅩ ᆼᄐ ᅩ ᆼᄉ ᅵ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅢᄇ ᅡ ᆯᄉ ᅡᄋ ᅥ ᆸ(ICTᄋ ᅲ ᆼ ᄒ ᅡ ᆸᄉ ᅥᄇ ᅵᄉ ᅳ ᄀ ᅧ

ᆼᄌ ᅢ ᆼᄅ ᅧ ᆨᄀ ᅡ ᆼᄒ ᅪ)ᄋ ᅴ ᄋ ᅵ ᆯᄒ ᅪ ᆫ ᄋ ᅳᄅ ᅩ ᄉ ᅮᄒ ᅢ ᆼᄒ ᅡᄋ ᅧ ᆻᄋ ᅳ ᆷ. [2018-0-01569, ᄀ ᅩᄀ ᅢ ᆨᄀ ᅪ ᆫ ᄅ ᅵ ᄑ ᅳ ᆯᄅ ᅢ ᆺᄑ ᅩ ᆷ ᄀ ᅵᄇ ᅡ ᆫ ᄋ ᅬᄀ ᅮ ᆨᄋ ᅵ ᆫ ᄆ ᅡ ᆽᄎ ᅮ ᆷᄒ ᅧ ᆼ ᄉ ᅭᄑ ᅵ ᆼ ᄆ ᅵ ᆾ ᄀ ᅪ ᆫᄀ ᅪ ᆼ ᄑ

ᅳᄅ ᅩᄆ ᅩᄉ ᅧ ᆫ ᄉ ᅥᄇ ᅵᄉ ᅳ ᄀ ᅢᄇ ᅡ ᆯ]

1

(02504) ᄉ ᅥᄋ ᅮ ᆯ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163, ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (02504) ᄉ ᅥᄋ ᅮ ᆯ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163, ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

느

ᆫ전략을수립하는데 필수 요소이기 때문에 매우 중요하다고 할 수 있다. 또한 선수 역시 세이버메트릭 ᄉ

ᅳ를 통하여 객관화된자신의 능력을확인하고, 더 나은방향으로 나아갈 수 있게된다. 마지막으로 팬 ᄃ

ᅳ

ᆯ의 여러 가지 의문을해소하는데 세이버메트릭스가활용가능하여, 세이버메트릭스는한국프로야구의 노

ᇁ은 인기를유지하는데큰도움을 준다고도 할 수 있다.

ᄆ

ᅵ국 프로야구 (major league baseball; MLB)와 한국 프로야구 (korea baseball organization;

KBO)에서 쓰이는대표적인 세이버메트릭스의 대표적인 예로 대체선수대비승수 (wins above replace- ment; WAR)가 있는데, 이는 특정 선수 대신 투입됐을 때 얼마나 많은 승리에 기여했는가를 나타내 느

ᆫ수치이다. 또한 공격 공헌도 (on base plust slugging; OPS)역시 보편화되고 잘 알려진 세이버메트 리

ᆨ스 통계량으로서 출루율과 장타율의 합으로 쉽게 계산할 수 있는 장점이 있다. 이 외에도 타자의 득 ᄌ

ᅥᆷ 기여도에관한 지표인 득점 생산 (run created; RC)과 추정 득점 (extrapolated runs; XR), 경기장 ᄋ

ᅴ 특징을반영하는 파크팩터 (park factor, PF), 주루에 대한 지표로 도루를 제외한 주루플레이 기여 ᄃ

ᅩ(ultimate base running, UBR), 도루 기여도(weighted stolen base runs, wSB) 등많은세이버메트 리

ᆨ스가 사용되고 있다:

WAR = (공격지표 + 주루지표 + 수비지표 + 포지션 보정 + 타석 / 30) (승리당 득점) . OPS = 출루율 +장타율 .

RC = {루타수 + 0.52 × (도루 + 희생타) + 0.26 × (4사구 - 고의4구)}

×(안타 + 4사구 - 도루 실패 - 병살타)/(타수 + 4사구 + 희생타).

XR = (1루타×0.5) + (2루타× 0.72) + (3루타×1.04) + (홈런× 1.44)+ (고의4구 × 0.25) + (도루 × 0.18) - (도루실패 ×0.32) － {(타수-안타-삼진) × 0.09} - (삼진 × 0.098) + {(4사구 - 고의4구) × 0.34} - (병살타 × 0.37) + (희비 × 0.37) + (희타 × 0.04).

RI = {(홈득점 + 홈실점) / 홈경기수} / {(원정득점 + 원정실점) / 원정경기수}

PF = RI× 100 - {(RI × 100 - 100)/2}.

ᄒ

ᅡ지만 각각의 세이버메트릭스 지수에는단점 역시 존재한다. 대체선수대비승수는선수의 가치를 종 ᄒ

ᅡᆸ적으로 평가하는방법이지만, 한국프로야구는수비관련 변수들의 적합한 가중치를산정하는데 필요 ᄒ

ᅡᆫ 자료가 아직 충분하지 않다. 공격 공헌도는 출루율 (OBP)과 장타율 (SLG)을단순히 더하여 계산 ᄋ

ᅵ 편리하지만, 출루율의 최댓값은 1, 장타율의 최댓값은 4이므로 이는지나치게 장타율에 치중된값이 ᄅ

ᅡ고도 볼수 있다. 또한, Yang 등 (2015)에 따르면, 득점 생산과 추정 득점의 계산공식은 매우 많은 ᄐ

ᅡ격 지표를사용하여 값의 표준편차가큰것으로 드러났다. 이러한 단점들은비단 특정 세이버메트릭 ᄉ

ᅳ의 문제만은아니다. Lee (2014a)와 Lee (2014b) 등이 언급한 바와 같이 국내에서 사용되고 있는많 ᄋ

ᅳ

ᆫ세이버메트릭스 지수의 상수값이 미국프로야구의 통산 기록에서 산출된값이라는 점에서, 이를 대 ᄎ

ᅦ할 만한 한국프로야구 기록을기반으로 하는 상수 값이 절실히 필요한 것으로 보인다. 또한, Lee와 Kim (2016)에서 지적하듯이 많은타격 변수를이용하면 변수들사이의 높은상관관계에 의해 다중공선 서

ᆼ (multicollinearity) 문제가 발생하여 적합한 선수 능력 평가 지수 통계량을개발하는데 문제가 생길 ᄉ

ᅮ 있다.

ᄄ

ᅡ라서 본 논문에서는선수 평가 지수 통계량에서 변수간의관계를고려할 수 있도록타자별 기초 통 ᄀ

ᅨ 변수들의 직·간접적인 관계망을 파악하는데 주 목적을 두었다. 이를 위해 통계량들의 확률적 의존 과

ᆫ계를 모델링할 수 있는 베이지안 네트워크 (Bayesian network) 또는 방향성 비순환 그래피컬 모델 (directed acyclic graphical models; DAG models)을이용하였다. 우리가 찾은 통계량들간의관계망을

(3)

ᄐ ᅩ

ᆼ하여 타격 지표간의관계를이용한 새로운관점의 타자 유형 분류 방법 혹은 선수 능력 지수를 찾길 ᄀ

ᅵ대한다.

ᄇ

ᅩᆫ연구의 구성은다음과 같다. 2절에서는방향성 그래피컬 모델의 이론적 배경을설명하고, 3절에서 느

ᆫ연구에 사용된데이터를소개하고, 야구 타격 통계관계망을 분석한다. 4절에서는연구의 결과를요 ᄋ

ᅣ

ᆨ하며 결론을맺는다.

2. 이론적 배경 및 연구방법 ᄋ

ᅵ 절에서는 본 논문에 사용된방향성 비순환그래피컬 모델의 기본적인 용어와 개념을소개하고, 한 ᄀ

ᅮ

ᆨ프로야구 선수들의 변수관계망 분석에 사용된 포아송방향성 비순환 그래피컬 모델에 대해 설명한 ᄃ

ᅡ.

2.1. 방향성 비순환 그래피컬 모델의 기본 개념

X1 X2

G1

X1 X2

G2

X1 X2

G3

Figure 2.1 Bivariate directed acyclic graphs of G

₁

, G

₂

and G

₃

ᄇ

ᅡᆼ향성 비순환그래피컬 모델은베이지안 네트워크라고도 불리며, 최근 복잡한 도메인에서 구성 요소 ᄃ

ᅳ

ᆯ사이의확률적 의존성을 분석하기 위한 데이터 마이닝 방법으로 주목받고 있다. 또한, 방향성 비순환 ᄀ

ᅳ래피컬 모델은변수 간의 이동 경로 및 인과관계 등을 체계적으로 추정 가능하게하여 의학, 기상학, ᄉ

ᅩ프트웨어, 스포츠 분야 등다양한 분야에서 이용되고 있다 (Yoo 등, 2014; Choi와 Lee, 2016; Park, 2019).

ᄇ

ᅡᆼ향성 비순환그래피컬 모델은그래프 이론과확률이론의 결합으로 이루어져 있다. 방향성 그래프 G는 (V, E)로 표현되며, V = {1, 2, . . . , p}는 노드 (node)들의 집합이고, E ⊂ V × V 는 노드 간 선 (edge)들의 집합이다. 노드 j로부터 k로 가는방향성 선의 경우 j → k 혹은 (j, k) ∈ E로 표현한다. 노 ᄃ

ᅳ j의 부모 집합 (parents set)은 Pa(j) := {k ∈ V | (k, j) ∈ E},그 반대를자식 집합 (children set) Ch(j) := {k ∈ V | (j, k) ∈ E}이라 한다. 방향성 비순환그래프는부모노드가 자식노드보다 먼저 위치 ᄒ

ᅡ는오더링 (ordering)을가지며, π = (π1, π2, ..., πp)이라 표기한다. 즉,모든 j < k에 대하여 πj 와 πk가 서로 선으로 연결되어 있으면, πj는반드시 π^k의 부모 노드가된다.

ᄀ

ᅳ래프에 대응하는 확률벡터는 X := (Xj)j∈V으로 표기하고, 그래프의 결합확률분포는 P(G) = P(X1, X2, . . . Xp)으로 한다. 또한 노드 j ∈ V 에 대하여, P(Xj| XS)는확률벡터 XS:= {Xs| s ∈ S}

ᄀ

ᅡ 주어질 때 X^j의 조건부 확률분포를 의미한다. 이때 그래프의 결합밀도함수는 인수분해 정리 (fac- torization theorem)에 의하여 다음과 같다 (Lauritzen, 1996):

fG(X1, X2, . . . , Xp) =

p

Y

j=1

fG(Xj| XPa(j)). (2.1) ᄋ

ᅵ때 fG(Xj| XPa(j))는 XPa(j):= {Xk: k ∈ Pa(j)}가 주어질 때의 Xj의 조건부밀도함수이다. 방향 서

ᆼ 비순환그래피컬 모델은 인수분해 정리 성질을 통해 변수들간의 (조건부) 독립 및 종속관계를설명 ᄒ

ᅡᆯ 수 있다.

(4)

ᄇ

ᅡᆼ향성 비순환그래피컬 모델은변수간의 인과성 혹은 직·간접적인 영향력을설명할 수 있다는장점에 ᄃ

ᅩ 불구하고, 추가적인 정보 없이는 그래프 학습이 불가능한 식별성 (identifiability)문제을안고 있다.

ᄋ

ᅨ를 들어, Figure 2.1의 이변량 방향성 비순환그래피컬 모델을보면 G1에서는두 변수가 독립관계를 ᄋ

ᅵ루고 G2, G3의 경우에는 종속관계를이룬다. 따라서 변수들의 독립관계를이용해 G1을 G2, G3와 ᄀ

ᅮ분할 수 있지만, G2와 G3는추가 정보 없이는구분할 수 없다. 이처럼 독립관계만을이용해 찾을수 이

ᆻ는그래프에는한계가 있기 때문에, 과거에는완전한 그래프를찾는것보다는조건부 독립관계들을 공 ᄋ

ᅲ하는그래프별로 묶은 마르코프 동등그룹 (Markov equivalence class)을찾는것을최종 목표로 하 느

ᆫ연구들이 대부분이었다. 뿐만 아니라, 가산 자료에 적용가능한 조건부 독립성 검정 방법이 매우 제한 ᄌ

ᅥᆨ이기 때문에 가산 자료를위한 방향성 비순환그래피컬 모델 또한 많이활용되지 못하였다.

ᄒ

ᅡ지만 최근방향성 비순환그래피컬 모델의 식별성 문제를해결하기 위하여 추가적인 가정과 정보를 ᄋ

ᅵ용하는연구들이 많이 진행되었다 (Peters와 Buhlmann, 2014; Park과 Raskutti, 2015, 2018). 이들 주

ᆼ Park과 Raskutti (2015, 2018), Park과 Park (2019)은가산 자료에 적용할 수 있는방향성 비순환 ᄀ

ᅳ래피컬 모델을개발하였다. 또한 각 노드의 부모 노드가 주어졌을때 조건부 분포가 포아송 분포나 이 ᄒ

ᅡᆼ 분포 등과 같은이산형 일반화 초기하 분포족 (generalized hypergeometric distribution)에 속한다 ᄆ

ᅧᆫ 방향성 비순환그래프를추정 가능하다는것을 증명하였다 (Theorem 1, Park과 Park (2019)). 따라 ᄉ

ᅥ 본연구에서는야구 데이터에 적합한 포아송방향성 비순환그래피컬 모델을사용하여 변수들간의관 ᄀ

ᅨ를파악하였다.

2.2. 포아송 방향성 비순환 그래피컬 모델 ᄋ

ᅵ 절에서는다양한 그래피컬 모델 중포아송방향성 비순환 그래피컬 모델을 사용한 이유와 모델의 ᄒ

ᅡᆨ습 알고리즘에 대해 알아본다. 본 연구에서 포아송 방향성 비순환그래피컬 모델을사용하는이유는 ᄃ

ᅡ음과 같다. 첫번째 이유는야구의 단순 통계의 경우 가산 자료이므로 각 노드의 부모노드가 주어졌을 ᄄ

ᅢ 조건부 분포가 포아송 분포를따른다는가정에 적합하다고 판단되기 때문이다. 예를 들어, 야구의 타 겨

ᆨ 변수인 타수, 2루타, 3루타, 홈런 등은모두 0, 1, 2, . . . 의 값을가지는가산 자료이다. 두번째 이유는 ᄃ

ᅢ다수의 야구 통계량들은 실제로 인과 및 직접적인관계를가지고 있다는것이다. 예를 들어 안타 수는 1루타, 2루타, 3루타 그리고 홈런 수의 합으로 이루어져 있고, 타점은 홈런수에 직접적인 영향을받고, ᄐ

ᅡ석수와 다른 통계량 역시 직접적인관계를 갖는다. 마지막으로 다변량 가산자료를위한 포아송비방 ᄒ

ᅣᆼ성 그래피컬 모델의 경우 양의 상관관계를다루지 못하는한계가 있지만, 포아송방향성 비순환그래 ᄑ

ᅵ컬 모델의 경우 그러한 제약이 없다 (Yang 등, 2015). 앞서 설명한 것처럼 실제 많은야구 통계량들 ᄋ

ᅵ 양의 상관관계를갖기 때문에 포아송방향성 비순환그래피컬 모델이 야구 타격 변수의관계망 파악 ᄒ

ᅡ는데 더 적합하다고 판단하였다. 본 논문에서 사용한 변수들과 상관관계는 3장에서 자세히 살펴본다.

ᄑ

ᅩ아송방향성 비순환그래피컬 모델은각 노드의 부모 노드 집합이 주어졌을때 조건부 분포가 다음 ᄀ

ᅪ 같은포아송 분포를따르는방향성 비순환그래피컬 모델이다.

Xj| XPa(j)∼ Poisson(gj(XPa^(j))).

ᄋ

ᅵ때, g^j(.)는 (N ∪ {0})^|Pa(j)|

→ R⁺인 XPa(j)에 대한 임의의 양의 함수 (positive function)이다. 본 노

ᆫ문에서는 gj(.)로 일변량 포아송 일반화 선형 모형 (generalized linear model, GLM)의 표준연결 함 ᄉ

ᅮ (link fucntion)인 gj(XPa(j)) = exp(θj+P

k∈Pa(j)θjkXk)를사용하였다. 이때 (θjk)_k∈Pa(j)는선 혀

ᆼ 가중치를나타낸다. 식 (2.1)을이용하여 결합확률분포를표현하면 다음과 같다.

f (X1, X2, . . . , Xp) = exp X

j∈V

θjXj+ X

(k,j)∈V

θjkXkXj−X

j∈V

log Xj! −X

j∈V

e^θ^j⁺

P

k∈Pa(j)θ_jkX_k

.

(5)

ᄑ

ᅩ아송방향성 비순환그래피컬 모델은 임의의 노드 j ∈ V 에 대해 E(Xj| XPa(j))가 비축퇴성 (non- degenerated)을 가진다면 식별 가능하다는것이 증명되었다 (Park과 Park, 2019). 또한, 포아송 분포 ᄋ

ᅴ 과대산포 성질을이용한 OverDispersion Scoring (ODS) 알고리즘을 통해 일치성을 만족하는학습 ᄋ

ᅵ 가능하다 (Park과 Raskutti, 2018). ODS 알고리즘은 크게 3가지 과정으로 이루어져 있는데, 첫 ᄇ

ᅥᆫ째로 각 변수 j에 대하여 나머지 변수들 V \ j을 독립변수로 사용한 ℓ1-정규화 포아송 회귀분석을 ᄋ

ᅵ용하여 방향성 정보가 없는 그래프의 스켈레톤 (skeleton)을학습한다. 두번째로 각 노드의 부모 노 ᄃ

ᅳ 집합이 주어졌을 때 조건부 분포가 포아송 분포를따르므로, 조건 집합이 모든부모 노드를포함하 ᄀ

ᅩ 있으면 평균과 분산이 같고, 만약 그렇지 않으면 분산이 평균보다 더 커지는과대산포 성질을 이용 ᄒ

ᅡ여 노드의 오더링 (ordering) π = (π1, π2, ..., πp)을 추정한다. 예를 들어 Figure 2.1이 포아송 방 ᄒ

ᅣᆼ성 비순환 그래피컬 모델이라고 하면, 포아송 분포의 성질에 따라 G¹에서는 Var(X1) = E(X¹)과 Var(X2) = E(X²)이다. 하지만 G2에서는 Var(X1) = E(X¹)이지만, X2에 대해서는다음과 같은과대 ᄉ

ᅡᆫ포 성질을 볼수 있다.

Var(X2) = E[Var(X2| X1)] + Var[E(X2| X1)] = E[g2(X1)] + Var[g2(X1)] > E[g2(X1)] = E(X2).

ᄆ

ᅡ찬가지로 G³에서는 Var(X2) = E(X²)이고 Var(X¹) > E(X¹)인 과대산포를확인 할 수 있다. ODS ᄋ

ᅡ

ᆯ고리즘은이와 같은과대산포 성질을이용하여 그래프의 오더링을찾는다. 마지막과정으로 추정된오 ᄃ

ᅥ링의 j 번째원소 πj에 대하여 부모 노드가될수 있는오더링의 앞선 원소들 π1, ..., πj−1만을 독립변 ᄉ

ᅮ로 사용한 ℓ1-정규화 포아송회귀분석을이용하여 방향성 선을추정한다.

처

ᆺ번째와 마지막 과정에서 사용한 ℓ1-정규화 포아송 회귀분석에서의 적절한 조율 모수 (tuning pa- rameter)를 정하기 위하여, k-겹 교차 검증 (k-fold cross-validation)을 사용하였다. k-겹 교차검증을 ᄐ

ᅩ

ᆼ한 모형 적합 결과는 폴드가 어떻게 정해지는지에 따라서 결과가 달라질 수 있다. 따라서, 본연구에 ᄉ

ᅥ는 일관된그래프 추정을위하여 k를샘플수로 정한 LOOCV (leave-one-out cross-validation)를적 ᄋ

ᅭ

ᆼ하였다.본 연구의 소스코드와 데이터는 https://github.com/sdtrd011/PoissonDAGforKBOstats ᄋ

ᅦ서 내려받을수 있다.

3. 데이터 분석

3.1. 데이터 및 기초 통계

Table 3.1 Abbreviations of Statistics (variables)

Variable Description Variable Description Variable Description

AVG Batting average 2B Double SB Stolen base

AB At bat 3B Triple CS Caught stealing

R Run scored HR Home runs BB Base on balls

H Hits RBI Run batted in HBP Hit by pitch

SO Strikeout GDP Ground into double play

ᄑ

ᅩ아송비순환 그래피컬 모델을 통해 모든선수들을 분석 가능하지만, 본연구에서는뚜렷한 특징을 ᄀ

ᅡ질만한 선수들을선별하여 분석하였다. 이에 따라 2016-2018년 정규 시즌 홈런 상위권선수 해당하 느

ᆫ 김재환, Jamie Romak 선수와, 타율상위권인 이정후 선수, 도루 상위권인 박해민, Roger Bernad- ina 선수를 분석하였다. 특별한 경우로 2016-2018 3년 통산 사구 1위를 기록한 최정 선수의 타격 변 ᄉ

ᅮ 관계망을 분석하였다. 모든 선수들의 데이터는 케이비리포트 (kbreport.com)기록실에 게시되어있 ᄂ

ᅳᆫ 2016년 부터 2018년까지의 데이터를이용하였다. 하지만, WAR, OPS 등과 같은 기초통계량을 통 ᄒ

ᅢ 가공된 세이버메트릭스는 사용하지 않았다. 즉, 순수 통계인 타수 (AB), 득점 (R), 안타 (H), 삼진

(6)

Table 3.2 Average of 6 players (Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi) and average of players who met the minimum plate appearances requirement in 2016-2018

Slugger Good hitter Speedy HBP 2016-2018

Name Kim.J Romak.J Lee.J Park.H Bernadina.R Choi.J Mean

AVG 0.333 0.279 0.340 0.294 0.315 0.283 0.309 (0.03)

AB 521 443.5 505.5 570 535 445.33 473.26 (54.84)

R 107 80 96 106.33 112 96.67 81.05 (18.41)

H 173.67 127 171 167.67 168.5 126.33 146.64 (23.22)

2B 34 19 31.5 27 25.5 19.33 26.60 (7.53)

3B 2 0 5 10 5.5 1 2.44 (2.58)

HR 38.67 37 4 6.67 23.5 40.33 18.78 (10.40)

RBI 124 85.5 52 61 90.5 97.67 80.85 (23.96)

SB 4.67 5.5 11.5 42.67 32 3.67 9.26 (9.72)

CS 1 3 4 12.33 10 3 4.05 (3.81)

BB 70.33 61 51 51.67 52 68.33 48.77 (16.53)

HBP 5.33 8 7 2.33 10.5 21.37 7.70 (4.73)

SO 121.33 119.5 62.5 88 107.5 120.67 86.78 (25.00)

GDP 7.67 6.5 7 7 9 8 10.53 (4.59)

(SO), 2루타 (2B), 3루타 (3B), 홈런 (HR), 타점 (RBI), 병살타 (GDP), 도루 (SB), 도루실패 (CS), 볼 ᄂ

ᅦᆺ (BB), 사구 (HBP)만 고려하였다. Table 3.1에 사용된 변수들과 그 약자를다시 정리하였다.

새

ᆼ소하거나 용어가 비슷하여 혼란을야기하는변수들에 대한 자세한 설명은다음과 같다. 타수란 타 겨

ᆨ을완료한횟수이며, 희생번트, 4구, 사구, 타격방해 또는주루방해에 의해 1루로 나간 경우는타수로 ᄀ

ᅨ산하지 않는다. 여기서 4구는 볼넷, 사구는 몸에 맞는 공을의미한다. 득점은 본인이 홈에 들어와 얻 ᄋ

ᅳ

ᆫ점수를의미하고, 타점은 본인이 타석에서 친 공으로획득한 점수를의미한다. 타자의 타격 후 수비 ᄉ

ᅮ가 그 타구를잡아 2명의 공격수를아웃시키는 것을 병살 또는 더블플레이라고 하며, 병살의 원인이 ᄃ

ᅬ는타자의 타격을병살타라고 한다.

ᄋ ᅡ

ᇁ서 설명한 13개의 변수들과 AVG의 선수 별 2016-2018년 평균과 2016-2018년에 규정 타석을 만 ᄌ

ᅩ

ᆨ한 선수들의 평균과 표준편차가 Table 3.2에 나타나있다. Table 3.2에서 볼수 있듯이 김재환 선수와 Jamie Romak 선수의 평균 HR값이 각각 38.67, 37이고, 이는전체 평균인 18.78에 비해서 매우 높은값 으

ᆯ가진다. 이정후 선수의 평균 AVG는 0.340로 평균 0.309보다 높은타율을보유하고 있지만, 홈런의 겨

ᆼ우 4개로 평균 18.78에 비해 낮은값을가진다. 도루 1, 2위 선수인 박해민 선수, Roger Bernadina 선 ᄉ

ᅮ의 평균 SB는각각 42.67, 32로 평균인 9.26보다 높은값을가진다. 최정 선수의 평균사구는 21.37개 ᄅ

ᅩ 전체 평균인 7.70개보다 매우 높은값을가짐을확인할 수 있었다. 마지막으로, 표본수는선수가 출 ᄌ

ᅥᆫ한 총 경기 수에서 수비만 참가하여 타수가 0인 경우는제외하였고, Jamie Romak, 이정후, Roger Bernadina 선수들은 2016년도 데이터가 존재하지 않아 2017년도와 2018년도의 데이터만 이용하였다.

ᄄ

ᅡ라서 김재환, Jamie Romak, 이정후, 박해민, Roger Bernadina, 최정 선수에게 해당하는표본수는 ᄀ

ᅡ

ᆨ각 463, 241, 250, 423, 264, 382이다.

부

ᆫ석에 사용한 변수는이산형 변수이므로 각 선수들의 변수들간의 상관계수를구하고, 이에 대한 순열 거

ᆷ정을해보았다. 상관계수를구할 때에는한 변수의 값이 모두 같아 상관계수가 구해지지 않는경우를 ᄀ

ᅩᆼ백으로 처리하였다. Figure 3.1에서 하 삼각행렬에 있는 진한 숫자가 스피어만 상관계수를,상 삼각행 려

ᆯ이 순열 검정의 p 값을 나타낸다. 유의수준 5%하에서 살펴보면, 대부분의 선수들의 AB, R, H, 2B, HR, RBI는서로 유의한 양의 상관계수를가지고 있는모습을확인할 수 있다. 하지만 동시에 AB가 직 저

ᆸ적인 연관성으로 설명하기 힘든 BB, HBP와 유의한 음의 상관관계를가지고 있을 수 있다. 또한 김 ᄌ

ᅢ환 선수는 AB와 SB, RBI와 BB, 박해민 선수는 HBP와 CS, H와 CS 등모든선수들이 설명하기 어 ᄅ

ᅧ운변수들간의 유의한 상관관계를보이는것도확인 할 수 있다.

(7)

(a) HR: Jaehwan Kim (b) HR: Jamie Romak (c) AVG: Jeonghu Lee

(d) SB: Haemin Park (e) SB: Roger Bernadina (f) HBP: Jeong Choi

Figure 3.1 Spearman correlation coefficient (lower triangle) and p value of permutation test (upper triangle) for Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi

보

ᆫ연구에서 고려한 데이터는선수들의 특징에 따라 대부분이 0인 변수들이 존재한다. 예를 들어 김 ᄌ

ᅢ환 선수는도루를거의 시도하지 않아, 총 463경기의 데이터 중에 459경기에서 도루 실패횟수 없음 으

ᆯ기록했다. Jamie Romak 선수와 최정 선수는 달리기가 느려 3루타를한번이라도 성공한 경기수가 ᄀ

ᅡ

ᆨ각 총 241경기중 241경기, 382 경기중 379경기를기록하였다. 본 논문에서 데이터 분석에 사용한 포 ᄋ

ᅡ송 방향성 비순환그래피컬 모델의 경우, 앞서 설명한 것처럼 비축퇴성 (non-degenerated)을가져야 ᄆ

ᅡᆫ 식별이 가능하다 (Park과 Park, 2019). 즉변수가 한가지 값을너무 많이 가지면 그래프 식별이 힘 ᄃ

ᅳ

ᆯ어져 한 값이 99% 이상 차지하는변수를제거하였다. 따라서 김재환 선수는 CS가, Jamie Romak 선 ᄉ

ᅮ와 최정 선수는 3B가 제외된12개의 변수가 분석에 이용되었다.

3.2. 분석 결과 ᄋ

ᅵ 절에서는다변량 가산 자료 변수들간의 직접적인 방향성관계를추정하는 ODS알고리즘을사용하 ᄋ

ᅧ, 타자들의 특징을방향성 그래프로 나타내었다. 먼저 본연구에서 고려한 6명의 선수들에게서 공통 ᄋ

ᅳ로 추정된방향성 선이 무엇인지 살펴본다. 그 후에는 홈런 타자들의 그래프의 특징을확인하기 위해, ᄐ

ᅡ율은 높지만 홈런 개수는적은이정후 선수의 그래프와 비교해보았다. 마지막으로 안타 외의 진루 기 ᄅ

ᅩ

ᆨ을갖는도루 상위권 선수들과 최정 선수의 그래프의 특징을확인해 보았다.

Figure 3.2에서 모든 선수들은 공통적으로 [AB → H], [AB → BB], [H → R], [HR → RBI]의 ᄇ

ᅡᆼ향성 선을가짐을확인 할 수 있으며, 발이 느린 Jamie Romak 선수를제외한 5명의 선수들은 [H → 2B]의 선 또한 공통으로 가진다. 김재환, Roger Bernadina 선수를 제외한 4명의 선수들 에게서는

(8)

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

1

(a) HR: Jaehwan Kim

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

2

(b) HR: Jamie Romak

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

3

(c) AVG: Jeonghu Lee

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

4

(d) SB: Haemin Park

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

5

(e) SB: Roger Bernadina

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

6

(f) HBP: Jeong Choi Figure 3.2 Estimated DAGs for the 6 KBO palyers

[AB → SO]의 방향성 선이, Jamie Romak, 최정 선수를제외한 4명의 선수들에게서는 [H → RBI]의 ᄉ

ᅥᆫ이 공통으로 나타났다.

ᄃ

ᅢ부분의 선수들에게서 공통적으로 추정된 7개의 방향성 선은 인과관계를잘 나타내고 있다. 자세히 ᄉ

ᅡ

ᆯ펴보면 [AB → H]와 [AB → BB], [AB → SO]의 경우, 타수는전체 타석에서 희생번트, 희생플 ᄅ

ᅡ이, 볼넷, 몸에 맞는 공, 타격 방해 등을 뺀 것이므로, 타수가 많아질수록 안타 개수와 삼진은 비례 ᄒ

ᅢ서 증가하고 볼넷 개수와는 반비례 관계를 가지므로, 추정된 방향성 선이 그 함수 관계 (functional relation)를잘 나타낸다고 볼수 있다. 또한 안타 개수와 2루타는비례관계를가지며, 안타 개수가 많 ᄋ

ᅡ질수록 득점과 타점이 높아질 가능성이 크기 때문에 [H → 2B]와 [H → R], [H → RBI]의 방향성 ᄉ

ᅥᆫ도 잘 추정되었음을확인 할 수 있다. 마지막으로 홈런을치면 타점이 올라가기 때문에 [HR → RBI]

ᄋ

ᅧᆨ시 잘 추정되었다고 할 수 있다. 이처럼 추정된방향성 그래프에는우수한 선수들이 가지는 특징이 선 ᄋ

ᅳ로 나타나져 있으며, 선수들의 주력과 같은 특징 역시 방향성 그래프에 잘 반영되어 있음을확인 할

(9)

ᄉ ᅮ 있다.

ᄀ ᅡ

ᆨ 유형별 타자들의 특징을파악하기 위해 먼저 홈런 타자들의 그래프 Figures 3.2 (a)와 3.2 (b)을비 ᄀ

ᅭ해 보았다. 김재환 선수와 Jamie Romak 선수에게서는다른선수들에게서는 볼수 없는 공통된방향 서

ᆼ 선을두 개 더 찾을수 있는데, 첫번째는 [H → SO]이고, 두번째는 [R → HR]이다. [H → SO]의 경 ᄋ

ᅮ, 타수가 주어져 있을때 안타 수와 삼진 수는반비례관계를가지므로 두 변수의 연결은합리적이라 ᄒ

ᅡᆯ 수 있다.

[R → HR]는두 선수가 2018년 기준 홈런 개수 1, 2위를한 선수들이고, 홈런이 차지하는 득점비율이 ᄃ

ᅡ른선수들에 비해 높으므로, 두 변수간의 연결이 타당하다고 볼수 있다. 이 연결은 2017년 기준 홈런 1위와 9위를차지한 최정 선수의 그래프 (Figure 3.2 (f))와 Roger Bernadina 선수의 그래프 (Figure 3.2 (e))에서도 찾을 수 있다. 하지만, 홈런 개수가 낮은 이정후 선수의 그래프 (Figure 3.2 (c))에서는 조

ᆫ재하지 않아, [R → HR]가 홈런 타자들에게 나타나는 특징이라는것을알 수 있다. 그러나 홈런 개수 ᄀ

ᅡ 많아질수록 득점이 비례해서 증가하므로 실제로는 [HR → R]이 합당하다고 할 수 있다. 즉추정된 ᄀ

ᅳ래프에서는 [R → HR]로 방향이 반대로 되어 있어, 직접적인관계가 있는변수들은찾았지만 그 인과 과

ᆫ계까지는정확히 추론하지 못한 점을확인할 수 있다.

ᄃ

ᅩ루 상위권 선수들의 특성을확인하기 위해 Figures 3.2 (d)와 3.2 (e)를살펴보자. 먼저 Figure 3.2 (d)를 통해 박해민 선수에게는 [H → SB]의 모습을 확인할 수 있고, Figure 3.2 (e)를 통해 Roger Bernadina 선수에게서는 [BB → SB]의 방향성 선을 볼수 있다. 두 선수를제외한 4명의 선수들의 그 ᄅ

ᅢ프에서는 SB가 독립된 변수로 남아 있으므로, 박해민 선수의 [H → SB]와 Roger Bernadina 선수의 [BB → SB]는다른선수들과는확연히 다른 특징임을알 수 있다. SB는 진루 후에 기록되는변수이므 ᄅ

ᅩ, 진루와관계된 H, BB가 도루 상위권 선수의 그래프에서 연결되는것은자연스러운결과라고 할 수 이

ᆻ다. 뿐만 아니라 두 선이 발생한 이유는박해민 선수는 2018년 안타 9위, Roger Bernadina 선수는 2018년 볼넷 7위를기록했다는것에서 찾을수 있었다. 이를 통해 변수관계망이 각 선수들의 진루 유 혀

ᆼ 역시 보여준다고 할 수 있다.

Figure 3.2 (f)에서 최정선수의 특징을보면, 다른선수들과 다른가장큰 특징은 [AB → HBP ]라고 ᄒ

ᅡᆯ 수 있다. 최정 선수는 2016 - 2018년 3년 통산 사구 1위를기록한 선수이다. 이러한 최정 선수의 특 지

ᆼ이 [AB → HBP ] 방향성 선에서 잘 나타나고 있음을확인 할 수 있다.

ᄆ ᅮ

ᆯ론각 선수별로 변수들의관계망을살펴보면 설명하기 어려운선들도 나타난다. 예를 들어, Jamie Romak 선수는 [SO → GDP ]의 방향성 선이 추가로 나타났다. 이 선은 방향성을 고려하지 않더라 ᄃ

ᅩ 설명하기 어려운 에러라고 판단된다. 이러한 에러가 발생한 주요한 이유로 Jamie Romak 선수의 GDP가 7개로 너무 낮은발생 빈도를 들수 있다. 이 외에도 이정후 선수의 Figure 3.2 (c)에서는 [R → BB]의 방향성 선과 Figure 3.2 (d)에서 박해민 선수는 [R → SB]의 방향성 선, Figure 3.2 (e)에서 Roger Bernadina 선수는 [R → BB]의 방향성 선이 설명이 어려운에러로 판단된다. 이는변수들의 조 ᄀ

ᅥᆫ부 분포가 정확히 포아송 분포를따르지 않거나, 적절치 못한 조율파라미터를선택했기 때문이라고 ᄒ

ᅡᆯ 수 있다. Table 3.3에 공통된 방향성 선과, 설명이 어려운선이 요약되어 있다. 현재까지는포아송 ᄇ

ᅵ순환방향성 그래피컬 모델이 유일한 방향성관계를가진 이산자료를위한 모델이므로 포아송비순환 ᄇ

ᅡᆼ향성 그래피컬 모델의 결과만 제시하였다. 추후 이산자료를위한 새로운방향성 그래피컬 모델을 사 ᄋ

ᅭ

ᆼ하거나, 더 적합한 조율모수를정하는방법을찾는다면 더 좋은결과가 나올것이라 기대한다.

4. 결론 및 토의 보

ᆫ연구에서는야구 통계량들간의 직접적인관계를파악하기 위하여 포아송방향성 비순환그래피컬 ᄆ

ᅩ델을이용하여 선수별 야구 타자 변수관계망을 분석해 보았고, 선수들의 고유한 특징이관계망에 잘

(10)

Table 3.3 The set of common, accountable, reversed, and unexplanable edges for the types of players.

Type Edges

Common

6 [AB → H], [AB → BB], [H → R], [HR → RBI]

5 [H → 2B]

4 [AB → SO], [H → RBI]

Hitters [H → SO], [R → HR]

Speedy [H → SB], [BB → SB]

Special [AB → HBP ] Reversed [R → HR]

Unexplanable [SO → GDP ], [R → BB], [R → SB]

ᄂ

ᅡ타나는것을확인 할 수 있었다. 예를 들어 평균타율은 높지만 홈런 개수가 낮은이정후 선수는 R과 HR사이의 선이 존재하지 않았지만, 홈런 타자들은모두 [R → HR]의 방향성 선을가지는관계망이 나 ᄐ

ᅡ났다. 또한 도루 상위권 선수들의 변수관계망에서도 다른선수들의관계망과 달리 SB가 진루와관련 되

ᆫ 변수들과 연결된모습을확인할 수 있었다. 마지막으로 사구 개수 부문에서 1위인 최정 선수의관계 ᄆ

ᅡᆼ에서도 다른선수들의 관계망에서는 볼수 없었던 [AB → HBP ]의 방향성 선이 있는것을 확인 할 ᄉ

ᅮ 있었다. 더 나아가 변수관계망을 통해 다양한 추가 정보를확인할 수 있었다. 예를 들어 홈런 평균 ᄋ

ᅵ 리그 평균과 비슷한 Roger Bernadina 선수와 최정 선수에게서도 R과 HR의 연결이 찾을수 있었다.

ᄋ

ᅵ는 변수관계망을 통해 선수들이 가지는주요한 특징 뿐만 아니라, 다른 특징 역시확인할 수 있다는 거

ᆺ을시사한다.

ᄎ

ᅬ근주목받고 있는세이버메트릭스는변수들의 상관관계를고려치 않고 너무 많은변수를사용하거 ᄂ

ᅡ, 우리나라 데이터가 아닌 MLB를기준으로 만들어진 계수를사용하기 때문에 한국프로야구 선수에 ᄃ

ᅢ한 분석의 통계량으로 사용하기에 적절하지 않을수 있다. 그러나 본연구에서 타자들의 변수관계망 으

ᆯ 분석해 본결과 사구와 고의 4구, 도루 실패 등은안타, 2루타, 3루타, 홈런 등과의 직접적인관계가 ᄎ

ᅡᆽ기 힘들었으므로, 안타와관련된 통계량을개발 할 때 필요한 변수를 줄일 수 있는가능성을보였다.

ᄄ

ᅩ한, 모든선수들의 데이터를이용하는것이 아닌, 한 선수의 데이터를이용하여 변수관계망을파악함 ᄋ

ᅳ로써 개개인의 특성을더 잘 반영할 수 있다는장점도 찾을수 있었다. 따라서 변수관계망을잘 이용 ᄒ

ᅡ여 더 좋은세이버메트릭스를개발한다면, 고차원적으로 선수의 경기력을 분석할 수 있는세이버메트 리

ᆨ스의 장점을강화시킬 수 있을것이라 판단된다. 더 나아가 선수 개개인의 변수관계망을 통해 선수들 ᄀ

ᅡᆫ의 특성을찾아 평가하고, 선수들의 맞춤형 훈련 방법과 전략을세우는데 도움이될 것이라 판단된다.

ᄆ

ᅡ지막으로 본연구에서 사용된ODS알고리즘은그래프 구조만 찾을수 있다는한계가 있었다. 따라서 ᄎ

ᅮ후에 추정된그래프를바탕으로 변수관계 정도를수치화 할 수 있는방법을찾는다면, 더 나은세이 ᄇ

ᅥ메트릭스를개발하는데 도움이될 것이라고 기대한다.

References

Beneventano, P., Berger, P. D. and Weinberg, B. D. (2012). Predicting run production and run preven- tion in baseball: The impact of sabermetrics. International Journal of Business, Humanities and Technology, 2, 67-75.

Choi, S. and Lee, G. (2016). Bayesian network-based probabilistic management of software metrics for refactoring. The Journal of Korean Institute of Information Scientists and engineers, 43, 1334-1341.

A Poisson directed acyclic graphical model for analyzing Korean baseball batter’s characteristics <sup>†</sup>

2019, 30

4)

873–884

타자들의 특성 분석을 위한 포아송 방향성 비순환 그래피컬 모델 †

1

2

ᄌ ᅥ

ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ

ᄋ

ᅮ ᄒ ᅩ ᆨᄋ ᅳ ᆫ ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄀ ᅵᄅ ᅳ ᆯ ᄀ ᅵᄃ ᅢᄒ ᅡ ᆫᄃ ᅡ.

ᄌ

ᅳᄅ ᅩᄆ ᅩᄉ ᅧ ᆫ ᄉ ᅥᄇ ᅵᄉ ᅳ ᄀ ᅢᄇ ᅡ ᆯ]

(02504) ᄉ ᅥᄋ ᅮ ᆯ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163, ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (02504) ᄉ ᅥᄋ ᅮ ᆯ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163, ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

Figure 2.1 Bivariate directed acyclic graphs of G

, G

and G

Table 3.1 Abbreviations of Statistics (variables)

Variable Description Variable Description Variable Description

AVG Batting average 2B Double SB Stolen base

AB At bat 3B Triple CS Caught stealing

R Run scored HR Home runs BB Base on balls

H Hits RBI Run batted in HBP Hit by pitch

SO Strikeout GDP Ground into double play

Table 3.2 Average of 6 players (Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi) and average of players who met the minimum plate appearances requirement in 2016-2018

Slugger Good hitter Speedy HBP 2016-2018

Name Kim.J Romak.J Lee.J Park.H Bernadina.R Choi.J Mean

AVG 0.333 0.279 0.340 0.294 0.315 0.283 0.309 (0.03)

AB 521 443.5 505.5 570 535 445.33 473.26 (54.84)

R 107 80 96 106.33 112 96.67 81.05 (18.41)

H 173.67 127 171 167.67 168.5 126.33 146.64 (23.22)

2B 34 19 31.5 27 25.5 19.33 26.60 (7.53)

3B 2 0 5 10 5.5 1 2.44 (2.58)

HR 38.67 37 4 6.67 23.5 40.33 18.78 (10.40)

RBI 124 85.5 52 61 90.5 97.67 80.85 (23.96)

SB 4.67 5.5 11.5 42.67 32 3.67 9.26 (9.72)

CS 1 3 4 12.33 10 3 4.05 (3.81)

BB 70.33 61 51 51.67 52 68.33 48.77 (16.53)

HBP 5.33 8 7 2.33 10.5 21.37 7.70 (4.73)

SO 121.33 119.5 62.5 88 107.5 120.67 86.78 (25.00)

GDP 7.67 6.5 7 7 9 8 10.53 (4.59)

(a) HR: Jaehwan Kim (b) HR: Jamie Romak (c) AVG: Jeonghu Lee

(d) SB: Haemin Park (e) SB: Roger Bernadina (f) HBP: Jeong Choi

Figure 3.1 Spearman correlation coefficient (lower triangle) and p value of permutation test (upper triangle) for Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi

(a) HR: Jaehwan Kim

(b) HR: Jamie Romak

(c) AVG: Jeonghu Lee

(d) SB: Haemin Park

(e) SB: Roger Bernadina

(f) HBP: Jeong Choi Figure 3.2 Estimated DAGs for the 6 KBO palyers

Table 3.3 The set of common, accountable, reversed, and unexplanable edges for the types of players.

Type Edges

Common

6 [AB → H], [AB → BB], [H → R], [HR → RBI]

5 [H → 2B]

4 [AB → SO], [H → RBI]

Hitters [H → SO], [R → HR]

Speedy [H → SB], [BB → SB]

Special [AB → HBP ] Reversed [R → HR]

Unexplanable [SO → GDP ], [R → BB], [R → SB]

Beneventano, P., Berger, P. D. and Weinberg, B. D. (2012). Predicting run production and run preven- tion in baseball: The impact of sabermetrics. International Journal of Business, Humanities and Technology, 2, 67-75.

Choi, S. and Lee, G. (2016). Bayesian network-based probabilistic management of software metrics for refactoring. The Journal of Korean Institute of Information Scientists and engineers, 43, 1334-1341.

Hong, C. and Shin, D. (2016). Alternative hitting ability index for kbo. Journal of the Korean Data &

Information Science Society, 27, 677-687.

Lauritzen, S. L. (1996).Graphical models, Oxford University Press.

Lee, J. (2014a). Estimation of obp coefficient in korean professional baseball. Journal of the Korean Data

& Information Science Society, 25, 357-363.

타자들의 특성 분석을 위한 포아송 방향성 비순환 그래피컬 모델 ^†

¹

²