• 검색 결과가 없습니다.

A Poisson directed acyclic graphical model for analyzing Korean baseball batter’s characteristics <sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "A Poisson directed acyclic graphical model for analyzing Korean baseball batter’s characteristics <sup>†</sup>"

Copied!
12
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2019, 30

(

4)

,

873–884

타자들의 특성 분석을 위한 포아송 방향성 비순환 그래피컬 모델

ᄇ ᅡ

ᆨ혜원

1

·박건웅

2

12서울시립대 통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 5ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 4ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 6ᄋ ᅯ ᆯ 14ᄋ ᅵ ᆯ

요 약

ᅣᄀ ᅮᄋ ᅦᄉ ᅥ ᄃ ᅡ ᆫᄉ ᅮ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄀ ᅡᄀ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅪᄒ ᅡ ᆨᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄂ ᅳ ᆫ ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ (sabermetrics) ᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅴ ᄌ

ᅮ ᆼ ᄋ ᅭᄉ ᅥ ᆼᄋ ᅳ ᆫ ᄌ ᅥ ᆷᄎ ᅡ ᄀ ᅡ ᆼᄌ ᅩᄃ ᅬᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄒ ᅡᄌ ᅵᄆ ᅡ ᆫ ᄋ ᅣᄀ ᅮ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄃ ᅳ ᆯ ᄋ ᅵ ᄋ ᅵᄅ ᅮᄂ ᅳ ᆫ ᄋ ᅵ ᆫᄀ ᅪ ᄆ ᅵ ᆾ ᄉ ᅡ ᆼ ᄀ ᅪ ᆫ ᄀ ᅪ ᆫ ᄀ ᅨ ᄌ ᅡᄎ ᅦᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄋ ᅧ ᆫᄀ ᅮ ᄂ

ᅳ ᆫ ᄉ ᅡ ᆼᄃ ᅢᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄆ ᅡ ᆭᄋ ᅵ ᄋ ᅵᄅ ᅮᄋ ᅥᄌ ᅵᄌ ᅵ ᄋ ᅡ ᆭᄀ ᅩ ᄋ ᅵ ᆻᄃ ᅡ. ᄄ ᅡᄅ ᅡᄉ ᅥ ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄃ ᅳ ᆯ ᄋ ᅴ ᄒ ᅪ ᆨᄅ ᅲ ᆯᄌ ᅥ ᆨ ᄋ ᅴᄌ ᅩ ᆫᄀ ᅪ ᆫ ᄀ ᅨᄅ ᅳ ᆯ ᄆ ᅩ ᄃ

ᅦ ᆯᄅ ᅵ ᆼᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳ (bayesian network) ᄄ ᅩᄂ ᅳ ᆫ ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯ (directed acyclic graphical models; DAG models)ᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ, ᄐ ᅡᄌ ᅡ ᄀ ᅪ ᆫᄅ ᅧ ᆫ ᄐ ᅩ ᆼ ᄀ ᅨᄋ ᅴ ᄌ ᅵ ᆨ·ᄀ ᅡ ᆫᄌ ᅥ ᆸᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄀ ᅪ ᆫ ᄀ ᅨᄆ ᅡ ᆼᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄂ ᅳ ᆫ ᄃ

ᅦ ᄎ ᅩᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄆ ᅡ ᆽᄎ ᅮᄋ ᅥ ᆻᄃ ᅡ. ᄋ ᅵᄅ ᅳ ᆯ ᄋ ᅱᄒ ᅡᄋ ᅧ, ᄃ ᅡᄇ ᅧ ᆫᄅ ᅣ ᆼ ᄀ ᅡᄉ ᅡ ᆫ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄋ ᅵ ᆫᄀ ᅪ ᄀ ᅪ ᆫ ᄀ ᅨᄆ ᅡ ᆼᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅧᄌ ᅮ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄑ ᅩᄋ ᅡᄉ ᅩ ᆼ ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ

ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄋ ᅵᄅ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄌ ᅵᄑ ᅭᄀ ᅡ ᆫᄋ ᅴ ᄀ ᅪ ᆫ ᄀ ᅨᄅ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄉ ᅢᄅ ᅩᄋ ᅮ ᆫ ᄀ ᅪ ᆫᄌ ᅥ ᆷᄋ ᅴ ᄐ ᅡᄌ ᅡ ᄂ ᅳ ᆼᄅ ᅧ ᆨ ᄌ ᅵ ᄉ

ᅮ ᄒ ᅩ ᆨᄋ ᅳ ᆫ ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄀ ᅵᄅ ᅳ ᆯ ᄀ ᅵᄃ ᅢᄒ ᅡ ᆫᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄃ ᅡᄇ ᅧ ᆫᄅ ᅣ ᆼ ᄀ ᅡᄉ ᅡ ᆫ ᄌ ᅡᄅ ᅭ, ᄇ ᅡ ᆼᄒ ᅣ ᆼᄉ ᅥ ᆼ ᄇ ᅵᄉ ᅮ ᆫᄒ ᅪ ᆫ ᄀ ᅳᄅ ᅢᄑ ᅵᄏ ᅥ ᆯ ᄆ ᅩᄃ ᅦ ᆯ, ᄇ ᅦᄋ ᅵᄌ ᅵᄋ ᅡ ᆫ ᄂ ᅦᄐ ᅳᄋ ᅯᄏ ᅳ, ᄉ ᅦᄋ ᅵᄇ ᅥᄆ ᅦᄐ ᅳᄅ ᅵ ᆨᄉ ᅳ.

1. 서문 ᄉ

ᅳ포츠의 산업화와 여가시간의 증대는프로스포츠에 대한 높은 인기로 이어졌다. 특히 야구는우리나 ᄅ

ᅡ 프로스포츠 중가장큰시장규모를가지며, 한국 뿐아니라 미국, 일본 등많은나라에서 인기를얻고 이

ᆻ는 종목이다. 또한 야구는타 종목에 비해 선수들의 역할이 명확하게 구분되어있고 각 포지션에서 수 ᄒ

ᅢᆼ하는역할 역시 쉽게 범주화하여 객관적인 경기기록이 용이하다는 특성이 있다. 이러한 야구 경기의 ᄐ

ᅳᆨ성과 높은 인기로 인하여, 많은사람들이 야구 경기력 분석과관련된다양한 통계적 분석들을세이버 ᄆ

ᅦ트릭스 (sabermetrics)를 통해 시도하였다 (Lee, 2014b; Beneventano 등, 2012). 세이버메트릭스란 ᄂ

ᅮ적된자료를토대로 통계적인관점에서 야구에관한 분석을 하는 연구분야로, 안타, 홈런, 도루 등과 ᄀ

ᇀ은단순 통계량으로 선수의 능력을 분석하는것에서 벗어나 더 고차원적인 방법으로 선수의 경기력을 펴

ᆼ가할 수 있다는점에서 야구경기 분석의 주류로 자리 잡아 가고 있다 (Hong 등, 2016; Yang 등, 2015;

Lee, 2014b; Lee와 Kim, 2016).

ᅣ구 기록을 보다 과학적으로 분석 가능하게 하는세이버메트릭스는 많은장점을갖는다. 세이버메 ᄐ

ᅳ릭스 지수를활용하여 과학적이고 객관적인 방법으로 경기력에 대한 요인을 분석하는것은상황에 맞

ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄀ ᅪᄒ ᅡ ᆨᄀ ᅵᄉ ᅮ ᆯᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄇ ᅮ ᄆ ᅵ ᆾ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄀ ᅵ ᄒ ᅬ ᆨᄑ ᅧ ᆼᄀ ᅡᄋ ᅯ ᆫ ᄋ ᅴ ᄇ ᅡ ᆼᄉ ᅩ ᆼᄐ ᅩ ᆼᄉ ᅵ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅢᄇ ᅡ ᆯᄉ ᅡᄋ ᅥ ᆸ(ICTᄋ ᅲ ᆼ ᄒ ᅡ ᆸᄉ ᅥᄇ ᅵᄉ ᅳ ᄀ ᅧ

ᆼᄌ ᅢ ᆼᄅ ᅧ ᆨᄀ ᅡ ᆼᄒ ᅪ)ᄋ ᅴ ᄋ ᅵ ᆯᄒ ᅪ ᆫ ᄋ ᅳᄅ ᅩ ᄉ ᅮᄒ ᅢ ᆼᄒ ᅡᄋ ᅧ ᆻᄋ ᅳ ᆷ. [2018-0-01569, ᄀ ᅩᄀ ᅢ ᆨᄀ ᅪ ᆫ ᄅ ᅵ ᄑ ᅳ ᆯᄅ ᅢ ᆺᄑ ᅩ ᆷ ᄀ ᅵᄇ ᅡ ᆫ ᄋ ᅬᄀ ᅮ ᆨᄋ ᅵ ᆫ ᄆ ᅡ ᆽᄎ ᅮ ᆷᄒ ᅧ ᆼ ᄉ ᅭᄑ ᅵ ᆼ ᄆ ᅵ ᆾ ᄀ ᅪ ᆫᄀ ᅪ ᆼ ᄑ

ᅳᄅ ᅩᄆ ᅩᄉ ᅧ ᆫ ᄉ ᅥᄇ ᅵᄉ ᅳ ᄀ ᅢᄇ ᅡ ᆯ]

1

(02504) ᄉ ᅥᄋ ᅮ ᆯ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163, ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄃ ᅢᄒ ᅡ ᆨᄋ ᅯ ᆫᄉ ᅢ ᆼ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (02504) ᄉ ᅥᄋ ᅮ ᆯ ᄃ ᅩ ᆼ ᄃ ᅢᄆ ᅮ ᆫ ᄀ ᅮ ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢᄅ ᅩ 163, ᄉ ᅥᄋ ᅮ ᆯ ᄉ ᅵᄅ ᅵ ᆸᄃ ᅢ ᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

느

ᆫ전략을수립하는데 필수 요소이기 때문에 매우 중요하다고 할 수 있다. 또한 선수 역시 세이버메트릭 ᄉ

ᅳ를 통하여 객관화된자신의 능력을확인하고, 더 나은방향으로 나아갈 수 있게된다. 마지막으로 팬 ᄃ

ᆯ의 여러 가지 의문을해소하는데 세이버메트릭스가활용가능하여, 세이버메트릭스는한국프로야구의 노

ᇁ은 인기를유지하는데큰도움을 준다고도 할 수 있다.

ᅵ국 프로야구 (major league baseball; MLB)와 한국 프로야구 (korea baseball organization;

KBO)에서 쓰이는대표적인 세이버메트릭스의 대표적인 예로 대체선수대비승수 (wins above replace- ment; WAR)가 있는데, 이는 특정 선수 대신 투입됐을 때 얼마나 많은 승리에 기여했는가를 나타내 느

ᆫ수치이다. 또한 공격 공헌도 (on base plust slugging; OPS)역시 보편화되고 잘 알려진 세이버메트 리

ᆨ스 통계량으로서 출루율과 장타율의 합으로 쉽게 계산할 수 있는 장점이 있다. 이 외에도 타자의 득 ᄌ

ᅥᆷ 기여도에관한 지표인 득점 생산 (run created; RC)과 추정 득점 (extrapolated runs; XR), 경기장 ᄋ

ᅴ 특징을반영하는 파크팩터 (park factor, PF), 주루에 대한 지표로 도루를 제외한 주루플레이 기여 ᄃ

ᅩ(ultimate base running, UBR), 도루 기여도(weighted stolen base runs, wSB) 등많은세이버메트 리

ᆨ스가 사용되고 있다:

WAR = (공격지표 + 주루지표 + 수비지표 + 포지션 보정 + 타석 / 30) (승리당 득점) . OPS = 출루율 +장타율 .

RC = {루타수 + 0.52 × (도루 + 희생타) + 0.26 × (4사구 - 고의4구)}

×(안타 + 4사구 - 도루 실패 - 병살타)/(타수 + 4사구 + 희생타).

XR = (1루타×0.5) + (2루타× 0.72) + (3루타×1.04) + (홈런× 1.44)+ (고의4구 × 0.25) + (도루 × 0.18) - (도루실패 ×0.32) - {(타수-안타-삼진) × 0.09} - (삼진 × 0.098) + {(4사구 - 고의4구) × 0.34} - (병살타 × 0.37) + (희비 × 0.37) + (희타 × 0.04).

RI = {(홈득점 + 홈실점) / 홈경기수} / {(원정득점 + 원정실점) / 원정경기수}

PF = RI× 100 - {(RI × 100 - 100)/2}.

ᅡ지만 각각의 세이버메트릭스 지수에는단점 역시 존재한다. 대체선수대비승수는선수의 가치를 종 ᄒ

ᅡᆸ적으로 평가하는방법이지만, 한국프로야구는수비관련 변수들의 적합한 가중치를산정하는데 필요 ᄒ

ᅡᆫ 자료가 아직 충분하지 않다. 공격 공헌도는 출루율 (OBP)과 장타율 (SLG)을단순히 더하여 계산 ᄋ

ᅵ 편리하지만, 출루율의 최댓값은 1, 장타율의 최댓값은 4이므로 이는지나치게 장타율에 치중된값이 ᄅ

ᅡ고도 볼수 있다. 또한, Yang 등 (2015)에 따르면, 득점 생산과 추정 득점의 계산공식은 매우 많은 ᄐ

ᅡ격 지표를사용하여 값의 표준편차가큰것으로 드러났다. 이러한 단점들은비단 특정 세이버메트릭 ᄉ

ᅳ의 문제만은아니다. Lee (2014a)와 Lee (2014b) 등이 언급한 바와 같이 국내에서 사용되고 있는많 ᄋ

ᆫ세이버메트릭스 지수의 상수값이 미국프로야구의 통산 기록에서 산출된값이라는 점에서, 이를 대 ᄎ

ᅦ할 만한 한국프로야구 기록을기반으로 하는 상수 값이 절실히 필요한 것으로 보인다. 또한, Lee와 Kim (2016)에서 지적하듯이 많은타격 변수를이용하면 변수들사이의 높은상관관계에 의해 다중공선 서

ᆼ (multicollinearity) 문제가 발생하여 적합한 선수 능력 평가 지수 통계량을개발하는데 문제가 생길 ᄉ

ᅮ 있다.

ᅡ라서 본 논문에서는선수 평가 지수 통계량에서 변수간의관계를고려할 수 있도록타자별 기초 통 ᄀ

ᅨ 변수들의 직·간접적인 관계망을 파악하는데 주 목적을 두었다. 이를 위해 통계량들의 확률적 의존 과

ᆫ계를 모델링할 수 있는 베이지안 네트워크 (Bayesian network) 또는 방향성 비순환 그래피컬 모델 (directed acyclic graphical models; DAG models)을이용하였다. 우리가 찾은 통계량들간의관계망을

(3)

ᄐ ᅩ

ᆼ하여 타격 지표간의관계를이용한 새로운관점의 타자 유형 분류 방법 혹은 선수 능력 지수를 찾길 ᄀ

ᅵ대한다.

ᅩᆫ연구의 구성은다음과 같다. 2절에서는방향성 그래피컬 모델의 이론적 배경을설명하고, 3절에서 느

ᆫ연구에 사용된데이터를소개하고, 야구 타격 통계관계망을 분석한다. 4절에서는연구의 결과를요 ᄋ

ᆨ하며 결론을맺는다.

2. 이론적 배경 및 연구방법 ᄋ

ᅵ 절에서는 본 논문에 사용된방향성 비순환그래피컬 모델의 기본적인 용어와 개념을소개하고, 한 ᄀ

ᆨ프로야구 선수들의 변수관계망 분석에 사용된 포아송방향성 비순환 그래피컬 모델에 대해 설명한 ᄃ

ᅡ.

2.1. 방향성 비순환 그래피컬 모델의 기본 개념

X1 X2

G1

X1 X2

G2

X1 X2

G3

Figure 2.1 Bivariate directed acyclic graphs of G

1

, G

2

and G

3

ᅡᆼ향성 비순환그래피컬 모델은베이지안 네트워크라고도 불리며, 최근 복잡한 도메인에서 구성 요소 ᄃ

ᆯ사이의확률적 의존성을 분석하기 위한 데이터 마이닝 방법으로 주목받고 있다. 또한, 방향성 비순환 ᄀ

ᅳ래피컬 모델은변수 간의 이동 경로 및 인과관계 등을 체계적으로 추정 가능하게하여 의학, 기상학, ᄉ

ᅩ프트웨어, 스포츠 분야 등다양한 분야에서 이용되고 있다 (Yoo 등, 2014; Choi와 Lee, 2016; Park, 2019).

ᅡᆼ향성 비순환그래피컬 모델은그래프 이론과확률이론의 결합으로 이루어져 있다. 방향성 그래프 G는 (V, E)로 표현되며, V = {1, 2, . . . , p}는 노드 (node)들의 집합이고, E ⊂ V × V 는 노드 간 선 (edge)들의 집합이다. 노드 j로부터 k로 가는방향성 선의 경우 j → k 혹은 (j, k) ∈ E로 표현한다. 노 ᄃ

ᅳ j의 부모 집합 (parents set)은 Pa(j) := {k ∈ V | (k, j) ∈ E},그 반대를자식 집합 (children set) Ch(j) := {k ∈ V | (j, k) ∈ E}이라 한다. 방향성 비순환그래프는부모노드가 자식노드보다 먼저 위치 ᄒ

ᅡ는오더링 (ordering)을가지며, π = (π1, π2, ..., πp)이라 표기한다. 즉,모든 j < k에 대하여 πj 와 πk가 서로 선으로 연결되어 있으면, πj는반드시 πk의 부모 노드가된다.

ᅳ래프에 대응하는 확률벡터는 X := (Xj)j∈V으로 표기하고, 그래프의 결합확률분포는 P(G) = P(X1, X2, . . . Xp)으로 한다. 또한 노드 j ∈ V 에 대하여, P(Xj| XS)는확률벡터 XS:= {Xs| s ∈ S}

ᅡ 주어질 때 Xj의 조건부 확률분포를 의미한다. 이때 그래프의 결합밀도함수는 인수분해 정리 (fac- torization theorem)에 의하여 다음과 같다 (Lauritzen, 1996):

fG(X1, X2, . . . , Xp) =

p

Y

j=1

fG(Xj| XPa(j)). (2.1) ᄋ

ᅵ때 fG(Xj| XPa(j))는 XPa(j):= {Xk: k ∈ Pa(j)}가 주어질 때의 Xj의 조건부밀도함수이다. 방향 서

ᆼ 비순환그래피컬 모델은 인수분해 정리 성질을 통해 변수들간의 (조건부) 독립 및 종속관계를설명 ᄒ

ᅡᆯ 수 있다.

(4)

ᅡᆼ향성 비순환그래피컬 모델은변수간의 인과성 혹은 직·간접적인 영향력을설명할 수 있다는장점에 ᄃ

ᅩ 불구하고, 추가적인 정보 없이는 그래프 학습이 불가능한 식별성 (identifiability)문제을안고 있다.

ᅨ를 들어, Figure 2.1의 이변량 방향성 비순환그래피컬 모델을보면 G1에서는두 변수가 독립관계를 ᄋ

ᅵ루고 G2, G3의 경우에는 종속관계를이룬다. 따라서 변수들의 독립관계를이용해 G1을 G2, G3와 ᄀ

ᅮ분할 수 있지만, G2와 G3는추가 정보 없이는구분할 수 없다. 이처럼 독립관계만을이용해 찾을수 이

ᆻ는그래프에는한계가 있기 때문에, 과거에는완전한 그래프를찾는것보다는조건부 독립관계들을 공 ᄋ

ᅲ하는그래프별로 묶은 마르코프 동등그룹 (Markov equivalence class)을찾는것을최종 목표로 하 느

ᆫ연구들이 대부분이었다. 뿐만 아니라, 가산 자료에 적용가능한 조건부 독립성 검정 방법이 매우 제한 ᄌ

ᅥᆨ이기 때문에 가산 자료를위한 방향성 비순환그래피컬 모델 또한 많이활용되지 못하였다.

ᅡ지만 최근방향성 비순환그래피컬 모델의 식별성 문제를해결하기 위하여 추가적인 가정과 정보를 ᄋ

ᅵ용하는연구들이 많이 진행되었다 (Peters와 Buhlmann, 2014; Park과 Raskutti, 2015, 2018). 이들 주

ᆼ Park과 Raskutti (2015, 2018), Park과 Park (2019)은가산 자료에 적용할 수 있는방향성 비순환 ᄀ

ᅳ래피컬 모델을개발하였다. 또한 각 노드의 부모 노드가 주어졌을때 조건부 분포가 포아송 분포나 이 ᄒ

ᅡᆼ 분포 등과 같은이산형 일반화 초기하 분포족 (generalized hypergeometric distribution)에 속한다 ᄆ

ᅧᆫ 방향성 비순환그래프를추정 가능하다는것을 증명하였다 (Theorem 1, Park과 Park (2019)). 따라 ᄉ

ᅥ 본연구에서는야구 데이터에 적합한 포아송방향성 비순환그래피컬 모델을사용하여 변수들간의관 ᄀ

ᅨ를파악하였다.

2.2. 포아송 방향성 비순환 그래피컬 모델 ᄋ

ᅵ 절에서는다양한 그래피컬 모델 중포아송방향성 비순환 그래피컬 모델을 사용한 이유와 모델의 ᄒ

ᅡᆨ습 알고리즘에 대해 알아본다. 본 연구에서 포아송 방향성 비순환그래피컬 모델을사용하는이유는 ᄃ

ᅡ음과 같다. 첫번째 이유는야구의 단순 통계의 경우 가산 자료이므로 각 노드의 부모노드가 주어졌을 ᄄ

ᅢ 조건부 분포가 포아송 분포를따른다는가정에 적합하다고 판단되기 때문이다. 예를 들어, 야구의 타 겨

ᆨ 변수인 타수, 2루타, 3루타, 홈런 등은모두 0, 1, 2, . . . 의 값을가지는가산 자료이다. 두번째 이유는 ᄃ

ᅢ다수의 야구 통계량들은 실제로 인과 및 직접적인관계를가지고 있다는것이다. 예를 들어 안타 수는 1루타, 2루타, 3루타 그리고 홈런 수의 합으로 이루어져 있고, 타점은 홈런수에 직접적인 영향을받고, ᄐ

ᅡ석수와 다른 통계량 역시 직접적인관계를 갖는다. 마지막으로 다변량 가산자료를위한 포아송비방 ᄒ

ᅣᆼ성 그래피컬 모델의 경우 양의 상관관계를다루지 못하는한계가 있지만, 포아송방향성 비순환그래 ᄑ

ᅵ컬 모델의 경우 그러한 제약이 없다 (Yang 등, 2015). 앞서 설명한 것처럼 실제 많은야구 통계량들 ᄋ

ᅵ 양의 상관관계를갖기 때문에 포아송방향성 비순환그래피컬 모델이 야구 타격 변수의관계망 파악 ᄒ

ᅡ는데 더 적합하다고 판단하였다. 본 논문에서 사용한 변수들과 상관관계는 3장에서 자세히 살펴본다.

ᅩ아송방향성 비순환그래피컬 모델은각 노드의 부모 노드 집합이 주어졌을때 조건부 분포가 다음 ᄀ

ᅪ 같은포아송 분포를따르는방향성 비순환그래피컬 모델이다.

Xj| XPa(j)∼ Poisson(gj(XPa(j))).

ᅵ때, gj(.)는 (N ∪ {0})|Pa(j)|

→ R+인 XPa(j)에 대한 임의의 양의 함수 (positive function)이다. 본 노

ᆫ문에서는 gj(.)로 일변량 포아송 일반화 선형 모형 (generalized linear model, GLM)의 표준연결 함 ᄉ

ᅮ (link fucntion)인 gj(XPa(j)) = exp(θj+P

k∈Pa(j)θjkXk)를사용하였다. 이때 (θjk)k∈Pa(j)는선 혀

ᆼ 가중치를나타낸다. 식 (2.1)을이용하여 결합확률분포를표현하면 다음과 같다.

f (X1, X2, . . . , Xp) = exp X

j∈V

θjXj+ X

(k,j)∈V

θjkXkXj−X

j∈V

log Xj! −X

j∈V

eθj+

P

k∈Pa(j)θjkXk

.

(5)

ᅩ아송방향성 비순환그래피컬 모델은 임의의 노드 j ∈ V 에 대해 E(Xj| XPa(j))가 비축퇴성 (non- degenerated)을 가진다면 식별 가능하다는것이 증명되었다 (Park과 Park, 2019). 또한, 포아송 분포 ᄋ

ᅴ 과대산포 성질을이용한 OverDispersion Scoring (ODS) 알고리즘을 통해 일치성을 만족하는학습 ᄋ

ᅵ 가능하다 (Park과 Raskutti, 2018). ODS 알고리즘은 크게 3가지 과정으로 이루어져 있는데, 첫 ᄇ

ᅥᆫ째로 각 변수 j에 대하여 나머지 변수들 V \ j을 독립변수로 사용한 ℓ1-정규화 포아송 회귀분석을 ᄋ

ᅵ용하여 방향성 정보가 없는 그래프의 스켈레톤 (skeleton)을학습한다. 두번째로 각 노드의 부모 노 ᄃ

ᅳ 집합이 주어졌을 때 조건부 분포가 포아송 분포를따르므로, 조건 집합이 모든부모 노드를포함하 ᄀ

ᅩ 있으면 평균과 분산이 같고, 만약 그렇지 않으면 분산이 평균보다 더 커지는과대산포 성질을 이용 ᄒ

ᅡ여 노드의 오더링 (ordering) π = (π1, π2, ..., πp)을 추정한다. 예를 들어 Figure 2.1이 포아송 방 ᄒ

ᅣᆼ성 비순환 그래피컬 모델이라고 하면, 포아송 분포의 성질에 따라 G1에서는 Var(X1) = E(X1)과 Var(X2) = E(X2)이다. 하지만 G2에서는 Var(X1) = E(X1)이지만, X2에 대해서는다음과 같은과대 ᄉ

ᅡᆫ포 성질을 볼수 있다.

Var(X2) = E[Var(X2| X1)] + Var[E(X2| X1)] = E[g2(X1)] + Var[g2(X1)] > E[g2(X1)] = E(X2).

ᅡ찬가지로 G3에서는 Var(X2) = E(X2)이고 Var(X1) > E(X1)인 과대산포를확인 할 수 있다. ODS ᄋ

ᆯ고리즘은이와 같은과대산포 성질을이용하여 그래프의 오더링을찾는다. 마지막과정으로 추정된오 ᄃ

ᅥ링의 j 번째원소 πj에 대하여 부모 노드가될수 있는오더링의 앞선 원소들 π1, ..., πj−1만을 독립변 ᄉ

ᅮ로 사용한 ℓ1-정규화 포아송회귀분석을이용하여 방향성 선을추정한다.

처

ᆺ번째와 마지막 과정에서 사용한 ℓ1-정규화 포아송 회귀분석에서의 적절한 조율 모수 (tuning pa- rameter)를 정하기 위하여, k-겹 교차 검증 (k-fold cross-validation)을 사용하였다. k-겹 교차검증을 ᄐ

ᆼ한 모형 적합 결과는 폴드가 어떻게 정해지는지에 따라서 결과가 달라질 수 있다. 따라서, 본연구에 ᄉ

ᅥ는 일관된그래프 추정을위하여 k를샘플수로 정한 LOOCV (leave-one-out cross-validation)를적 ᄋ

ᆼ하였다.본 연구의 소스코드와 데이터는 https://github.com/sdtrd011/PoissonDAGforKBOstats ᄋ

ᅦ서 내려받을수 있다.

3. 데이터 분석

3.1. 데이터 및 기초 통계

Table 3.1 Abbreviations of Statistics (variables)

Variable Description Variable Description Variable Description

AVG Batting average 2B Double SB Stolen base

AB At bat 3B Triple CS Caught stealing

R Run scored HR Home runs BB Base on balls

H Hits RBI Run batted in HBP Hit by pitch

SO Strikeout GDP Ground into double play

ᅩ아송비순환 그래피컬 모델을 통해 모든선수들을 분석 가능하지만, 본연구에서는뚜렷한 특징을 ᄀ

ᅡ질만한 선수들을선별하여 분석하였다. 이에 따라 2016-2018년 정규 시즌 홈런 상위권선수 해당하 느

ᆫ 김재환, Jamie Romak 선수와, 타율상위권인 이정후 선수, 도루 상위권인 박해민, Roger Bernad- ina 선수를 분석하였다. 특별한 경우로 2016-2018 3년 통산 사구 1위를 기록한 최정 선수의 타격 변 ᄉ

ᅮ 관계망을 분석하였다. 모든 선수들의 데이터는 케이비리포트 (kbreport.com)기록실에 게시되어있 ᄂ

ᅳᆫ 2016년 부터 2018년까지의 데이터를이용하였다. 하지만, WAR, OPS 등과 같은 기초통계량을 통 ᄒ

ᅢ 가공된 세이버메트릭스는 사용하지 않았다. 즉, 순수 통계인 타수 (AB), 득점 (R), 안타 (H), 삼진

(6)

Table 3.2 Average of 6 players (Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi) and average of players who met the minimum plate appearances requirement in 2016-2018

Slugger Good hitter Speedy HBP 2016-2018

Name Kim.J Romak.J Lee.J Park.H Bernadina.R Choi.J Mean

AVG 0.333 0.279 0.340 0.294 0.315 0.283 0.309 (0.03)

AB 521 443.5 505.5 570 535 445.33 473.26 (54.84)

R 107 80 96 106.33 112 96.67 81.05 (18.41)

H 173.67 127 171 167.67 168.5 126.33 146.64 (23.22)

2B 34 19 31.5 27 25.5 19.33 26.60 (7.53)

3B 2 0 5 10 5.5 1 2.44 (2.58)

HR 38.67 37 4 6.67 23.5 40.33 18.78 (10.40)

RBI 124 85.5 52 61 90.5 97.67 80.85 (23.96)

SB 4.67 5.5 11.5 42.67 32 3.67 9.26 (9.72)

CS 1 3 4 12.33 10 3 4.05 (3.81)

BB 70.33 61 51 51.67 52 68.33 48.77 (16.53)

HBP 5.33 8 7 2.33 10.5 21.37 7.70 (4.73)

SO 121.33 119.5 62.5 88 107.5 120.67 86.78 (25.00)

GDP 7.67 6.5 7 7 9 8 10.53 (4.59)

(SO), 2루타 (2B), 3루타 (3B), 홈런 (HR), 타점 (RBI), 병살타 (GDP), 도루 (SB), 도루실패 (CS), 볼 ᄂ

ᅦᆺ (BB), 사구 (HBP)만 고려하였다. Table 3.1에 사용된 변수들과 그 약자를다시 정리하였다.

새

ᆼ소하거나 용어가 비슷하여 혼란을야기하는변수들에 대한 자세한 설명은다음과 같다. 타수란 타 겨

ᆨ을완료한횟수이며, 희생번트, 4구, 사구, 타격방해 또는주루방해에 의해 1루로 나간 경우는타수로 ᄀ

ᅨ산하지 않는다. 여기서 4구는 볼넷, 사구는 몸에 맞는 공을의미한다. 득점은 본인이 홈에 들어와 얻 ᄋ

ᆫ점수를의미하고, 타점은 본인이 타석에서 친 공으로획득한 점수를의미한다. 타자의 타격 후 수비 ᄉ

ᅮ가 그 타구를잡아 2명의 공격수를아웃시키는 것을 병살 또는 더블플레이라고 하며, 병살의 원인이 ᄃ

ᅬ는타자의 타격을병살타라고 한다.

ᄋ ᅡ

ᇁ서 설명한 13개의 변수들과 AVG의 선수 별 2016-2018년 평균과 2016-2018년에 규정 타석을 만 ᄌ

ᆨ한 선수들의 평균과 표준편차가 Table 3.2에 나타나있다. Table 3.2에서 볼수 있듯이 김재환 선수와 Jamie Romak 선수의 평균 HR값이 각각 38.67, 37이고, 이는전체 평균인 18.78에 비해서 매우 높은값 으

ᆯ가진다. 이정후 선수의 평균 AVG는 0.340로 평균 0.309보다 높은타율을보유하고 있지만, 홈런의 겨

ᆼ우 4개로 평균 18.78에 비해 낮은값을가진다. 도루 1, 2위 선수인 박해민 선수, Roger Bernadina 선 ᄉ

ᅮ의 평균 SB는각각 42.67, 32로 평균인 9.26보다 높은값을가진다. 최정 선수의 평균사구는 21.37개 ᄅ

ᅩ 전체 평균인 7.70개보다 매우 높은값을가짐을확인할 수 있었다. 마지막으로, 표본수는선수가 출 ᄌ

ᅥᆫ한 총 경기 수에서 수비만 참가하여 타수가 0인 경우는제외하였고, Jamie Romak, 이정후, Roger Bernadina 선수들은 2016년도 데이터가 존재하지 않아 2017년도와 2018년도의 데이터만 이용하였다.

ᅡ라서 김재환, Jamie Romak, 이정후, 박해민, Roger Bernadina, 최정 선수에게 해당하는표본수는 ᄀ

ᆨ각 463, 241, 250, 423, 264, 382이다.

부

ᆫ석에 사용한 변수는이산형 변수이므로 각 선수들의 변수들간의 상관계수를구하고, 이에 대한 순열 거

ᆷ정을해보았다. 상관계수를구할 때에는한 변수의 값이 모두 같아 상관계수가 구해지지 않는경우를 ᄀ

ᅩᆼ백으로 처리하였다. Figure 3.1에서 하 삼각행렬에 있는 진한 숫자가 스피어만 상관계수를,상 삼각행 려

ᆯ이 순열 검정의 p 값을 나타낸다. 유의수준 5%하에서 살펴보면, 대부분의 선수들의 AB, R, H, 2B, HR, RBI는서로 유의한 양의 상관계수를가지고 있는모습을확인할 수 있다. 하지만 동시에 AB가 직 저

ᆸ적인 연관성으로 설명하기 힘든 BB, HBP와 유의한 음의 상관관계를가지고 있을 수 있다. 또한 김 ᄌ

ᅢ환 선수는 AB와 SB, RBI와 BB, 박해민 선수는 HBP와 CS, H와 CS 등모든선수들이 설명하기 어 ᄅ

ᅧ운변수들간의 유의한 상관관계를보이는것도확인 할 수 있다.

(7)

(a) HR: Jaehwan Kim (b) HR: Jamie Romak (c) AVG: Jeonghu Lee

(d) SB: Haemin Park (e) SB: Roger Bernadina (f) HBP: Jeong Choi

Figure 3.1 Spearman correlation coefficient (lower triangle) and p value of permutation test (upper triangle) for Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi

보

ᆫ연구에서 고려한 데이터는선수들의 특징에 따라 대부분이 0인 변수들이 존재한다. 예를 들어 김 ᄌ

ᅢ환 선수는도루를거의 시도하지 않아, 총 463경기의 데이터 중에 459경기에서 도루 실패횟수 없음 으

ᆯ기록했다. Jamie Romak 선수와 최정 선수는 달리기가 느려 3루타를한번이라도 성공한 경기수가 ᄀ

ᆨ각 총 241경기중 241경기, 382 경기중 379경기를기록하였다. 본 논문에서 데이터 분석에 사용한 포 ᄋ

ᅡ송 방향성 비순환그래피컬 모델의 경우, 앞서 설명한 것처럼 비축퇴성 (non-degenerated)을가져야 ᄆ

ᅡᆫ 식별이 가능하다 (Park과 Park, 2019). 즉변수가 한가지 값을너무 많이 가지면 그래프 식별이 힘 ᄃ

ᆯ어져 한 값이 99% 이상 차지하는변수를제거하였다. 따라서 김재환 선수는 CS가, Jamie Romak 선 ᄉ

ᅮ와 최정 선수는 3B가 제외된12개의 변수가 분석에 이용되었다.

3.2. 분석 결과 ᄋ

ᅵ 절에서는다변량 가산 자료 변수들간의 직접적인 방향성관계를추정하는 ODS알고리즘을사용하 ᄋ

ᅧ, 타자들의 특징을방향성 그래프로 나타내었다. 먼저 본연구에서 고려한 6명의 선수들에게서 공통 ᄋ

ᅳ로 추정된방향성 선이 무엇인지 살펴본다. 그 후에는 홈런 타자들의 그래프의 특징을확인하기 위해, ᄐ

ᅡ율은 높지만 홈런 개수는적은이정후 선수의 그래프와 비교해보았다. 마지막으로 안타 외의 진루 기 ᄅ

ᆨ을갖는도루 상위권 선수들과 최정 선수의 그래프의 특징을확인해 보았다.

Figure 3.2에서 모든 선수들은 공통적으로 [AB → H], [AB → BB], [H → R], [HR → RBI]의 ᄇ

ᅡᆼ향성 선을가짐을확인 할 수 있으며, 발이 느린 Jamie Romak 선수를제외한 5명의 선수들은 [H → 2B]의 선 또한 공통으로 가진다. 김재환, Roger Bernadina 선수를 제외한 4명의 선수들 에게서는

(8)

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

1

(a) HR: Jaehwan Kim

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

2

(b) HR: Jamie Romak

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

3

(c) AVG: Jeonghu Lee

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

4

(d) SB: Haemin Park

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

5

(e) SB: Roger Bernadina

AB

HBP BB H SO GDP

SB 2B 3B HR

CS R RBI

6

(f) HBP: Jeong Choi Figure 3.2 Estimated DAGs for the 6 KBO palyers

[AB → SO]의 방향성 선이, Jamie Romak, 최정 선수를제외한 4명의 선수들에게서는 [H → RBI]의 ᄉ

ᅥᆫ이 공통으로 나타났다.

ᅢ부분의 선수들에게서 공통적으로 추정된 7개의 방향성 선은 인과관계를잘 나타내고 있다. 자세히 ᄉ

ᆯ펴보면 [AB → H]와 [AB → BB], [AB → SO]의 경우, 타수는전체 타석에서 희생번트, 희생플 ᄅ

ᅡ이, 볼넷, 몸에 맞는 공, 타격 방해 등을 뺀 것이므로, 타수가 많아질수록 안타 개수와 삼진은 비례 ᄒ

ᅢ서 증가하고 볼넷 개수와는 반비례 관계를 가지므로, 추정된 방향성 선이 그 함수 관계 (functional relation)를잘 나타낸다고 볼수 있다. 또한 안타 개수와 2루타는비례관계를가지며, 안타 개수가 많 ᄋ

ᅡ질수록 득점과 타점이 높아질 가능성이 크기 때문에 [H → 2B]와 [H → R], [H → RBI]의 방향성 ᄉ

ᅥᆫ도 잘 추정되었음을확인 할 수 있다. 마지막으로 홈런을치면 타점이 올라가기 때문에 [HR → RBI]

ᅧᆨ시 잘 추정되었다고 할 수 있다. 이처럼 추정된방향성 그래프에는우수한 선수들이 가지는 특징이 선 ᄋ

ᅳ로 나타나져 있으며, 선수들의 주력과 같은 특징 역시 방향성 그래프에 잘 반영되어 있음을확인 할

(9)

ᄉ ᅮ 있다.

ᄀ ᅡ

ᆨ 유형별 타자들의 특징을파악하기 위해 먼저 홈런 타자들의 그래프 Figures 3.2 (a)와 3.2 (b)을비 ᄀ

ᅭ해 보았다. 김재환 선수와 Jamie Romak 선수에게서는다른선수들에게서는 볼수 없는 공통된방향 서

ᆼ 선을두 개 더 찾을수 있는데, 첫번째는 [H → SO]이고, 두번째는 [R → HR]이다. [H → SO]의 경 ᄋ

ᅮ, 타수가 주어져 있을때 안타 수와 삼진 수는반비례관계를가지므로 두 변수의 연결은합리적이라 ᄒ

ᅡᆯ 수 있다.

[R → HR]는두 선수가 2018년 기준 홈런 개수 1, 2위를한 선수들이고, 홈런이 차지하는 득점비율이 ᄃ

ᅡ른선수들에 비해 높으므로, 두 변수간의 연결이 타당하다고 볼수 있다. 이 연결은 2017년 기준 홈런 1위와 9위를차지한 최정 선수의 그래프 (Figure 3.2 (f))와 Roger Bernadina 선수의 그래프 (Figure 3.2 (e))에서도 찾을 수 있다. 하지만, 홈런 개수가 낮은 이정후 선수의 그래프 (Figure 3.2 (c))에서는 조

ᆫ재하지 않아, [R → HR]가 홈런 타자들에게 나타나는 특징이라는것을알 수 있다. 그러나 홈런 개수 ᄀ

ᅡ 많아질수록 득점이 비례해서 증가하므로 실제로는 [HR → R]이 합당하다고 할 수 있다. 즉추정된 ᄀ

ᅳ래프에서는 [R → HR]로 방향이 반대로 되어 있어, 직접적인관계가 있는변수들은찾았지만 그 인과 과

ᆫ계까지는정확히 추론하지 못한 점을확인할 수 있다.

ᅩ루 상위권 선수들의 특성을확인하기 위해 Figures 3.2 (d)와 3.2 (e)를살펴보자. 먼저 Figure 3.2 (d)를 통해 박해민 선수에게는 [H → SB]의 모습을 확인할 수 있고, Figure 3.2 (e)를 통해 Roger Bernadina 선수에게서는 [BB → SB]의 방향성 선을 볼수 있다. 두 선수를제외한 4명의 선수들의 그 ᄅ

ᅢ프에서는 SB가 독립된 변수로 남아 있으므로, 박해민 선수의 [H → SB]와 Roger Bernadina 선수의 [BB → SB]는다른선수들과는확연히 다른 특징임을알 수 있다. SB는 진루 후에 기록되는변수이므 ᄅ

ᅩ, 진루와관계된 H, BB가 도루 상위권 선수의 그래프에서 연결되는것은자연스러운결과라고 할 수 이

ᆻ다. 뿐만 아니라 두 선이 발생한 이유는박해민 선수는 2018년 안타 9위, Roger Bernadina 선수는 2018년 볼넷 7위를기록했다는것에서 찾을수 있었다. 이를 통해 변수관계망이 각 선수들의 진루 유 혀

ᆼ 역시 보여준다고 할 수 있다.

Figure 3.2 (f)에서 최정선수의 특징을보면, 다른선수들과 다른가장큰 특징은 [AB → HBP ]라고 ᄒ

ᅡᆯ 수 있다. 최정 선수는 2016 - 2018년 3년 통산 사구 1위를기록한 선수이다. 이러한 최정 선수의 특 지

ᆼ이 [AB → HBP ] 방향성 선에서 잘 나타나고 있음을확인 할 수 있다.

ᄆ ᅮ

ᆯ론각 선수별로 변수들의관계망을살펴보면 설명하기 어려운선들도 나타난다. 예를 들어, Jamie Romak 선수는 [SO → GDP ]의 방향성 선이 추가로 나타났다. 이 선은 방향성을 고려하지 않더라 ᄃ

ᅩ 설명하기 어려운 에러라고 판단된다. 이러한 에러가 발생한 주요한 이유로 Jamie Romak 선수의 GDP가 7개로 너무 낮은발생 빈도를 들수 있다. 이 외에도 이정후 선수의 Figure 3.2 (c)에서는 [R → BB]의 방향성 선과 Figure 3.2 (d)에서 박해민 선수는 [R → SB]의 방향성 선, Figure 3.2 (e)에서 Roger Bernadina 선수는 [R → BB]의 방향성 선이 설명이 어려운에러로 판단된다. 이는변수들의 조 ᄀ

ᅥᆫ부 분포가 정확히 포아송 분포를따르지 않거나, 적절치 못한 조율파라미터를선택했기 때문이라고 ᄒ

ᅡᆯ 수 있다. Table 3.3에 공통된 방향성 선과, 설명이 어려운선이 요약되어 있다. 현재까지는포아송 ᄇ

ᅵ순환방향성 그래피컬 모델이 유일한 방향성관계를가진 이산자료를위한 모델이므로 포아송비순환 ᄇ

ᅡᆼ향성 그래피컬 모델의 결과만 제시하였다. 추후 이산자료를위한 새로운방향성 그래피컬 모델을 사 ᄋ

ᆼ하거나, 더 적합한 조율모수를정하는방법을찾는다면 더 좋은결과가 나올것이라 기대한다.

4. 결론 및 토의 보

ᆫ연구에서는야구 통계량들간의 직접적인관계를파악하기 위하여 포아송방향성 비순환그래피컬 ᄆ

ᅩ델을이용하여 선수별 야구 타자 변수관계망을 분석해 보았고, 선수들의 고유한 특징이관계망에 잘

(10)

Table 3.3 The set of common, accountable, reversed, and unexplanable edges for the types of players.

Type Edges

Common

6 [AB → H], [AB → BB], [H → R], [HR → RBI]

5 [H → 2B]

4 [AB → SO], [H → RBI]

Hitters [H → SO], [R → HR]

Speedy [H → SB], [BB → SB]

Special [AB → HBP ] Reversed [R → HR]

Unexplanable [SO → GDP ], [R → BB], [R → SB]

ᅡ타나는것을확인 할 수 있었다. 예를 들어 평균타율은 높지만 홈런 개수가 낮은이정후 선수는 R과 HR사이의 선이 존재하지 않았지만, 홈런 타자들은모두 [R → HR]의 방향성 선을가지는관계망이 나 ᄐ

ᅡ났다. 또한 도루 상위권 선수들의 변수관계망에서도 다른선수들의관계망과 달리 SB가 진루와관련 되

ᆫ 변수들과 연결된모습을확인할 수 있었다. 마지막으로 사구 개수 부문에서 1위인 최정 선수의관계 ᄆ

ᅡᆼ에서도 다른선수들의 관계망에서는 볼수 없었던 [AB → HBP ]의 방향성 선이 있는것을 확인 할 ᄉ

ᅮ 있었다. 더 나아가 변수관계망을 통해 다양한 추가 정보를확인할 수 있었다. 예를 들어 홈런 평균 ᄋ

ᅵ 리그 평균과 비슷한 Roger Bernadina 선수와 최정 선수에게서도 R과 HR의 연결이 찾을수 있었다.

ᅵ는 변수관계망을 통해 선수들이 가지는주요한 특징 뿐만 아니라, 다른 특징 역시확인할 수 있다는 거

ᆺ을시사한다.

ᅬ근주목받고 있는세이버메트릭스는변수들의 상관관계를고려치 않고 너무 많은변수를사용하거 ᄂ

ᅡ, 우리나라 데이터가 아닌 MLB를기준으로 만들어진 계수를사용하기 때문에 한국프로야구 선수에 ᄃ

ᅢ한 분석의 통계량으로 사용하기에 적절하지 않을수 있다. 그러나 본연구에서 타자들의 변수관계망 으

ᆯ 분석해 본결과 사구와 고의 4구, 도루 실패 등은안타, 2루타, 3루타, 홈런 등과의 직접적인관계가 ᄎ

ᅡᆽ기 힘들었으므로, 안타와관련된 통계량을개발 할 때 필요한 변수를 줄일 수 있는가능성을보였다.

ᅩ한, 모든선수들의 데이터를이용하는것이 아닌, 한 선수의 데이터를이용하여 변수관계망을파악함 ᄋ

ᅳ로써 개개인의 특성을더 잘 반영할 수 있다는장점도 찾을수 있었다. 따라서 변수관계망을잘 이용 ᄒ

ᅡ여 더 좋은세이버메트릭스를개발한다면, 고차원적으로 선수의 경기력을 분석할 수 있는세이버메트 리

ᆨ스의 장점을강화시킬 수 있을것이라 판단된다. 더 나아가 선수 개개인의 변수관계망을 통해 선수들 ᄀ

ᅡᆫ의 특성을찾아 평가하고, 선수들의 맞춤형 훈련 방법과 전략을세우는데 도움이될 것이라 판단된다.

ᅡ지막으로 본연구에서 사용된ODS알고리즘은그래프 구조만 찾을수 있다는한계가 있었다. 따라서 ᄎ

ᅮ후에 추정된그래프를바탕으로 변수관계 정도를수치화 할 수 있는방법을찾는다면, 더 나은세이 ᄇ

ᅥ메트릭스를개발하는데 도움이될 것이라고 기대한다.

References

Beneventano, P., Berger, P. D. and Weinberg, B. D. (2012). Predicting run production and run preven- tion in baseball: The impact of sabermetrics. International Journal of Business, Humanities and Technology, 2, 67-75.

Choi, S. and Lee, G. (2016). Bayesian network-based probabilistic management of software metrics for refactoring. The Journal of Korean Institute of Information Scientists and engineers, 43, 1334-1341.

Hong, C. and Shin, D. (2016). Alternative hitting ability index for kbo. Journal of the Korean Data &

Information Science Society, 27, 677-687.

Lauritzen, S. L. (1996).Graphical models, Oxford University Press.

Lee, J. (2014a). Estimation of obp coefficient in korean professional baseball. Journal of the Korean Data

& Information Science Society, 25, 357-363.

수치

Table 3.1 Abbreviations of Statistics (variables)
Table 3.2 Average of 6 players (Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi) and average of players who met the minimum plate appearances requirement in 2016-2018
Figure 3.1 Spearman correlation coefficient (lower triangle) and p value of permutation test (upper triangle) for Jaehwan Kim, Jamie Romak, Jeonghu Lee, Haemin Park, Roger Bernadina, and Jeong Choi
Table 3.3 The set of common, accountable, reversed, and unexplanable edges for the types of players.

참조

관련 문서