• 검색 결과가 없습니다.

Determinant factors of Korean professional baseball hitter salaries

N/A
N/A
Protected

Academic year: 2021

Share "Determinant factors of Korean professional baseball hitter salaries"

Copied!
10
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2019, 30

(

6)

,

1375–1384

한국프로야구 타자 연봉의 결정요인

ᄋ ᅵ장택

1

1단국대학교 응용통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2019ᄂ ᅧ ᆫ 7ᄋ ᅯ ᆯ 29ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 8ᄋ ᅯ ᆯ 21ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2019ᄂ ᅧ ᆫ 8ᄋ ᅯ ᆯ 22ᄋ ᅵ ᆯ

요 약

ᄒ ᅡ

ᆫᄀ ᅮ ᆨ ᄑ ᅳᄅ ᅩᄋ ᅣᄀ ᅮ ᄐ ᅡᄌ ᅡᄃ ᅳ ᆯ ᄋ ᅴ ᄋ ᅧ ᆫᄇ ᅩ ᆼᄋ ᅳ ᆯ ᄋ ᅵᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄋ ᅥᄄ ᅥ ᆫ ᄌ ᅩ ᆼ ᄅ ᅲᄋ ᅴ ᄀ ᅵᄅ ᅩ ᆨᄃ ᅳ ᆯ ᄋ ᅵ ᄋ ᅧ ᆫᄇ ᅩ ᆼ ᄋ ᅦ ᄏ ᅳ ᆫ ᄋ ᅧ ᆼᄒ ᅣ ᆼᄋ ᅳ ᆯ ᄌ ᅮᄂ ᅳ ᆫ ᄌ ᅵ ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄋ

ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅡᄋ ᅧ ᄉ ᅡ ᆯᄑ ᅧᄇ ᅩ ᆫ ᄃ ᅡ. ᄋ ᅵ ᆯᄇ ᅡ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄐ ᅡᄌ ᅡᄃ ᅳ ᆯ ᄋ ᅴ ᄋ ᅧ ᆫᄇ ᅩ ᆼᄋ ᅳ ᆫ ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄑ ᅳᄅ ᅩᄋ ᅣᄀ ᅮᄐ ᅵ ᆷᄃ ᅳ ᆯ ᄋ ᅴ ᄏ ᅳ ᆫ ᄇ ᅵᄋ ᅭ ᆼ ᄋ ᅵᄆ ᅧ, ᄉ ᅥ ᆫᄉ ᅮᄃ ᅳ ᆯᄋ ᅳ ᆫ ᄀ ᅧ ᆼᄀ ᅵᄌ ᅡ ᆼ ᄋ

ᅦᄉ ᅥ ᄃ ᅥ ᄌ ᅩ ᇂᄋ ᅳ ᆫ ᄑ ᅳ ᆯ ᄅ ᅦᄋ ᅵᄅ ᅳ ᆯ ᄒ ᅡ ᆯᄉ ᅮᄅ ᅩ ᆨ ᄂ ᅩ ᇁᄋ ᅳ ᆫ ᄋ ᅧ ᆫᄇ ᅩ ᆼᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄀ ᅦ ᄃ ᅬ ᆯ ᄀ ᅥ ᆺᄋ ᅵᄃ ᅡ. ᄄ ᅡᄅ ᅡᄉ ᅥ ᄋ ᅥᄄ ᅥ ᆫ ᄌ ᅩ ᆼ ᄅ ᅲᄋ ᅴ ᄀ ᅵᄅ ᅩ ᆨ ᄋ ᅵ ᄋ ᅧ ᆫᄇ ᅩ ᆼ ᄋ ᅦ ᄏ ᅳ ᆫ ᄋ ᅧ ᆼ ᄒ

ᅣ ᆼᄋ ᅳ ᆯ ᄆ ᅵᄎ ᅵᄂ ᅳ ᆫ ᄌ ᅵ ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡ ᆯ ᄑ ᅵ ᆯᄋ ᅭᄀ ᅡ ᄋ ᅵ ᆻᄃ ᅡ. ᄉ ᅡᄋ ᅭ ᆼᄃ ᅬ ᆫ ᄃ ᅦᄋ ᅵᄐ ᅥᄂ ᅳ ᆫ 2000ᄂ ᅧ ᆫᄇ ᅮᄐ ᅥ 2015ᄂ ᅧ ᆫᄁ ᅡᄌ ᅵᄋ ᅴ ᄐ ᅡᄌ ᅡᄀ ᅵ ᄅ

ᆨ ᄀ ᅪ ᄋ ᅧ ᆫᄇ ᅩ ᆼ ᄋ ᅦ ᄅ ᅩᄀ ᅳᄅ ᅳ ᆯ ᄎ ᅱᄒ ᅡ ᆫ ᄅ ᅩᄀ ᅳ ᄋ ᅧ ᆫᄇ ᅩ ᆼᄋ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᆻᄂ ᅳ ᆫ ᄃ ᅦ, ᄀ ᅧ ᆯᄅ ᅩ ᆫᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄋ ᅧ ᆫᄃ ᅩ, ᄐ ᅵ ᆷᄋ ᅴ ᄌ ᅩ ᆼ ᄅ ᅲ, ᄇ ᅩ ᆯᄂ ᅦ ᆺ, ᄌ ᅡᄋ ᅲᄀ ᅨᄋ ᅣ ᆨᄉ ᅥ ᆫᄉ ᅮ ᄋ

ᅧᄇ ᅮ, ᄂ ᅡᄋ ᅵᄋ ᅴ ᄌ ᅦᄀ ᅩ ᆸ, ᄋ ᅡ ᆫᄐ ᅡ, WARS, ᄀ ᅧ ᆼᄒ ᅥ ᆷ, ᄐ ᅡᄌ ᅥ ᆷᄋ ᅵ ᄆ ᅢᄋ ᅮ ᄋ ᅲᄋ ᅴᄒ ᅡᄀ ᅦ ᄂ ᅡᄐ ᅡᄂ ᅡ ᆻᄋ ᅳᄆ ᅧ, ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅴ ᄀ ᅧ ᆯᄀ ᅪᄂ ᅳ ᆫ ᄀ ᅡ ᆨ ᄀ ᅮᄃ ᅡ ᆫ ᄆ ᅵ

ᆾ ᄐ ᅡᄌ ᅡᄃ ᅳ ᆯ ᄋ ᅵ ᄋ ᅧ ᆫᄇ ᅩ ᆼᄒ ᅧ ᆸᄉ ᅡ ᆼᄋ ᅦ ᄋ ᅵ ᆷᄒ ᅡ ᆯ ᄄ ᅢ ᄌ ᅮ ᆼ ᄋ ᅭᄒ ᅡ ᆫ ᄎ ᅡ ᆷᄀ ᅩ ᄌ ᅡᄅ ᅭᄀ ᅡ ᄃ ᅬ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡᄀ ᅩ ᄑ ᅡ ᆫᄃ ᅡ ᆫ ᄃ ᅬ ᆫ ᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅵᄅ ᅩ ᆨ, ᄐ ᅡᄌ ᅡ ᄋ ᅧ ᆫᄇ ᅩ ᆼ, ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄑ ᅳᄅ ᅩᄋ ᅣᄀ ᅮ, ᄒ ᅬᄀ ᅱᄇ ᅮ ᆫᄉ ᅥ ᆨ, WARS.

1. 서론 ᄒ

ᅡᆫ국프로야구 (Korean baseball organization; KBO)에서 해마다 시즌이 종료되면 연봉협상은가장 ᄏ

ᅳᆫ 이슈 중 하나다. 연봉협상은 올 시즌 선수들의 활약에 대한 보상이며 내년 시즌에 대한 투자인데, ᄀ

ᅮ단의 측면에서 보면 프로야구가 매우 활성화되어 있는미국이나 일본보다 재정여건이 열악하므로 높 ᄋ

ᆫ연봉과 이적료는구단 살림살이에 큰부담으로 작용하고 또 선수들의 측면에서 보면 자신의 실력이 ᄀ

ᆮ연봉이기 때문에 상대적으로 다른선수들과 비교하여 자신의 실력이 제대로 반영되고 있는지 판단하 ᄀ

ᅩ 싶어 한다. 이처럼 구단과 선수 간의 연봉협상 과정은 분쟁을 유발할 가능성이 항상 남아 있는 데 ᄋ

ᅵ에 대한 학계의관심은미국이나 우리나라나 매우 크다고 할 수 있다. 미국프로야구 (Major league baseball; MLB)인 경우는타자들의 경기력과 연봉과의관계에관한 연구들을 인터넷 및 저널에서 쉽게 ᄎ

ᅡᆽ아볼수 있다. 1990년대부터 오늘날에 이르기까지 메이저 리그 연봉메커니즘에관한 연구들이 많이 ᄀ

ᅢ발되었는데, 타자에 연관된다양한 독립변수와 연봉 또는 로그 연봉을 종속변수로 사용하여 주로 회 ᄀ

ᅱ모형으로 설명하였다 (Marburger, 1994; Hoaglin 등, 1995; Bollinger 등, 2003; Yilmaz 등, 2003;

Hakes 등, 2006; Hakes 등, 2011; Magel 등, 2015).

ᅡᆫ편 대략 2000년 초반부터 시작된 국내 프로야구선수들의 연봉과 기록에 관한 선행연구들은 구단 ᄀ

ᅪ 선수들의 합의점 구축을위한 기본적인 모형을제시했다 (Lee 등, 2001; Kim, 2002; Oh 등, 2003;

Song, 2008; Seung 등, 2012; Myung 등, 2016; Lee, 2017). 하지만 야구 데이터를구하기가 쉽지 않 ᄃ

ᅥᆫ KBO의 주변 여건들이 정보통신과 컴퓨터의 발달로 데이터 접근 및 통계 분석이 쉬운환경으로 변 ᄒ

ᅢ감에 따라 야구를객관적인 방법으로 이해하려는세이버메트릭스를이용한 연구도활발하게 시도되며

1

(448-701) ᄀ ᅧ ᆼᄀ ᅵᄃ ᅩ ᄋ ᅭ ᆼᄋ ᅵ ᆫᄉ ᅵ ᄌ ᅮ ᆨᄌ ᅥ ᆫᄃ ᅩ ᆼ 126ᄇ ᅥ ᆫᄌ ᅵ, ᄃ ᅡ ᆫᄀ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

ᅪ거에는할 수 없었던 영역의 분석도 가능하게 되었다. 최근의 한국프로야구에관한 일반 연구들을몇 ᄀ

ᅡ지 소개하면 출루율과 장타율이 득점에 미치는영향을연구한 Kim (2012), 타자평가지표들의 특성을 ᄇ

ᅡᆫ영한 주성분을찾은 Lee (2014),타자력 지수 모형과 지수를제안한 Hong 등 (2016) 등이 있다.

ᅪ거의 연구들은대부분 연봉예측에 주목적이 있었지만, 과거 KBO 선수들의 연봉예측은부정확한 ᄃ

ᅦ이터 및 구단의 차이 등으로 실제 값과 예측값의 차이가 심했기 때문에 본연구에서는 KBO 연봉은 ᄌ

ᅮ로 어떤 경기요인들에 의해 결정되는지를최대한으로 객관적으로 설명하는 데 그 목적을 둔다. 아울 ᄅ

ᅥ 기존연구들과의 차이점은 특정 해당연도에서의 연구가 아니라 2000년 이후 15년 동안의 KBO 결 ᄀ

ᅪ를 활용하여 결론의 객관적 타당성을 높였으며 과거에 취급하기 힘들었던 팀의 종류, 나이, 경험 등 ᄀ

ᅪ 같은타자연관 독립변수들을많이 포함했다는점을 들수 있다. 논문은다음과 같이 구성되어 있다.

2절에서는데이터의 구성, 분석 도구 및 여러 가지 타자평가지표에관해 설명하였으며, 3절에서는연봉 ᄃ

ᅦ이터를 이용한 탐색적 자료 분석과 회귀모형을 추정하고 제안된 모형의 결과를 설명하였다. 끝으로 4절에서는 본연구의 결론을제시한다.

2. 연구방법

2.1. 데이터의 구성 ᄃ

ᅦ이터는 한국프로야구 공식 홈페이지에는 연봉자료가 없으므로 사설 기록 사이트인 스탯티즈 (http://www.statiz.co.kr)에 있는 2000년부터 2015년 사이의 타자기록 및 연봉데이터와 2016년 ᄋ

ᅧᆫ봉데이터를 이용하며 분석대상은 모두 2,335명의 경기결과이다. 조사된 선수들은 KIA 300명, LG 291명, NC 57명, SK 285명, 넥센 105명, 두산 271명, 롯데 283명, 삼성 271명, 한화 281명, KT 25명, ᄒ

ᅧᆫ대 126명 그리고 히어로즈 40명으로 KIA가 가장 많았으며, KT가 가장 적었다. 표본으로 선택된 선 ᄉ

ᅮ들은 연봉기록이 있고 게임 출전기록이 모두 있는 경우에 한하였으며, 오랜 기간의 연봉자료이므로 ᄐ

ᅳᆨ정 선수의 연도별 기록이 모두 1개의 데이터로 각각 사용됐다. 각 선수에 대하여 조사된 변숫값들은 ᄋ

ᅵ름 (NAME), 해당연도 (YEAR), 팀의 종류 (TEAM), 포지션 (POS), 타석 (PA), 타수 (AB), 득 ᄌ

ᅥᆷ (R), 안타 (H), 1루타 (1B), 2루타 (2B), 3루타 (3B), 홈런 (HR), 총루타 (TB), 타점 (RBI), 도루 (SB),도루자 (CS), 볼넷 (BB), 사구 (HBP), 고의4구 (IBB), 삼진 (SO), 병살타 (GIDP), 희타 (SH), ᄒ

ᅴ비 (SF), 타율 (AVG), 출루율 (OBP), 장타율 (SLG), 오피에스 (OPS), 가중출루율 (wOBA), 대체 ᄉ

ᅥᆫ수 대비 승리기여도 (WARS), 연봉 (SALARY), 출생연도 (BYEAR), 입단연도 (SYEAR), 은퇴연도 (FYEAR),나이 (AGE), 경험 (EXP), 자유계약선수 여부 (FA), 외국인 여부 (FOR)와 같다. 아울러 ᄃ

ᅦ이터의 가공 및 분석은 SAS university edition과 SPSS (ver. 24K)를사용하고 그래프 작성은 R을 ᄋ

ᅵ용하며 통계분석기법으로는상관분석과 다중회귀분석을활용하였다.

2.2. 타자평가지표 보

ᆫ연구에서 사용한 세이버메트릭스 타자평가지표는다음과 같은세 가지다. 이외에도 순수한 장타력 ᄆ

ᅡᆫ을 측정하는 ISO, 장타율의 가중치에 볼넷과 도루의 가치를 고려해서 만든수정타율 SECA, 타자가 ᄒ

ᅡᆫ 시즌 동안 한 번의 공격 기회에서 어느 정도 진루했는지를나타내는 종합공격력 TA, 타자의 득점 공 ᄒ

ᅥᆫ도인 RC, 한 경기에 타순이 선수 A로만 구성되는경우에 한 경기에 몇 득점을만들어 낼 수 있는지를 서

ᆯ명하는 RC/27,타자의 진루 및 주루와관련된사항을선형가중 식으로 구한 득점 공헌도 XR 등이 있 ᄋ

ᅳ나 대중인지도 면에서 다소 떨어지고 선행연구들을 보아도 이들 통계량만이 연봉산출에 크게 반영된 ᄃ

ᅡ는결과는없었기에 고려대상에서 제외됐다.

(3)

2.2.1. OPS (On base percentage plus slugging percentage) ᄀ

ᅡ장 유명하고 보편화된타자지표로 출루율 (OBP)과 장타율 (SLG)의 합으로 구해진다. 타자의 출 ᄅ

ᅮ 능력과 장타력을 골고루 반영하여 쉽게 계산할 수 있다는장점도 있지만, 주루능력, 병살타 및 희생 ᄐ

ᅡ 생산능력 등은배제된다는단점도 있는데, 출루율 (OBP)과 장타율 (SLG)의 구체적인 계산식은 다 ᄋ

ᅳ ᆷ과 같다.

OBP = (H + BB + HBP)/(AB + BB + HBP + SF), SLG = [1B + 2(2B) + 3(3B) + 4(HR)]/AB.

2.2.2. wOBA (Weighted on base average) 저

ᆼ확한 타자의 능력을 측정하기 위해 고안된 통계량으로 타석 당 득점 기대치를 의미하며, 볼넷, 사 ᄀ

ᅮ, 1루타, 2루타, 3루타, 홈런, 에러로 인한 출루 등에 가중치가 부여되고 이들의 합을타석의 수로 나 ᄂ

ᅮᆫ값으로, wOBA는여러 가지 정의들이 있으나 여기서는 스탯티즈에서 사용한 다음정의를사용하였 ᄃ

ᅡ. 여기서 UBB는고의사구를제외한 볼넷, RBOE는 실책에 의한 출루를의미한다.

A = 0.72(UBB) + 0.75(HBP) + 0.90(1B) + 0.92(RBOE) + 1.24(2B) + 1.56(3B) + 1.95(HR), B = PA − IBB, wOBA = A/B.

2.2.3. WAR (Wins above replacement) ᄉ

ᅦ이버메트릭스에서 선수의 가치를평가하는대표적인 지표로 대체선수 대비 승리기여도로 설명되는 ᄐ

ᆼ계량이다. WAR=1이란 경쟁이 없어 사실상 무료로 영입할 수 있는수준의 선수에 비해 팀의 1승을 ᄃ

ᅥ 생산했다는 뜻으로 특정 선수가 보통선수보다 팀 승리에 얼마나 기여했는가를계산한 값이다.

3. 분석 결과

3.1. 탐색적 자료분석 ᄃ

ᅦ이터의 특징을파악하고 통계모형의 선택 등을위하여 그래프를이용한 탐색적 자료 분석을수행하 ᄋ

ᅧᆻ다. Figure 3.1은 연봉과 로그 연봉에 대한 히스토그램인데, 왼쪽의 연봉에 대한 히스토그램을 보면 ᄃ

ᅢ부분이 낮은연봉이고 정규분포와는거리가 먼 왜도가 매우큰 분포임을알 수 있으며, 오른쪽의 로그 ᄋ

ᅧᆫ봉은왼쪽보다 훨씬 대칭분포에 가까워서 본연구에서는로그 연봉을 종속변수로 사용하였다.

Figure 3.2는타자들의 수비 위치 (1B는 1루수, 2B는 2루수, 3B는 3루수, C는포수, CF는 중견수, DH는지명타자, LF는좌익수, Missing은결측치, RF는우익수, SS는유격수)와 로그 연봉의 평균 (왼 ᄍ

ᅩᆨ)과 자유계약 해당 여부 (자유계약 건이 있으면 1, 없으면 0)과 로그 연봉의 평균 (오른쪽)에 대한 막 ᄃ

ᅢ그래프인데, 타자들의 포지션이 지명대타와 1루수의 평균값이 높은것은위치의 중요성보다 두 개의 ᄋ

ᅱ치에 선수들이 득점을많이 생산하는장거리 타자들이 많은이유로 간주되며, 신문지상에서도 알 수 이

ᆻ듯이 국내 FA시장에서 매년 역대 연봉협상 최고액을갱신하는계약들이 체결되는 등 FA여부에 따라 ᄋ

ᅧᆫ봉차이가 크게 난다.

(4)

(a) (b)

Figure 3.1 Histogram for salary and log salary

(a) (b)

Figure 3.2 Log salaries by position and eligibility of FA

(a) (b)

Figure 3.3 Log salaries by age and year of experience

(5)

Figure 3.3은로그 연봉에 대한 나이별 상자 그림 (왼쪽) 및 경험연수별 상자 그림 (오른쪽)을각각 보 ᄋ

ᅧ준다. 경험 연수는해당연도에서 입단연도를 뺀 값으로 계산하였는데, 대략 30대 이하 3사분위수 위 ᄋ

ᅴ 이상치들은대부분외국인 선수들이며 나이가 증가하면서 로그 연봉은계속 증가하다가 38세를넘기 ᄆ

ᅧᆫ서 서서히 감소하며, 경험 연수는 증가할수록계속로그 연봉은 증가한다. 두 가지 사실로부터 KBO ᄐ

ᅡ자들의 연봉에 나이와 경험 연수는큰영향을미칠 것으로 간주된다.

Table 3.1 Correlation between batting statistics and log salary with p-value YEAR (.203)** PA (.781)** AB (.774)** R (.743)** H (.784)**

2B (.741)** 3B (.315)** HR (.623)** TB (.784)** RBI (.773)**

SB (.347)** CS (.406)** BB (.763)** HBP (.510)** IBB (.471)**

SO (.660)** GIDP(.688)** SH (.297)** SF (.624)** AVG (.313)**

HBP (.510)** OBP (.379)** SLG (.383)** OPS (.408)** WARS (.621)**

AGE (.566)** EXP (.638)**

**p < 0.01

Table 3.1은여러 가지 타자기록들과 로그 연봉의 상관계수 및 값을보여주는데, 제시된기록들은모 ᄃ

ᅮ 유의수준 1%에서 유의한 통계량들이다. 상관계수의 크기만을 보면 PA, AB, R, H, 2B, TB, RBI, BB 등과 같은고전적인 통계량들이 로그 연봉과 상관이 많이 있고, 보통타격에서 중요하게 간주하는 ᄐ

ᅡ율 및 세이버메트릭스 지표들이 상관관계가 다소 약하게 나타났다.

3.2. 회귀분석

KBO 타자들의 연봉에 영향을 미치는 경기력 요인들을 분석하기 위한 독립변수들은 타자들의 수행 펴

ᆼ가지표로는 PA, AB, R, H, 2B, 3B, HR, TB, RBI, SB, CS, BB, HBP, IBB, SO, GIDP, SH, SF, AVG, OBP, SLG, OPS, wOBA, WARS와 비수행 평가지표로는 YEAR, TEAM, AGE, AGE2, EXP 미

ᆾ FA를사용하였다. 사용된비수행 평가지표들에 대해 추가로 설명하면 나이의 제곱 (AGE2)는나이 ᄀ

ᅡ 많아지면 전성기를지나기 때문에 그런 가능성을 대비하기 위해 사용하였으며, 해당연도는간편 계 ᄉ

ᅡᆫ을위하여 YEAR-2000으로 계산하였다. 한편 팀의 종류에 해당하는변수들은삼성, 두산, 넥센, LG, KIA, 롯데, NC, KT, SK와 같은 모두 9개의 더미 변수들이며 간편성을위해 넥센에는전신이었던 현 ᄃ

ᅢ와 히어로즈 구단의 결과도 포함하였다. 이와 같은변수들이 고려된이유는구단의 종류에 따라 연봉 ᄌ

ᅵ급예산규모가 다르고 경험은 Figure 3.3과 선행연구를 통해서 연봉에 효과를 줄것으로 간주하였고, FA는 국내 FA시장에서 매년 역대 연봉협상 최고액을갱신하는계약들이 체결되는상황을 고려하였으 ᄂ

ᅡ 외국인 용병들은연봉산정에 주관적인 요소가 가미된 특수성이 있는관계로 분석에서는제외하였다.

ᅬ귀모형 설정 시 많은설명변수를사용하는것이 연봉에 대한 설명력은 높일 수 있으나 그 결과 너무 ᄇ

ᆨ잡한 모형이 되고 MLB의 선행연구에서도 모두 간편화된 연봉과 경기력의관계로 설명되므로 가능한 ᄒ

ᅡᆫ 적은개수의 설명변수를사용하여 모형을결정하는단계선택법을이용하였다. 그런데 결과는데이터 ᄋ

ᅴ 선택에 따라 독립변수의 선택 여부의 변화가 매우 심했다. 왜냐하면, 타격에 연관된변수들이 상관 과

ᆫ계도 크고, 또 15년 동안의 결과를이용하였기 때문에 매우 다양한 상황들이 포함된까닭으로 짐작되 ᄋ

ᅥᆻ으며 2335명의 데이터는유의성 검정의 민감도를크게 할 가능성이 크다. 따라서 10%에서 20% 사이 ᄋ

ᅴ 표본을 랜덤하게 선택하여 20번의 모형생성 작업을 하였는데, 20개의 회귀모형 중에서 똑같은모형 ᄋ

ᆫ한 번도 없었다. Table 3.2는 20개의 모형에서 독립변수로 채택된타자기록들의 빈도를보여준다.

ᅡ장 빈번하게 등장한 변수들은 20개 모형에 전부 나타난 EXP와 YEAR이며, 그다음 순서로 BB, FA, AGE2 등이다. 빈도수 상위 10개 변수를살펴보면 비수행지표로는 경험, 연도, 나이의 제곱, FA ᄋ

ᅧ부, 팀이 삼성 또는 SK여부가 중요하게 나타났으며, 수행지표로는안타, 볼넷, 타점, WAR가 중요하

(6)

Table 3.2 Frequency tables of batting statistics

Order Variables Count Order Variables Count

1 EXP 20 11 GIDP 5

1 YEAR 20 12 PA 5

3 BB 12 13 TB 5

4 FA 11 14 SF 4

5 AGE2 10 15 SO 4

5 SAMSUNG 10 16 IBB 3

7 SK 8 17 AGE 2

7 WAR 8 18 CS 2

9 H 7 19 HANWHA 2

10 RBI 6 20 KIA 2

ᅦ 나타났다. 타격지표로 중요할 것으로 예측할 수 있는 홈런, 타율, wOBA 및 OPS는 실제로 20개의 ᄆ

ᅩ형 결과에 단 한 번도 나타나지 않았다. 이 경우 주의할 해석은고려된세이버메트릭스 지표인 OPS, wOBA, WAR 중에서는 WAR가 가장 로그 연봉에 영향을크게 준다는의미이지 OPS 및 wOBA가 영 ᄒ

ᅣᆼ을 안 준다는해석은절대로 아니다. 실제로 Yilmaz 등 (2003)에서는 MLB에서의 연봉은 볼넷, 타 ᄌ

ᅥᆷ, 홈런의 영향이 가장 중요하다고 하였는데, KBO에서도 볼넷 및 타점은 MLB와 같게 나타났다.

Table 3.3은회귀모형의 안정적인 성과 개선을위해 Table 3.2에서 중요하게 나타난 상위 10개의 변 ᄉ

ᅮ와 AGE 변수를추가로 독립변수로 고려하여 추정한 전체 데이터에 대한 회귀모형 결과이다. 11개 ᄆ

ᅡᆫ을 이용한 것은 나머지 9개의 변수가 반드시 연봉에 대한 통계모형에 포함되는 연구결과가 없었기 ᄄ

ᅢ문이다. 모형설정은 단계선택법을 이용하였으며, 지면관계상 생략되었지만, 분산분석표 p값은 p <

0.001로 회귀직선은유의수준 1%에서 매우 유의한 것으로 나타났다. 또한, 11개의 변수 중 AGE만 탈 ᄅ

ᆨ하고 나머지 변수들은모두 유의수준 1%에서 유의하였는데, AGE가 탈락한 이유는아직은나이가 많 ᄋ

ᆫ선수들이 야구를하는경우가 많지 않은이유로 간주되며, 최근에는 은퇴를 늦게 하는선수들도 있으 ᄆ

ᅳ로 최근 5개년 데이터만을이용하면 AGE 변수가 유의하게 나오는것을확인할 수 있었다.

Table 3.3 Estimated regression model coefficients

Model Unstandardized Standardized t Sig. VIF

Coefficients Coefficients

B Std. Error Beta

(Constant) 7.281 .022 334.431 .000

EXP .046 .002 .237 19.805 .000 4.917

YEAR .024 .001 .137 25.082 .000 1.020

BB .007 .001 .168 12.285 .000 6.460

FA .540 .032 .094 16.769 .000 1.078

AGE2 .001 .000 .136 11.943 .000 4.470

SAMSUNG .160 .014 .061 11.111 .000 1.034

SK .052 .014 .020 3.604 .000 1.031

WARS .054 .006 .103 8.664 .000 4.856

H .006 .000 .339 21.468 .000 8.582

RBI .005 .001 .151 9.917 .000 7.990

보

ᆫ연구의 최종모형으로 제시되는 Table 3.3은 y축에 대한 이상치가 너무 많아서 스튜던트 제외잔차 (studentized deleted residual) ri의 절댓값이 2.2 이하가 되도록 일부관측치를삭제하여 다시 회귀모 혀

ᆼ을만든결과이며, 모형의 수정결정계수는 0.967로 매우 높게 나타났다. ri의 절댓값을 일반적인 수치 ᄋ

ᅵᆫ 2 대신 2.2와 비교한 것은 2를사용하면 너무 많은데이터가 이상치가 되었기 때문이다. 또한, 분산

(7)

화

ᆨ대요인 (VIF)의 값이 모두 10보다 작아서 다중공선성은없는것으로 나타났으며 지면관계상 생략되 ᄋ

ᅥᆻ지만, 오차항의 정규성, 등분산성, 독립성 문제도 모두 이상이 없었다. 회귀계수는 모두 양수여서 경 ᄒ

ᅥᆷ, 연도, 볼넷, 나이의 제곱, WARS,안타, 타점이 많고, FA에 해당하고, 해당 팀이 삼성, SK이면 높은 ᄋ

ᅧᆫ봉을받았던 것으로 나타났다. 또한, 표준화 회귀계수로부터 중요도가 높은상위 1위부터 5위는 순서 ᄃ

ᅢ로 H, EXP, BB, RBI, YEAR로 나타났다.

Table 3.4는시간의 흐름에 따라 어떤 타자들이 더 평가를잘 받는지 알기 위하여 연도를 2000년부터 2005년, 2006년부터 2010년, 2011년부터 2015년과 같이 3구간으로 나누어 독립변수들의 상대적 중요 ᄃ

ᅩ를표준화 회귀계수로 살펴본결과이다. 표준화 회귀계수의 비교가 의미 있으려면 회귀모형이 유의하 ᄀ

ᅩ 변수선택이 더 필요 없는상황이어야 하므로 연대별로 회귀모형은모두 각 독립변수가 유의하고 스튜 ᄃ

ᅥᆫ트 제외잔차의 절댓값이 2.2를초과하는데이터는모두 삭제하는 등 3가지 모형에 똑같은조건을사용 ᄒ

ᅡ여 설정하였다. Table 3.4에서 ***로 표시된 것은해당 변수가 유의하지 않았다는의미이다. 연대별 3개의 그룹사이에서 단연 1루타부터 홈런의 개수까지 전부 포함한 안타의 개수가 가장 영향이큰것으 ᄅ

ᅩ 표시되었으며, 그다음 순서로 경험, 볼넷 등의 순서로 나타났다. 2011년 이후에 나이의 영향이 커지 느

ᆫ것은이승엽 선수 등몇몇 해외 스타들이 귀국한 영향으로 간주되며, 팀의 종류로는삼성이 다른 팀 ᄃ

ᆯ에 비해 연대별 3개의 그룹모두 유의한 차이가 발생하였으며, SK는 2000년대 후반 팀의 전성기일 때 ᄃ

ᅡ른 팀과 차별이 발생하였다. 무엇보다도 바람직한 양상은타자의 진짜 실력에 가까운세이버메트릭스 ᄐ

ᆼ계량인 WAR의 중요도가 해를거듭할수록점점 더 커지고 있다는점인데 타자의 능력은단순안타 및 호

ᆷ런의 개수, 타율보다는선수들의 경기력과 공헌도를잘 설명하는세이버메트릭스 지수가 반영되는것 ᄋ

ᅵ 좀더 타당하다고 생각된다.

Table 3.4 Change of standardized coefficients by year

Variables Year

2000-2005 2006-2010 2011-2015

AGE *** .185 -.596

AGE2 .132 .185 .716

BB .220 .252 .136

EXP .271 .227 .195

FA .091 .109 .099

H .308 .288 .414

RBI .152 .172 .120

SAMSUNG .053 .071 .077

SK *** .044 ***

WARS .056 .065 .136

YEAR .077 *** .059

4. 결론 및 제언 ᄐ

ᅡ자들의 연봉은경기력에 의해 정해진다. 하지만 좋은경기력이라고 하더라도 특정 타자들의 연봉을 ᄋ

ᅨ측하기는 쉽지 않은 일인데 왜냐하면 타자가 속한 구단의 경제력, 팀의 인기도, 타자 개개인의 인기도 미

ᆾ 품성 등은야구팬들 입장에서는알기 힘든부분이며 이런 요인들도 야구 연봉에 영향을주기 때문이 ᄃ

ᅡ. 본연구에서는 2000년부터 2015년까지 타자들의 기록을바탕으로 한국프로야구에서 연봉에 영향을 ᄌ

ᅮ는객관적인 요인들을회귀모형을 통해 찾아보았다. 그 결과 선택되는표본에 따라 매우 다양한 타자 ᄀ

ᅵ록들이 독립변수로 채택되었으며 보다 객관적인 중요변수들을알아보기 위해 2,335개의 표본 중에서 이

ᆯ부 표본을선택하여 모형을생성하는반복실험을한 결과, 경험, 연도, 나이의 제곱,안타, WARS, 볼

(8)

ᅦᆺ, 타점, 팀의 종류, FA 여부와 같은변수들이 중요한 변수로 나타났다.

20개 모형 중에서 100% 등장하는 변수는 경험과 연도였으며, 10개의 변수를 이용하여 2000년부터 2015년까지의 전체경향을설명하는회귀모형에서는표준화 회귀계수의 크기로 보았을때, 가장큰영향 으

ᆯ주는변수는안타, 그다음은경험 등의 순서였다. 또한, 2000년 전반, 후반, 2010년 전반에 따른연 ᄃ

ᅩ의 변화를살펴본결과는여전히 안타의 개수가 가장 중요한 요인이었으며, 세이버메트릭스에서 중요 ᄒ

ᅡ게 생각하는 WAR는세월이 흐를수록점점 더 중요도가 커지고 있음을확인할 수 있었다. 이런 점은 ᄆ

ᅢ우 바람직한데 미래의 한국프로야구 타자들의 연봉은타자 자신의 기록에관한 결과로 정해지는것이 ᄐ

ᅡ당하며, WAR은타자들의 역량을객관적으로 설명할 수 있는 측도 중의 하나이기 때문이다.

보

ᆫ연구의 일차적인 목적은객관적인 연봉을결정하는데 도움을주고자 하는데 있으며 나아가 연구 ᄋ

ᅴ 결과가 한국프로야구 타자들의 연봉이 좀더 타당성이 보장되는평가 시스템으로 정해지는과정이 되 ᄋ

ᅥᆻ으면 하는 바람이다. 본 연구를수행하는 과정에서 몇 가지 한계점과 보완해야 할 부분은 아직도 야 ᄀ

ᅮ 데이터를 손쉽게 다룰 수 있는환경들이 아니어서 메이저 리그 연봉 연구에 등장하는누적 홈런 개 ᄉ

ᅮ, 누적 안타 개수 등과 같은수많은누적기록 등은다룰수 없었으며, 수많은이상점들에 대한 체계적 ᄋ

ᅵᆫ 대응도 부족했고 유능한 타자는 공격력도 좋아야 하지만 수비력도 고려하기 때문에 합리적인 연봉을 채

ᆨ정하기 위해서는타자의 수비력 역시 고려되어야 할 것이다. 이와 같은경우를고려한 보다 체계적이 ᄀ

ᅩ광범위한 연구는향후 연구과제로 남겨둔다.

References

Bollinger, C. and Hotchkiss, J. (2003). The upside potential of hiring risky workers: Evidence from the baseball industry. Journal of Labor Economics, 21, 923-944.

Hakes, J. and Sauer, R. (2006). An economic evaluation of the moneyball hypothesis. The Journal of Economic Perspectives, 20, 173-186.

Hakes, J. K. and Turner, C. (2011). Pay, productivity and aging in major league baseball. Journal of Productivity Analysis, 35, 61-74.

Hoaglin, D. and Velleman, P. (1995). A critical look at some analyses of major league baseball salaries.

The American Statistician, 49, 277-285.

Hong, C. S., Kim, J. Y. and Shin, D. S. (2016). Alternative hitting ability index for KBO. Journal of the Korean Data & Information Science Society, 27, 677-687.

Kim, E. S. (2002). The relationship of game performance and annual salary for Korean professional baseball pitchers. Journal of Korean Sociology of Sport , 15, 95-104.

Kim, H. J. (2012). Effects of on-base and slugging ability on run productivity in Korean professional baseball. Journal of the Korean Data & Information Science Society, 23, 1065-1074.

Lee, J. T. (2014). Measurements for hitting ability in the Korean pro- baseball. Journal of the Korean Data & Information Science Society, 25, 349-356.

Lee, J. T. (2017). Analysis of factors affecting Korean professional baseball pitcher salaries. Journal of the Korean Data & Information Science Society, 28, 317-326.

Lee, J. Y. and Kang, H. M. (2001). The relationship between annual salary and performance of Korean professional baseball pitchers. Journal of Korean Sociology of Sport , 14, 115-124.

Magel, R. and Hoffman, M. (2015). Predicting salaries of major league baseball players. International Journal of Sports Science, 5, 51-58.

Marburger, D. (1994). Bargaining power and the structure of salaries in major league baseball. Managerial and Decision Economics, 15, 433-441.

Myung, W. S. , Won, Y. S. and Lee, M. G. (2016). The study on the determinants of Korean professional baseball players’salaries using decision tree analysis. Journal of Sport and Leisure Studies, 65, 63-77.

Oh, K. M. and Lee, J. T. (2003). A model study on salaries of Korean pro baseball players using data mining. Journal of Korean Sociology of Sport , 16, 295-309.

Song, J. W. (2008). A multivariate analysis of Korean professional players salary. The Korean Journal of

Applied Statistics, 21, 441-453.

(9)

Seung, H. B. and Kang, K. H. (2012). A study on relationship between the performance of professional baseball players and annual salary. Journal of the Korean Data & Information Science Society, 23, 285-298.

Yilmaz, M. R. and Chatterjee, S. (2003). Salaries, performance, and owners’ goals in major league baseball:

A view through data. Journal of Managerial Issues, 15, 243-255.

(10)

2019, 30

(

6)

,

1375–1384

Determinant factors of Korean professional baseball hitter salaries

Jangtaek Lee

1

1Department of Applied Statistics, Dankook University

Received 29 July 2019, revised 21 August 2019, accepted 22 August 2019

Abstract

The purpose of this study is to examine some records attributed to Korean pro- fessional baseball hitters on annual salary using regression models. Hitter salaries are typically the largest cost for Korean professional baseball teams. Players often get high salary due to high level performance. By this reason, we investigate the fact that whether hitters are paid based on their the batting performance. The data includes a sample of Korean professional baseball hitters between 2000 to 2015 for salary and player statistics. Regression models of log salary against various combinations of in- dependent variables were examined. In conclusion, it was found that H, BB, RBI, experience, team indicators, age squared, WARS, FA and year were statistically signif- icant for log salary. The model presented here can be useful to reach an agreement on salary differences in Korean professional baseball.

Keywords: Hitter salary, Korean professional baseball, performance, regression model, WARS.

1

Professor, Department of Applied Statistics, Dankook University, Gyeonggi-do 448-701, Korea. E-mail:

[email protected]

수치

Figure 3.3 Log salaries by age and year of experience
Figure 3.3ᄋ ᅳ ᆫ ᄅ ᅩᄀ ᅳ ᄋ ᅧ ᆫᄇ ᅩ ᆼ ᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄂ ᅡᄋ ᅵᄇ ᅧ ᆯ ᄉ ᅡ ᆼᄌ ᅡ ᄀ ᅳᄅ ᅵ ᆷ (ᄋ ᅬ ᆫᄍ ᅩ ᆨ) ᄆ ᅵ ᆾ ᄀ ᅧ ᆼᄒ ᅥ ᆷᄋ ᅧ ᆫᄉ ᅮᄇ ᅧ ᆯ ᄉ ᅡ ᆼᄌ ᅡ ᄀ ᅳᄅ ᅵ ᆷ (ᄋ ᅩᄅ ᅳ ᆫᄍ ᅩ ᆨ)ᄋ ᅳ ᆯ ᄀ ᅡ ᆨᄀ ᅡ ᆨ ᄇ ᅩ ᄋ ᅧ준 ᄃ ᅡ
Table 3.3 Estimated regression model coefficients
Table 3.4ᄂ ᅳ ᆫ ᄉ ᅵᄀ ᅡ ᆫᄋ ᅴ ᄒ ᅳᄅ ᅳ ᆷ ᄋ ᅦ ᄄ ᅡᄅ ᅡ ᄋ ᅥᄄ ᅥ ᆫ ᄐ ᅡᄌ ᅡᄃ ᅳ ᆯ ᄋ ᅵ ᄃ ᅥ ᄑ ᅧ ᆼᄀ ᅡᄅ ᅳ ᆯ ᄌ ᅡ ᆯ ᄇ ᅡ ᆮᄂ ᅳ ᆫ ᄌ ᅵ ᄋ ᅡ ᆯᄀ ᅵ ᄋ ᅱᄒ ᅡᄋ ᅧ ᄋ ᅧ ᆫᄃ ᅩᄅ ᅳ ᆯ 2000ᄂ ᅧ ᆫᄇ ᅮᄐ ᅥ 2005녀 ᆫ, 2006녀 ᆫᄇ ᅮᄐ ᅥ 2010녀 ᆫ, 2011녀 ᆫᄇ ᅮᄐ ᅥ 2015녀 ᆫᄀ ᅪ 가 ᇀᄋ ᅵ 3ᄀ ᅮ가 ᆫᄋ ᅳᄅ ᅩ ᄂ ᅡᄂ ᅮᄋ ᅥ ᄃ

참조

관련 문서