• 검색 결과가 없습니다.

축구 경기 이벤트 단위 네트워크를 이용한 대한민국 축구 양식 측정

N/A
N/A
Protected

Academic year: 2021

Share "축구 경기 이벤트 단위 네트워크를 이용한 대한민국 축구 양식 측정"

Copied!
5
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

http://dx.doi.org/10.3938/NPSM.68.642

Korean Football Stylometry by Using the Football Events Networks

Young-Jai Park

· Dong Woo Kim · Seon Ho Nam · Young Jin Kim · Seung-Woo Son

Department of Applied Physics, Hanyang University, Ansan 15588, Korea (Received 20 February 2018 : revised 3 April 2018 : accepted 8 May 2018)

Web-casting text is a text broadcast service for sports games. Just by using the web-casting text, most of the content of the game is delivered. In this study, we make a word network by using 389,139 football game events from 344 matches of Korean national team and analyze the network through the stylometry. We cluster the events according to the location of their occurrence, and confirm that the frequency distribution of the events follows power law. We utilize the Word2Vec, a machine learning method for converting words to vectors, to measure the cosine similarity between the events and to understand the relation between the football game events. We construct two networks, one is a transition network that uses the event sequence and the other is a Word2Vec network that learns the data by using Word2Vec. We com- pare the results to show the significance of the Korean football style revealed in each of the networks.

PACS numbers: 89.75.-k, 89.75.Kd

Keywords: Football game events, Stylometry, Network

축구 경기 이벤트 단위 네트워크를 이용한 대한민국 축구 양식 측정

박영재

· 김동우 · 남선호 · 김영진 · 손승우

한양대학교 응용물리학과, 안산 15588, 대한민국

(2018년 2월 20일 받음, 2018년 4월 3일 수정본 받음, 2018년 5월 8일 게재 확정)

스포츠의 중계는 영상뿐만 아니라 문자로도 이루어진다. 문자 중계의 내용만으로도 축구 경기 대부분의 내용이 전달된다. 본 연구는 대한민국 국가대표 A 매치 344 경기에서 나타난 389,139 개의 축구 경기 이벤트를 이용하여, 네트워크를 만들고 양식측정학 (stylometry) 으로 비교해본다. 다양한 이벤트 내용을 발생 위치에 따라 군집화하고, 이벤트의 빈도 분포에서 보이는 멱함수 법칙 (power law) 이 성립하는 것을 확인한다. 단어를 벡터로 변환하는 기계학습 방법인 Word2Vec으로 축구 경기 이벤트를 학습하여 이벤트 사이의 코사인 유사도를 측정하고, 축구 경기 이벤트의 관계를 파악한다. 이벤트의 발생 순서를 이용한 전이 네트워크와 Word2Vec으로 학습한 네트워크를 서로 비교하고, 각 네트워크에서 드러난 대한민국 축구 양식을 살펴본다.

PACS numbers: 89.75.-k, 89.75.Kd

Keywords: 축구 경기 이벤트, 양식측정법, 네트워크

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

(2)

대한축구협회 (Korea football association, KFA) 는 축구 경기의 보급을 통해 국민 체육발전에 기여할 목적으로 설 립된 단체로, 대한민국 국가대표팀 A매치 경기의 내용들을 기록하고 있다. 대한축구협회로부터 제공받은 데이터는 총 344경기로 매 경기마다 경기 정보, 선수 정보, 그리고 축구 경기 이벤트 정보에 관한 총 16가지의 정보를 시간순으로 정리되어 있다.

소설과 같은 문학 작품에 있어서 작가와 작품의 특성은 자주 사용된 단어와 그 빈도수 분석에서 발견된다. 하버 드 대학의 조지 킹슬리 지프 교수가 미국 신문에서 특정 단어들의 빈도수가 특정 분포 (지수가 -1인 멱함수 분포) 를 따른다는 것을 발견하여, 이를 지프의 법칙 (Zipf’s law) 이라 한다 [3]. 지프의 법칙을 따르는 분포에서 머리 부분을 차지하고 있는 단어들은 문장의 구조를 만들어주는 단어이 며, 꼬리 부분에 위치한 단어들은 지나치게 자세한 내용을 수식하는 단어임이 알려져 있다 [4]. 지프의 법칙의 몸통 부분을 차지하는 단어들은 작가의 특성과 작품의 내용에 따라 달라지는데, 이로부터 작가의 특징을 정량적으로 분석 하는 방법을 양식측정법 (stylometry) 이라고 한다 [5]. 이러 한 측정 방법은 여러 언어권의 문학 작품에서뿐만 아니라 미술 작품, 역사 기록서, 그리고 대통령 연설 분석 등에서도 사용되어지고 있다 [4–7].

최근 연구에 따르면 기계학습 방법인 Word2Vec을 이용 하여, 단어를 연산 가능한 벡터로 나타낼 수 있다. 충분한 데이터의 학습 후 서로 비슷한 의미를 가진 단어들은 한 곳에 모이게 되고, 정반대의 의미를 가진 단어들은 벡터 공간의 반대 방향에 놓이게 되며, 서로 관련이 없는 단어 들은 그 벡터의 방향이 서로 직각을 이룬다 [8,9]. 단어를 벡터로 표현하면, 이들 사이의 관계를 정량적으로 표현할 수 있으며, 더 나아가 단어 의미망을 구성하여 네트워크 분석을 할 수 있다 [7].

본 연구는 축구 시계열 이벤트 내용이 문학 작품에서 나타 나는 멱함수 법칙들을 따름을 확인하고, 축구 경기 이벤트

E-mail: [email protected]

E-mail: [email protected]

Fig. 1. (Color online) Scatter plot of event location in KFA data. The left is our defense camp and the right is our attack camp. In order to reduce complexity, the field is divided into 15 zones.

빈도에서 나타난 지프 분포의 각 부분 특징을 살펴본다.

기계학습 방법인 Word2Vec을 이용하여 축구 이벤트를 벡 터로 변환하고, 이벤트들 사이의 코사인 유사도 측정을 통 해 축구 이벤트의 의미를 파악한다. 이벤트의 발생 순서를 이용한 전이 네트워크와 기계학습 방법인 Word2Vec으로 학습한 네트워크를 만들어 서로 비교하고, 각 네트워크에서 드러난 대한민국 축구 양식을 살펴본다.

II. 축구 경기 데이터

KFA로부터 제공받은 축구 경기 데이터는 대한민국 국 가대표팀의 A매치 경기 데이터로 1986년 멕시코 월드컵의 조별 예선 불가리아전부터 2018년 러시아 월드컵 아시아 지역 3차 예선 우즈베키스탄전까지 대략 30년동안의 총 344 경기에 대한 기록이다. 대한민국 남자국가대표팀 301 경기, 대한민국 여자국가대표팀 43 경기의 내용이 기록되어 있으며, 경기당 이벤트 발생은 여자국가대표팀의 경우가 남

(3)

Fig. 2. (Color online) FFootball event distributions fol- low Zipf’s law in the range [20, 2000]. The exponent α is about -1.1 in the range.

자국가대표팀의 경우보다 더 많음을 확인할 수 있다 (Table 1). Fig. 1은 모든 경기에서 발생 위치를 표기한 것이며, 코너킥 지점, 골킥 지점, 킥오프 지점에 이벤트 분포가 집중 되어 있음을 알 수 있다. 상대적으로 중앙보다 측면에서의 이벤트 분포가 집중되어 있다는 것으로 비추어 볼 때, 중앙 공격보다 측면에서의 전개가 더 활발함을 알 수 있다. 특히, 데이터의 분포에서 축구장의 선에서만 유독 이벤트가 적음 을 알 수 있다 (Fig. 1). 이는 선수들이 가급적 경기장 내의 선을 밟지 않으려는 것을 추측해 볼 수 있다.

데이터 정의서에 의해 리그명, 경기장명, 선수명, 이벤트 명 등의 16종류 데이터와 각 데이터에 대해 46종류의 이벤 트로 분류되어 있다 [10]. 기계학습을 위해서는 반복되는 사건이 등장해야 하므로 지나치게 자세한 내용은 의미를 주기 힘들다. 우리는 사건에 기록되어 있는 위치를 그룹화 (본 연구에서는 5×3 구역화, Fig.1참고) 하여 재정의 하고, 축구에서의 단어를 3 가지의 데이터 조합 (이벤트, 위치, 그리고 성공유무) 으로 결합된 단어로 정의하였다. 예를 들어, ‘손흥민 선수가 후반 9분 10초에 페널티 지역 안쪽 상단부에서 유효슈팅을 했고, 그 유효슈팅이 성공함’ 이라 는 데이터를 다음과 같이 이벤트, 성공유무, 그리고 발생 위치만을 이용하여 ‘유효슈팅S15’ 라 표시한다.

III. 축구 경기 속 경험적 법칙

지프의 법칙 (Zipf’s law) 은 하버드 대학의 조지 킹슬리 지프 교수가 발견하였으며, 미국 신문에서 특정 단어들의 분포가 멱함수 분포를 따르고 그 멱함수의 지수가 −1 인

Fig. 3. (Color online) Heaps-law plot in football events follows power law distribution. The exponent λ is about 0.9.

경험적 법칙이다. 이후 다른 연구들로부터 문학작품뿐만 아니라 다양한 예술, 문화 작품들에서도 순위 r-빈도 Z(r) 분포는 멱함수 분포를 따른다는 것이 알려져 있다 [4].

Z(r)∼ r−α. (1)

힙스의 법칙 (Heaps’ law) 은 주로 언어학에서 문서의 길 이 t 가 늘어남에 따른 서로 다른 단어의 수 N (t) 증감이 멱함수 분포를 따르는 것을 말하며, 허던의 법칙 (Herdan’s law) 과 같은 법칙이다.

N (t)∼ tλ. (2)

지프의 법칙과 힙스의 법칙 사이의 지수값 (α, λ) 은 다음 과 같은 관계를 가지고 있다 [4].

λ = 1

α. (3)

지프 분포에서, 높은 빈도의 단어들은 문장의 구조를 이 루는 단어들이 위치하며, 낮은 빈도의 단어들은 문서 내에 자주 쓰이지 않은 고유명사, 외국어 등이 분포한다는 것이 알려져 있다 [4]. 축구 이벤트에서도 이러한 지프 분포를 찾을 수 있었으며, 지프 지수 α 가 -1.1를 가짐을 확인하였 다 (Fig. 2). 이는 축구 경기 내에 쓰이는 단어의 종류가 일반 문학 작품들에 비해 적음을 나타낸다. 축구에서의 지프분포의 앞부분에는 축구 경기의 구조를 이루는 패스, 볼터치 등이 위치했으며, 뒷부분에서는 태클, 실책, 퇴장 등의 한 경기에서 자주 등장하지 않는 사건들이 위치함을 알 수 있었다. 축구 이벤트 내에서 힙스 분포도 확인하였으며,

(4)

Fig. 4. (Color online) Two football events networks (a) a transition network and (b) a Word2Vec network, where a football event word is a node and a link is a word-to-word relationship. The red part shows events related to the attack, the blue part shows the part related to defense, the yellow part shows events related to distribution, and the black part shows other events.

Table 2. Top 10 synonyms for score success and save fail- ure after Word2Vec machine learning. S/F means suc- cess and failure, and the number indicates the location of the zone.

Rank Goal success (zone 14) Save failure (zone 2) 1 Goal post S14 Block F2

2 Penalty kick S14 Goal line out S2 3 Effective Shooting S14 Super Save F2

4 Crossbar S14 Aerial ball pass block F2 5 Assist S8 Tackle (negative) F2 6 Kill Pass S7 Tackle (positive) F2

7 Get PK S14 Foul S2

8 Assist S13 Clear (negative) F2 9 Assist S12 Contention F2 10 Assist S10 Super Save S2

비교적 적은 데이터 수로 인해 그 분포가 일정하지 못함을 보이지만 앞부분에서 멱함수 분포를 따르는 것을 확인하였 다 (Fig. 3). 이때, 힙스 지수 λ 는 대략 0.9로 나타났으며, 식 (3) 을 만족함을 알 수 있다.

IV. 전이 네트워크와 Word2Vec 네트워크

각 네트워크의 시각화를 위해 이벤트 단어별로 공격 (빨 간색), 수비 (파란색), 전개 (노란색), 기타 (검정색) 으로 분류하고, 각각 20개의 상위 빈도 단어들을 추출하여 1,000

개의 연결선 제한을 준 가중치가 있는 네트워크를 나타내었 다 (Fig.4). 전이 네트워크 (Fig.4(a)) 는 앞서 정의한대로 변환한 축구 경기 이벤트 단어를 노드로 하고, 시간에 따라 연속하여 발생된 두 단어 wi와 wj 사이의 빈도를 가중치로 하는 선을 연결하여 만든 네트워크이다. 전이 네트워크에 서는 대한민국 국가대표팀, 남자국가대표팀, 여자국가대표 팀에 따른 차이없이, 공격방향 기준으로 우측과 중원에서의 볼터치 및 패스 단어 사이의 굵은 연결선들이 공통적으로 나타난다. 앞서 살펴본 Fig.1과 크게 다르지 않는 결과라는 것을 알 수 있다.

Word2Vec 네트워크 (Fig.4(b)) 는 전이 네트워크와 같이 축구 이벤트 단어를 노드로 하지만, 모든 두 단어 wi와 wj

사이의 코사인 유사도를 가중치로 가지는 선을 이용한 네트 워크이다. 코사인 유사도를 이용하여 학습된 벡터 사이의 의미 유사도를 측정할 수 있으며, 이를 이용하여 Word2Vec 으로 학습한 벡터로 축구 경기 이벤트 단어의 의미를 파악 할 수 있다. Table 2에서 ‘골인S14’ 와 ‘선방F2’ 의 유의어 상위 10개씩을 각각 정리하였다. ‘골인S14’ 의 유의어로는 중원에서의 어시스트 성공이나 패널티 지역에서의 공격적 인 이벤트들의 성공과 관련된 단어들이 나타났으며, ‘선방 F2’ 의 유의어로는 2 구역에서의 태클이나 파울, 경합등의 단어들이 분포함을 알 수 있다.

Word2Vec 네트워크는 전이 네트워크와는 다른 양상을 보인다. 남자국가대표팀 (Fig. 5(b)) 은 여자국가대표팀 (Fig.5(c)) 에 비해 공격 단어 사이의 연결선이 많이 부족한

(5)

Fig. 5. (Color online) Word2Vec networks are (a) Korean national football team events, (b) the male national football team events and (c) the female national football team events. The number of links between attack points in the male national football team is less than that of the female team.

네트워크로 표현되었다. 이는 상대적으로 여자국가대표 팀의 경기는 남자국가대표팀의 경기에 비해 많은 득점이 나오는 이유를 설명할 수 있다.

V. 토 의

대한민국 축구 국가대표 A매치 데이터를 이용하여 축구 경기 양식 측정을 하였다. 축구 경기 이벤트의 정보 중 일 부만을 사용하여 축구 경기 이벤트 단어를 만들어 지프의 법칙 및 힙스의 법칙을 살펴보았으며, 축구 이벤트에서 법 칙의 의미와 두 법칙 사이의 지수 관계를 만족함을 보였다.

Word2Vec으로 축구 경기 이벤트 단어들을 학습하고, 특정 이벤트 단어의 유의어를 통해 단어 사이의 관계를 살펴보았 다. 두 가지의 서로 다른 축구 경기 이벤트 단어 네트워크를 만들고, 두 네트워크에서 나타난 특징을 비교하였다. 축구 경기에서 이벤트 단어를 구성하고 양식측정법으로 네트워 크 분석하는 것으로 대한민국 축구 경기의 양식을 볼 수 있었다. 양식측정법을 이용한 분석 방법은 축구뿐만 아니라 스포츠 경기를 바라보는 새로운 분석 방법이 될 수 있다.

감사의 글

이 논문은 2017년도 정부 (교육부) 의 재원으로 한국연 구재단의 지원을 받아 수행된 기초연구사업입니다 (NRF- 2017R1D1A1B03032864).

REFERENCES

[1] D. A. Sadlier and N. E. O’Connor, IEEE TCSVT 15, 1225 (2005).

[2] S. Lee, I. Hong and W.-S. Jung, New Phys.: Sae Mulli 65, 402 (2015).

[3] P. Bak, How Nature Works: The Science of Self- Organized Criticality (Copernicus, New York, 1996), p. 26.

[4] C. Bian, R. Lin, X. Zhang, Q. D. Y. Ma and P. CH.

Ivanov, Europhys. Lett. 113, 18002 (2016).

[5] D. Kim, S.-W. Son and H. Jeong, Sci. Rep. 4, 7370 (2014).

[6] B. Lee, D. Kim and H. Jeong, New Phys.: Sae Mulli 66, 502 (2016).

[7] Y.-J. Park, Y.-B. Kim, S.-Y. Jeong, Y. J. Kim and S.-W Son, New Phys.: Sae Mulli 67, 569 (2017).

[8] T. Mikolov, K. Chen, G. Corrado and J. Dean, arXiv:1301.3781v3 (2013).

[9] X. Rong, arXiv:1411.2738v4 (2016).

[10] Visual sports, http://www.visualsports.co.kr (ac- cessed May. 8, 2017).

수치

Fig. 1. (Color online) Scatter plot of event location in KFA data. The left is our defense camp and the right is our attack camp
Fig. 2. (Color online) FFootball event distributions fol- fol-low Zipf’s law in the range [20, 2000]
Fig. 4. (Color online) Two football events networks (a) a transition network and (b) a Word2Vec network, where a football event word is a node and a link is a word-to-word relationship
Fig. 5. (Color online) Word2Vec networks are (a) Korean national football team events, (b) the male national football team events and (c) the female national football team events

참조

관련 문서

순수입국인 우리 경제의 특징을 반영해서인지, 국제유가의 상승 충격에 대해 우리나라 GDP 대비 주식자본의 순유입 비율은 단 1분기 만에 원래 경로로부터 1%p 가까이

[r]

 정신물리학(psychophysics) = 자극과 심리적 감각 사이의 관계를 양적으로 측정.

즉 , 이벤트 처리용 리스너 클래스 작성시 리스너 인터페이스 를 이용한 것이 아니라, 어댑터 클래스를 이용함으로써 불필 요한 코드를 줄일 수

– mouseover 이벤트와 mouseenter 이벤트의 차이를 보여줌 – mouseover는, 내부 태그로 들어가도 발생함. 

팔로어 중심 패러다임은 팔로어를 수동적 소극적 역할을 하는 존재가 아니라 리더십 효과성 및 성과에 중요한 영향을 미치는 파트너로 보는 패러다임..

④ 상호작용적 의존 스포츠 (interactively dependent sport): 성원이 집단 효율성의 향상을 위하여 상호간에 의존 관계를 유지하는 스포츠로서 단체 구기 경기.. 스포츠

운동강도와 양을 체계적으로 변화시켜