• 검색 결과가 없습니다.

관측값 및 자료구조의 표현 방법 논문보기 | 통계개발원

N/A
N/A
Protected

Academic year: 2021

Share "관측값 및 자료구조의 표현 방법 논문보기 | 통계개발원"

Copied!
16
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

관측값 및 자료구조의 표현 방법

1)

최정배

2)

․ 김주성

3) 요약 통계자료 분석은 분석대상의 모집단을 선정하여 실험계획을 하고 분석이론을 정립한 후 관측된 자료를 정립된 이론에 대입하여 그 결과를 해석하는 과정이다. 이 과정의 첫 번째 단계인 실험 계획은 각각의 관측값을 기호로 표시하고 그들의 전체 집합을 자료구조로 표현한다. 그런데 각 각의 관측값 및 자료구조를 표현하는 방법이 정형화되어 있지 않는 관계로 실험계획자나 이용자 모두가 혼란이 초래되고 있는 실정이다. 본 연구는 관측값을 변량의 번호, 인자수준 조합 및 반 복 번호에 의해서 표현하고, 자료구조는 행렬을 기반으로 하여 표현하는 방법을 제시한다. 주요용어 : 변량, 인자, 인자수준 조합, 관측값, 자료구조

1. 서론

과거에는 소량의 자료로부터 모집단에 대한 추론을 하였으나 현재는 각 분야에서 빅 데이터(대용량 자료)을 이용하여 각종 정보를 유추하고 그 결과를 이용하여 의사 결정을 한다. IT의 발전으로 빅 데이터를 처리할 수 있는 기술은 발전하였으나 그에 상응할 만큼의 통계분석 방법이 새롭게 개발된 것은 아니다. 어떠한 통계분석 방법이든지 시발점은 실험계획인데 이때 확률변수인 관측값과 이 들의 집합인 자료구조를 명시한다. 그런데 관측값 및 자료구조의 표현방법이 정형화 되어있지 않기 때문에 연구자나 연구결과를 이용하는 사람들의 혼란이 야기되고 있는 실정이다. 특히, 배우는 학생들은 무원칙적인 표현방법에 적응하기 곤란하다. 소량의 자료를 다루던 시기에는 관습적으로 관측값 및 자료구조의 표현방법이 통 용되었으나 빅 데이터를 다루는 현실에서는 과학적이고 체계적인 표현방법이 절실히 요구된다. 제 2장에서는 관측값을 변량의 번호, 인자수준 조합 및 반복 번호(관측 번호)에 의 해서 표현하는 방법을 제시하고, 제 3장에서는 자료의 명명법과 행렬을 기반으로 하는 자료구조의 표현 방법을 제시하며, 마지막 장에서는 연구결과를 요약한다. 1) 이 논문은 2015년도 충북대학교 학술연구지원사업의 교내연구비 지원에 의하여 연구되었음. 2) 충북 청주시 상당구 남일면 335-1호, 공군사관학교 기초과학과, 명예교수. E-mail: jbchoi720@ gmail.com 3) 교신저자: 충북 청주시 서원구 충대로 1, 충북대학교 정보통계학과, 교수. E-mail: kimjs@chungbuk. ac.kr

(2)

2. 관측값의 표현 방법

기존의 실험계획에서는 관측값을 자료의 성격에 따라 문자 및 문자의 첨자를 달리 하여 표현하였다.

구체적인 예로 첨자의 나열이 1234로 표기되었던 관측값들을 살펴보자. 우선, 단변 량 자료구조에서 관측값의 표현 방법은 박성현(2003), 송문섭, 박창순, 이홍기(2015), 송문섭, 조신섭(2015), Cochran and Cox(1957), Hicks(1973), Montgomery(1976) 등이 제시하였으나 대동소이하므로 대표적으로 박성현(2003)의 표현 방법을 열거하면 다음 과 같다. 첫 번째, 하나의 모집단의 자료구조, 즉, 인자가 하나이고 인자수준이 하나인 자료 구조에서 관측값을 대문자  에 첨자는 반복 번호만으로 나타내기 때문에 는 1234번째 관측값이다. 두 번째, 두 개의 모집단의 자료구조, 즉, 인자가 하나이고 인자수준이 두 개(인자 수준1, 인자수준2)인 자료구조에서 인자수준1(첫 번째 모집단)의 관측값을 대문자  에 첨자는 반복 번호만을 나타내기 때문에 는 인자수준1의 1234번째 관측값이고, 인자수준2(두 번째 모집단)의 관측값을 대문자  에 첨자는 반복 번호만을 나타내기 때문에 는 인자수준2의 1234번째 관측값이다. 세 번째, 일원배치법의 자료구조, 즉, 인자가 하나이고 인자수준이 3개 이상인 자 료구조에서 관측값을 소문자 에 첨자의 앞부분은 수준 번호, 뒷부분은 반복 번호를 나타내기 때문에는 1번째 수준에서 234번째 관측값이거나 12번째 수준에서 34번 째 관측값이거나 또는 123번째 수준에서 4번째 관측값이다. 네 번째, 이원배치법의 자료구조, 즉, 인자가 2개인 자료구조에서 관측값을 소문자 에 첨자의 앞부분은 인자수준 조합, 뒷부분은 반복 번호를 나타내기 때문에 는 인자1의 1번째 수준과 인자2의 2번째 수준조합에서 34번째 관측값이거나 인자1의 1번 째 수준과 인자2의 23번째 수준조합에서 4번째 관측값이거나 또는 인자1의 12번째 수 준과 인자2의 3번째 수준조합에서 4번째 관측값이다. 다섯 번째, 삼원배치법의 자료구조, 즉, 인자가 3개인 자료구조에서 관측값을 소문 자 에 첨자의 앞부분은 인자수준 조합, 뒷부분은 반복 번호를 나타내기 때문에  는 인자1의 1번째 수준, 인자2의 2번째 수준 및 인자3의 3번째 수준의 수준조합에서 4번째 관측값이다. 여섯 번째, 반복이 없는 사원배치법의 자료구조, 즉, 인자가 4개이고 실험의 반복 이 없는 자료구조에서 관측값을 소문자 에 첨자는 인자수준 조합만을 나타내기 때 문에 는 인자1의 1번째 수준, 인자2의 2번째 수준, 인자3의 3번째 수준 및 인자4 의 4번째 수준의 수준조합에서 관측값이다. 다음으로 다변량(변량, 변량, ⋯, 변량,  ≥ ) 자료구조에서 관측값의 표현 방 법도 정강모, 김명근(2013), Andersn(1958), James Press(1982). Johnson and Wichern (1992), Srivastava and Khatri(1979) 등이 제시하였으나 대동소이하므로 대표적으로 정강모 외(2013)의 표현 방법을 열거하면 다음과 같다.

(3)

첫 번째, 다변량 일원배치법에서 관측값을 소문자 에 첨자의 첫 부분은 변량 번 호, 두 번째 부분은 인자수준 번호, 세 번째 부분은 반복 번호를 나타내기 때문에, 는 변량1을 2번째 수준에서 34번째 관측값이거나 변량1을 23번째 수준에서 4번째 관측값이거나 또는 변량을 3번째 수준에서 4번째 관측값이다. 두 번째, 다변량 이원배치법에서 관측값을 소문자 에 첨자의 첫 부분은 변량 번 호, 두 번째 부분은 인자수준 조합, 세 번째는 반복 번호를 나타내기 때문에, 는 변량1을 인자1의 2번째 수준과 인자2의 3번째 수준조합에서 4번째 관측값이다. 위의 예에서 보면 문자로는   및   와 첨자로는 1234를 사용하여 서로 다른 15개의 관측값들을 표현했기 때문에 동일하게 표현되는 경우가 허다하다. 만약에 하 나의 문자만 사용했다면 서로 다른 15개의 관측값들을 한가지로 표현해야한다. 이때 15개의 관측값들을 구별하기 위해서는 첨자 1234를 서로 다르게 배열해야 한다. 그래서 관측값을 표현하는 문자는 동일하게하고 첨자를 배열하는 정형화된 원칙이 필요하다. 본 연구에서 관측값은 대문자  와 첨자는 변량의 번호, 인자수준 조합(또는 인자 수준 번호) 및 반복 번호를 차례대로 배열하여 표현한다. 1회의 실험에서 관측되는 변 량의 개수는 개(변량1, ⋯, 변량)이고 인자의 개수는 개(인자1, ⋯, 인자)이며  ≤  ≤ 에 대해서 인자의 수준 수는 ≥ 개라 한다. 그러면 총 실험조건의 수 인 인자수준 조합의 개수는 × ×⋯× 개인데  ≤  ≤   ≤ ≤ 에 대해서 점(dot)으로 구분된 개 숫자의 나열  ⋯  을 인자수준 조합으로 표기하고,  ⋯   인자수준 조합에서 반복수(관측 횟수)를  ⋯ ≥ 라 하자. 그러면  ≤  ≤   ≤  ≤   ≤ ≤   ≤  ≤ ⋯  에 대해서 변량의  ⋯  인자수준 조합에서 번 째 관측값을    ⋯   (2.1) 으로 표현하고, 개 변량들의  ⋯  인자수준 조합에서 번 째 관측벡터(확률 행벡 터)를   ⋯  ≡    ⋯  ⋯   ⋯   (2.2) 으로 표기하는 것을 원칙으로 한다. 식 (2.1)에서 보면, 관측값은  의 첨자에 두 개의 쉼표로 구분하여 배열하는데 첫 번째 숫자는 변량의 번호이고 두 번째의 점으로 구분 된 숫자의 나열은 인자수준 조합이며 세 번째 숫자는 반복 번호를 의미한다. 그러면 변량 자료구조에서 어떠한 관측값도 명확하게 표기가 가능하고, 특히 인자수준 조합 을 보면 인자의 개수를 알 수 있다. 그러나 자료구조에서 모든 관측값에 동일하게 표 기되는 숫자는 편의상 생략하여 간소하게 표현한다. 관측벡터(확률벡터)는 일반적으로 열벡터로 표기해야하나 지금까지 다변량 자료구조에서 관례상 행벡터로 표기해왔기

(4)

때문에 변량 자료구조의  ⋯  인자수준 조합에서 번 째 관측벡터는 식 (2.2)와 같이 행벡터로 표현한다. 관측값 및 관측벡터의 표현은 다음 절에서 자료와 자료구조 에 더해서 구체적으로 상세히 다룬다.

3. 자료 구조의 표현 방법

변량의 수가 , 인자의 수가 , 인자수준 조합의 수가 × ×⋯×  일 때 각 인자수준 조합에서 실험할 때 모든 관측값들의 집합을   × ×⋯×  자료라 한다. 이를 세분화하면 자료의 명칭은 다음의 <표 3.1>과 같이 분류된다. <표 3.1> 자료의 분류 인자 1 2 ⋯  수준의 수 변량  ×  ⋯ × ×⋯×  1      ×  ⋯   × ×⋯×  2      ×  ⋯   × ×⋯×  ⋮ ⋮ ⋮ ⋱ ⋮       ×  ⋯   × ×⋯×  그런데   × ×⋯×  자료라 하면 각각의 관측값이 표기되지 않음으로서 자료가 어떤 구조인지 명확히 알 수 없다. 그래서   × ×⋯×  자료에서 구체적으로 모든 관측값들을 표기한 배열을   × ×⋯×  자료구조라 한다. 자료구조의 형태는 행렬의 표현법을 기반으로 하여 표현하는데 단변량   자 료구조와 다변량 ≥  자료구조로 분리하여 지금까지 흔히 상용되어 왔던 표현 방 법을 표준화 하고자 한다. 3.1 단변량 자료구조 단변량 자료구조는 일반적인   × ×⋯×  자료구조에서   이므로 관 측값을 식 (2.1)에 의하여    ⋯  으로 표현하는 것이 원칙이나 모든 관측값의 첫 번째 첨자가 이므로 편의상 생략하고  ⋯  으로 표현한다. 역으로, 관측값의 표 현에서  의 첨자에 쉼표가 하나만 있으며 단변량 자료구조에서 관측값이다. 그러면   × ×⋯×  자료구조는 과 × ×⋯×  에 따라 분류된다.

(5)

3.1.1   ≥  자료 구조 단변량-일인자 자료구조는 인자의 수준 수 에 따라 다음과 같이 분류된다. 3.1.1.1    자료구조 단변량-일인자/일수준 자료구조는 가장 간단한 자료구조로서 반복횟수가 인 경우 편의상 다음의 <표 3.2>와 같이 표현한다. <표 3.2>    (편의상)자료구조 인자 수 인자수준 자료 구조   ⋯ 지금까지는   자료구조를 <표 3.2>와 다르게 표현하였는데 박성현(2003)은 다음의 <표 3.3>과 같이 표현하였다. <표 3.3>    (기존의)자료구조 인자 수 인자수준 자료 구조   ⋯ <표 3.3>에서 관측값의 표현이  의 첨자에 쉼표(,)가 없이 숫자만 표기되면 변량 이 1개, 인자가 1개이고 인자수준이 1개인    자료구조이고 첨자의 숫자는 반복 번호를 나타낸다. 3.1.1.2    자료구조 단변량-일인자/이수준 자료구조는 편의상 다음의 <표 3.4>와 같이 표현한다. <표 3.4>    (편의상)자료구조 인자 수 인자수준 자료 구조    ⋯  ⋯  <표 3.4>에서 관측값의 표현이  의 첨자에 쉼표(,)가 하나만 있고 첫 번째 숫자가 오직 2개로 1또는 2뿐이면 변량이 1개, 인자가1개이고 인자수준 수가 2개인    자료구조이고 첫 번째 숫자는 인자수준을, 두 번째 숫자는 반복 번호를 나타낸다. 지금까지는    자료구조를 <표 3.4>와 다르게 인자수준에 따라 다른 변수를 도입하였는데 박성현(2003)은 다음의 <표 3.5>와 같이 표현하였다.

(6)

<표 3.5>    (기존의)자료구조 인자 수 인자수준 자료 구조    ⋯  ⋯  <표 3.5>에서 보면 관측값의 인자수준을 문자가 나타내고 첨자는 반복번호를 나 타내다.    자료구조를 두(개의) 모집단에 대한 자료구조 또는 2표본 자료구조 등으로 표현한다. 3.1.1.3   ≥  자료구조 단변량-일인자/다수준 자료구조는 편의상 다음의 <표 3.6>과 같이 표현한다. <표 3.6>   ≥  (편의상) 자료구조 인자 수 인자수준 자료 구조    ⋮  ⋯ ⋯  ⋮ ⋯ <표 3.6>의   ≥ 자료구조는    자료구조,   자료구조의 일반화 로 관측값의 표현이  의 첨자에 쉼표(,)가 하나있으며 첫 번째 숫자는 인자수준을 나 타내고 두 번째 숫자는 반복 번호를 나타낸다. 그리고 관측값들을 행렬의 나열법에 의거하여 우선 행에 따라 인자수준을 표기하고 각 인자수준에서 열에 따라 반복 번호 를 표기하여 행렬의 구조와 유사하기 때문에 인지하기 용이하다. 지금까지는   ≥ 자료구조를 <표 3.6>과 다르게 표현하였는데 박성현 (2003)은 다음의 <표 3.7>와 같이 표현하였다. <표 3.7>   ≥  (기존의) 자료구조 인자의 수준   ⋯  실험의 반 복   ⋯    ⋯  ⋮ ⋮ ⋮   ⋯   <표 3.7>과 <표 3.6>에서  와  을 비교해보면 공히 번째 인자수준에서 번

(7)

째 관측값을 나타내지만  는 소문자로서 확률변수인지 명확하지 않고 자료구조를 행렬의 관점에서 보면 번째 행과 번째 열의 원소인 반면에,  는 대문자로서 확 률변수를 나타내고 자료구조를 행렬의 관점에서 보면 번째 행과 번째 열의 원소이 므로 행렬과 연관하여 인지하기가 매우 용이하다. 다시 말하면 인자가 하나일 때 인 자수준을 지금까지는 열에 따라 배치하였으나 본 논문에서는 <표 3.6>과 같이 행에 따라 배치할 것을 제안한다. 그 이유는 인자수준이 먼저 정해진 후 그 인자수준에서 반복하여 실험하기 때문에 (인자수준 번호, 반복 번호)로 생각하면 행렬에서 (행 번호, 열 번호)와 연관하여 파악하기 용이하며 또한 인자수를 ≥ 개로 증가시킬 때에도 쉽게 일반화된다.   ≥ 자료구조를 통칭하여 흔히 1원 배치법으로 표현하는데 세분해서 보 면  ≤  ≤ 에 대해서   이면 반복이 없는 1원 배치법,  ≥  이면 반 복수가 인 1원 배치법,  중에서 하나라도 다르면 반복수가 다른 1원 배치법 이라 한다. 가장 자주 사용되는   ≥  자료구조에 대해서 종합해보면 기존에는   ,   ,   ≥ 으로 확장하면서 <표 3.3>, <표 3.5>, <표 3.7>으로 표현하여 문자, 첨자 및 자료구조에서 일관성이 없었으나, 본 논문에서 제안한 <표 3.2>, <표 3.4>, <표 3.6>으로 표현하면 문자, 첨자 및 자료구조에서 일반성을 잃지 않는다. 여 기서 중요한 점은 우선   ≥  자료구조는 <표 3.6>으로 표현한다는 전제하에 서 특별한 경우로서    자료구조는 <표 3.5>으로 표현하고    자료구조도 <표 3.2>에서 ⋯으로 대체하여 표현할 수 있다. 3.1.2   ×  자료 구조 단변량-이인자 자료구조는 흔히 인자의 수준이 ≥  ≥ 경우가 사용되는데 이때도 변량이 하나이므로 변량에 대한 첨자는 생략하고 인자수준 조합과 반복 번호 만으로 편의상 다음의 <표 3.8>과 같이 표현한다. <표 3.8>   ×  (편의상)자료 구조 인자 인자   ⋯   ⋯ ⋯ ⋯ ⋯  ⋯ ⋯ ⋯  ⋯  ⋮ ⋮ ⋮ ⋱ ⋮  ⋯ ⋯ ⋯  ⋯ <표 3.8>에서 인자수준 조합의 첨자 표기방법은 행렬의 개념을 도입하였고 반복 횟수도 마찬가지이다. 즉, 인자1을 행에 배치하고 인자2를 열에 배치하여 인자조합을

(8)

구성하면 관측값이 어떤 인자조합에서 관측되었는지를 쉽게 파악할 수 있다. 예를 들면 첨자가 1234인 관측값이    ×  자료구조에서 관측값이면   로 표현되어야하고 이는 인자1의 1번째 인자수준과 인자2의 2번째 인자수준 조합에서 34번째 관측값이므로 1번째 행과 2번째 열에서 34번째에 표기된다. 지금까지는   ×  자료구조를 다르게 표현하였는데 박성현(2003)은 다음 의 <표 3.9>과 같이 표현하였다. <표 3.9>   ×  (기존의)자료 구조 인자 인자   ⋯   ⋯ ⋯ ⋯ ⋯  ⋯  ⋯ ⋯ ⋯ ⋮ ⋮ ⋮ ⋱ ⋮  ⋯  ⋯ ⋯  ⋯ <표 3.9>과 <표 3.8>에서  과  을 비교해보면 공히 인자1의 번째 수준과 인자2의 번째 수준의 수준조합에서 번째 관측값을 나타내지만 는 소문자로서 확률변수인지 의문이고 자료구조를 행렬의 관점에서 보면 번째 행과 번째 열의 원소들 중에서 번째 관측값인 반면에,  는 대문자로서 확률변수를 나타내고 자 료구조를 행렬의 관점에서 보면 번째 행과 번째 열의 원소들 중에서 번째 관측 값이므로 행렬과 연관하여 인지하기가 매우 용이하다. 다시 말하면 인자가 두개일 때 지금까지는 인자1을 열에 배치하고 인자2를 행에 배치였으나 본 논문에서는 인자1을 행에 배치하고 인자2를 열에 배치할 것을 제안한 다. 그 이유는 인자조합이 먼저 정해진 후 그 인자조합에서 반복하여 실험하기 때문 에 인자조합을 (인자1의 수준번호.인자2의 수준번호)로 생각하면 행렬에서 (행 번호, 열 번호)와 연관하여 인자수준 조합을 파악하기 용이하다.   × 자료의 분석을 통칭하여 흔히 2원 배치법으로 표현하는데 세분해서 보면  ≤ ≤   ≤ ≤ 에 대해서  이면 반복이 없는 2원 배치법,  ≥  이면 반복수가 인 2원 배치법,  중에서 하나라도 다르면 반복수가 다른 2원 배치 법 이라 한다. 3.1.3   ≥ × ×⋯×  자료구조   ≥ × ×⋯×  자료구조는 원래는 ≥ 차원의 배열이나 2차원에 서 계층적으로 표현할 수 있다. 구체적인 배열은 생략하고 하나의 칸(cell)의 자료구조

(9)

을 표현하기 위해서  ≤  ≤ ,  ≤ ≤ 일 때  ⋯ 수준조합에서 반복횟수가  ⋯ ≥ 인 자료는 원칙적으로   ⋯    ⋯   ⋯   ⋯  ⋯  으로 표현해야 하나  의 첨자에서 보면 첫 번째가 모두

이므로 생략하고 편의상  ⋯   ⋯   ⋯  ⋯  ⋯  으로 표현한다.   ≥ × ×⋯× 자료의 분석을 ≥ 원 배치법 또는 단 순히 다원 배치법으로 표현한다. 단변량 자료구조의 표현방법을 종합해보면 첫 번째, 자료구조의 각 관측값이  의 첨자에 쉼표가 하나있는데  ≤  ≤  ≤  ≤ 에 대해서  으로 표현되면    자료구조이며, 즉, 단변량 수준수 인 일원 배치법의 자료구조이며 두 번째, 자료구조의 각 관측값이  의 첨자에 쉼표가 하나있는데  ≤  ≤ ≥   ≤ ≤   ≤  ≤ ⋯ 에 대해서  ⋯  으로 표현되면   × ×⋯×  자료구조이다. 즉, 단변량 수준수 × ×⋯× 인 원 배 치법의 자료구조이다. 3.2 다변량 자료구조 다변량 자료구조는 변량의 개수가 (변량,

, 변량,  ≥ )이고 인자의 개수가 인   × ×⋯×  자료구조로서 식 (2.1)에 의하여 변량의  ⋯  인자수준 조합에서 번 째 관측값은 원칙적으로    ⋯  로 표기하고, 식 (2.2)에 의하여 개 변량의  ⋯  인자수준 조합에서 번 째 관측벡터(확률 행벡터)는 원칙적으로   ⋯  ≡    ⋯  ⋯   ⋯   로 표기한다. 그런데   × ×⋯×  자료구조에서  ⋯  인자수준 조합의 번 째 관 측값은     ⋯  으로 표기하는 것이 원칙이나 첨자의 첫 번째가 모두 이므로 편의 상   ⋯  으로 표현하였기에 ≥   × ×⋯×  자료구조의 형태는   × ×⋯×  자료구조의 형태와 같고   × ×⋯×  자료구조의 배열은   × ×⋯×  자료구조의 배열에서 관측값에 관측벡터로 대체하면 된다. 그러면   × ×⋯× 자료구조는   의 값에 따라 분류되는데 흔히 상 용되는 몇 가지를 예시하고 일반화한다.

(10)

3.2.1   ≥  자료구조 다변량-일인자 자료구조는 인자의 수준 수 ≥ 에 따라 다음과 같이 분류된다. 3.2.1.1    자료구조 다변량-일인자/일수준 자료구조는 다변량 자료구조 중에서 가장 간단한 자료구조 로서 반복수가 인 경우 원칙에 의거하여 표현하면 다음의 <표 3.10>과 같다. <표 3.10>    (원칙적)자료구조 인자 수 인자수준 자료 구조       ⋯   지금까지는    자료구조를 다르게 표현하였는데 정강모 외(2013)는 다음의 <표 3.11>과 같이 표현하였다. <표 3.11>    (기존의)자료구조 인자 수 인자수준 자료 구조       ⋯   정강모 외(2013)는 <표 3.13>에서 관측값을 소문자로 나타내고 첫 번째 첨자가 모 두 이므로 생략하였다.    자료구조를 한 개의 모집단에서 다변량 자료구조라 한다. 특히,    자 료의 분석을 상관분석으로 표현한다. 3.2.1.2   ≥  자료구조 다변량-일인자/

수준 자료구조를 원칙에 의거하여 표현하면 다음의 <표 3.12>와 같다. <표 3.12>   ≥  (원칙적)자료구조 인자 수 인자수준 자료 구조    ⋮      ⋯        ⋯    ⋮     ⋯    지금까지는   ≥  자료구조를 다르게 표현하였는데 정강모 외(2013)는 다 음의 <표 3.13>과 같이 표현하였다.

(11)

<표 3.13>   ≥  (기존의)자료구조 인자의 수준   ⋯  실험의 반 복     ⋯       ⋯   ⋮ ⋮ ⋮       ⋯       자료구조는    자료구조와 마찬가지로 기존에는   ,   ≥  으로 확장하면서 <표 3.11>, <표 3.13>으로 표현하여 일관성이 없으나 본 논문에서 제안한 <표 3.10>, <표 3.12>으로 표현하면 일반성을 잃지 않는다. 여기서도 중요한 점은 우선   ≥  자료구조는 <표 3.12>으로 표현한다는 전제하에서 특별한 경우로 서    자료구조는 <표 3.10>에서     ⋯  으로 대체하여 표현할 수 있다.   ≥ 자료구조를 흔히 다변량 일원배치법이라 한다. 3.2.2   ×  자료구조 다변량-이인자 자료구조는 흔히 인자의 수준이 ≥  ≥ 경우가 사용되는데 원칙에 의거하여 표현하면 다음의 <표 3.14>과 같다. <표 3.14>   ×  (원칙적)자료 구조 인자2 인자1  ⋯     ⋯     ⋯   ⋯     ⋮ ⋮ ⋱ ⋮     ⋯     ⋯   ⋯     지금까지는   × 자료구조를 다르게 표현하였는데 정강모 외(2013)는 다 음의 <표 3.15>와 같이 표현하였다 <표 3.15>   ×  (기존의)자료 구조 인자1 인자2  ⋯    ⋯     ⋯    ⋯     ⋮ ⋮ ⋱ ⋮     ⋯     ⋯    ⋯   

(12)

<표 3.14>에서 관측벡터를 보면,  ≤ ≤   ≤ ≤  ≤  ≤ 에 대해서   ≡   ⋯   은 개 변량을 인자1의 번째 수준과 인자2의 번째 수준의 인자수준 조합에서 번째 관측벡터로 명확하게 해석되지만, <표 3.15>에서  은 인자수준 조합과 반복 번호의 구분이 불분명하여 여러 개의 관측벡터가 동일 하게 표기된다.   ×  자료구조도   ×  자료구조와 마찬가지로 인자가 두 개이 므로 지금까지는 인자1을 열에 배치하고 인자2를 행에 배치였으나 본 논문에서는 인 자1을 행에 배치하고 인자2를 열에 배치하여 인자수준 조합이 행렬의 배열과 같게 되 기를 제안한다.   ×  자료의 분석을 흔히 다변량 이원배치법이라 한다. 3.2.3 ≥   ≥ × ×⋯×  자료구조 ≥   ≥ × ×⋯×  자료구조는 ≥ 차원으로 모든 관측값들을 하나의 표에 표현하기는 곤란하므로 각 인자수준 조합에서의 자료를 표현해야 한다.  ≤  ≤ ,  ≤ ≤ 일 때  ⋯ 수준조합에서 반복횟수가 ⋯ 인 자료는 원칙 에 의거하여   ⋯     ⋯    ⋯     ⋯  ⋯  으로 표현한다. ≥   ≥ × ×⋯× 자료구조를 변량 원 배치법 또는 단순히 다변 량 자료구조로 표현한다. ≥ 변량 자료구조의 표현방법을 종합해보면 첫 번째, 자료구조의 각 관측벡터가  의 첨자에 쉼표가 하나있는데  ≤  ≤  ≤  ≤ 에 대해서   으로 표현되면    자료구조이며, 즉, 변량 수준수 인 일원 배치법이며, 두 번째, 자료구조의 각 관측값이  의 첨자에 쉼표가 하나있는데  ≤  ≤ ≥   ≤ ≤   ≤  ≤ ⋯ 에 대해서   ⋯  으로 표현되면   × ×⋯×  자료구조, 즉, 변량 수준수 × ×⋯× 인 원 배치법이 다.

4. 결론 및 제언

통계자료를 분석하고자 할 때 첫 시발점은 실험계획인데 필히 관측값과 자료구조 를 명시하고 모형을 가정한 후 분석방법을 제시한다. 그런데 실험계획의 첫 단계인 관측값과 자료구조의 표현방법이 정형화되어있지 않은바 표준화가 절실히 필요하다. 본 논문에서 제안한 내용을 정리해보면 첫 번째, 변량의 개수가 이고 인자의 개수가 개이며  ≤  ≤ 번째 인자의 수

(13)

준 수가 인 자료구조를   × ×⋯×  자료구조라고 표기한다. 두 번째,   × ×⋯×  자료구조에서 변량의  ⋯  인자수준 조합에서 번 째 관측값을    ⋯   으로 표현하고, 개 변량들의  ⋯  인자수준 조합에서 번째 관측벡터를   ⋯  ≡    ⋯  ⋯   ⋯  으로 표기하는 것을 원칙으로 한다. 역으로 관측값이    ⋯  으로 표현되면, 관측값    ⋯  은   × ×⋯×  자료구조에서 관측값이고 또한 관측벡터   ⋯  에서 번째 관측값이라는 것을 알 수 있다. 세 번째,   × ×⋯×  자료구조의 배열은  ⋯  인자수준 조합이 행렬 의 원소 나열법을 따르도록 한다. 제안한 내용을 구체적으로 확인하기위해서 2절에서 제시한 예를 자료구조에 따라 제안한 표현방법과 기존의 표현방법을 비교해보면 다음의 <표 4.1>과 같다. <표 4.1> 자료구조에 따른 관측값 표현방법의 비교 자료구조 제안한 표현방법 기존의 표현방법 순번     (1)      (2)   (3)      ≥   (4)   (5)  (6)   ×  (7)   (8)  (9)   × ×  (10)   × × ×  (반복이 없는 사원배치법)   (11)      ≥    (12)   (13)  (14)   ×   ≥    (15) <표 4.1>에서 살펴보면 첫 번째, (1)에서 기존에는 을 사용하였으나 본 연구에서는 을 사용한다. 두 번째, (2)

(3)에서 기존에는 서로 다른 문자를 사용하여 인자수준을 구분하였 으나 본 연구에서는 의 첨자 번호로 인자수준을 구분한다.

(14)

세 번째, (4)

(11)에서 8개의 서로 다른 관측값들에 대해서 기존에는 동일하게 로 표현하였으나 본 연구에서는 자료구조에 따라 의 첨자 배열을 각각 다르게 하여 표현한다. 네 번째, (12)

(15)에서도 마찬가지로 4개의 서로 다른 관측값들에 대해서 기존에 는 동일하게 로 표현하였으나 본 연구에서는 자료구조에 따라 의 첨자 배열을 각각 다르게 하여 표현한다. 마지막으로, (1)과 (4)

(15)에서 보면 기존에 하나의 문자를 사용하여 관측값을 표현했다면 자료구조에 관계없이 모두를 동일하게 표현했어야 하지만 본 연구에서는 자료구조에 따라 의 첨자 배열을 각각 다르게 하여 표현한다. 결론적으로 관측값 및 자료구조를 표현할 때 기존에는 충분한 보충 설명으로 구분 할 수 있었으나, 제안된 표현방법에 의하면 누구나 동일하게 해석할 수 있으므로 제 안된 방법이 통용되기를 기대한다. (2017년 4월 12일 접수, 2017년 5월 12일 수정, 2017년 5월 22일 채택)

(15)

참고문헌

박성현 (2003). <현대실험계획법>, 민영사, 서울

송문섭, 박창순, 이홍기 (2015). <비모수통계학>, 자유아카데미, 파주 송문섭, 조신섭 (2015). <통계자료분석>, 자유아카데미, 파주

정강모, 김명근 (2013). <R기반 다변량 분석>, 교우사, 서울

Andersn, T.W. (1958). An Introduction to Multivariate Statistics, John Wiley & Sons, Inc., New York.

Cochran, W.G. and Cox, G.M. (1957). Experimental Designs, John Wiley & Sons, Inc., New York.

Hicks, C.R. (1973). Fundumental Concepts in the Design of Experiments, Rinehart and Winston, Inc., New York.

James Press, S. (1982). Applied Multivariate Analysis, Robert E. Krieger Publishing Co., Inc., Florida.

Johnson, R.A. and Wichern, D.W. (1992). Applied Multivariate Statistical Analysis, Prince Hall, Inc., New Jersey.

Montgomery, D.C. (1976). Design and Analysis of Experiments, John Wiley & Sons, Inc., New York.

Srivastava, M.S. and Khatri, C.G. (1979). An Introduction to Multivariate Statistics, North Halland, Inc., New York.

(16)

An Analytical Method of Representing Observation

Value and Data Structure

1)

Jung Bai Choi

2)

· Ju Sung Kim

3)

Abstract

An analysis of statistical data is a series of processes to select a population, to design its sample, and to set up its analytical theory. It also includes the steps to substitute the observed data with the analytical theory and to analyze the results from it. Sample design, the first step of this analytical process, can make each observation value symbolized and their whole set represented as a data structure. The studies conducted until now, however, have not suggested a standardized method representing such as the observation value and the data structure. It has made sample designer and users confused. To solve this problem, this study suggests a method of representing observation value with the number of a variate, the combination of factor levels, and the repetitive numbers. This method also suggests a way of representing the data structure based on matrix.

Key words : Variate, Factor, Combination of factor levels, Observation value, Data structure

1) This work was supported by the intramural research grant of Chungbuk National University in 2015.

2) Emeritus Professor, Dept. of Basic Science , Korea Air Force Academy, 335-1 Namil Myeon, Sangdang-Gu, Cheongju, Chungbuk 28187, Korea. E-mail: jbchoi720@gmail.com

3) (Corresponding author) Professor, Dept. of Information Statistics, Chungbuk National University, Chungdae-ro 1, Seowon-Gu, Cheongju, Chungbuk 28644, Korea. E-mail: kimjs@chungbuk.ac.kr

참조

관련 문서

Language can be represented as a series of contiguous subdivisions marked off on both the indefinite plane of jumbled ideas (A) and the equally plane of sounds (B) 2.

First of all, it is necessary to set Korea's status and role in the denuclearization peace process on the Korean Peninsula as the core party, not the mediator, considering the

1 John Owen, Justification by Faith Alone, in The Works of John Owen, ed. John Bolt, trans. Scott Clark, &#34;Do This and Live: Christ's Active Obedience as the

To this end, prior studies of the type of value, design paradigm and design value were considered, and three types of design value (practical value,

The number of the sample apartment houses is 949, the sale price was determined as the subordinate variables and the characteristics of structure,

Data sampled at the scan interval is recorded in the internal memory as measured data for each specified data type (display data and event data).. Measured value at

If the volume of the system is increased at constant temperature, there should be no change in internal energy: since temperature remains constant, the kinetic

(i.e., how conceptual records and fields are represented at the internal level) – Structure of the stored database : change. (i.e., change in the