1. 서 론
실감 미디어 콘텐츠에 대한 수용가 급증하고 다양 한 멀티미디어 콘텐츠를 사용자에게 제공할 수 있게 됨에 따라 3차원 영상의 중요성이 커지고 있다. 사용 자에게 임의 시점과 넓은 화면을 제공할 수 있는 다 시점 비디오는 사용자의 요구를 충족시킬 수 있지만 카메라의 수에 비례하여 데이터의 양이 증가하므로 다시점 비디오를 효율적으로 부호화하는 기술들이 필요하다[1-4]. 다시점 비디오 부호화의 효율을 높이
기 위하여 움직임 벡터의 상관성을 이용한 예측 구조 들과 움직임 추정 기법들이 제안되었다. 예측 구조들 과 움직임 추정 기법들은 영상들 사이에 존재하는 중복된 데이터를 제거함으로써 다시점 부호화의 성 능을 향상시켰다.
다시점 비디오 부호화에서 한 영상 내에 존재하는 시간적 상관성과 여러 영상사이에 존재하는 화면간 상관성을 이용하여 움직임 추정을 수행하는 계층적 B화면 예측 구조가 참조 예측 구조로 사용되고 있다 [5-8]. 계층적 B화면 예측 구조의 성능을 향상시키기
시간적 예측 구조와 움직임 벡터의 특성을 이용한 움직임 추정 기법
윤효순†, 김미영††
Temporal Prediction Structure and Motion Estimation Method based on the Characteristic of the Motion Vectors
Hyo Sun Yoon†, Mi Young Kim††
ABSTRACT
Efficient multi-view coding techniques are needed to reduce the complexity of multi-view video which increases in proportion to the number of cameras. To reduce the complexity and maintain image quality and bit-rates, an motion estimation method and temporal prediction structure are proposed in this paper.
The proposed motion estimation method exploits the characteristic of motion vector distribution and the motion direction and motion size of the block to place search points and decide the search patten adaptively.
And the proposed prediction structure divides every GOP to decide the maximum index of hierarchical B layer and the number of pictures of each B layer. Experiment results show that the complexity reduction of the proposed temporal prediction structure and motion estimation method over hierarchical B pictures prediction structure and TZ search method which are used in JMVC(Joint Multi-view Video Coding) reference model can be up to 45∼70% while maintaining similar video quality and bit rates.
Key words: Multi-view Video, Video Compression, Motion Estimation, Prediction Structure, Motion Vector
※ Corresponding Author : Mi Young Kim, Address:
(57337) Jungnogwon-ro 152, Damyang, Korea, TEL : +82- 61-380-8651, FAX : +82-61-380-8651, E-mail : kimmee
@dorip.ac.kr
Receipt date : July 7, 2015, Revision date : Aug. 10, 2015 Approval date : Sep. 1, 2015
†
Dept. of Computer Science, Chonnam National University (E-mail : [email protected])
††
Dept. of Health and Medical, Jeonnam Provincial College
※ This research was supported by Basic Science
Research Program through the National Research
Foundation of Korea (NRF) funded by the Ministry of
Education, Science and Technology (2010-0024120)
위하여 여러 예측 구조들이 제안되었다[9-11]. Park 등[9]의 예측 구조는 현재 화면과 참조 화면 사이의 평균거리를 이용하였고 He등[10]의 예측 구조는 시 간적 상관성, 공간적 상관성을 이용하여 각 영상의 참조 화면 모드를 결정하였다. Lu등[11]은 영상들의 상관성을 분석하여 다양한 예측 구조를 제안하였다.
영상 압축에서 움직임 추정은 전체 인코더 계산량 의 60%(1개의 참조 프레임을 사용한 경우)∼ 80%(5 개의 참조프레임을 사용한 경우)의 계산량을 차지한 다[12]. 그래서 움직임 추정에 소요되는 계산량을 줄 이기 위하여 많은 움직임 추정 기법들이 제안되었다 [13-22]. 움직임 추정 기법들[13-17]은 탐색 원점을 중심으로 탐색 점들을 배치하는 탐색 패턴을 사용하 여 움직임 벡터를 추정하므로 상대적으로 움직임이 작은 영상이나 영상의 크기가 작은 경우에 움직임 벡터 추정을 잘 수행한다. 움직임 추정 기법들[18- 19]은 H.264에서 사용되는 움직임 추정 기법으로 탐 색 영역 전반에 탐색 점들을 배치하는 탐색 패턴들을 사용하여 움직임 벡터를 추정하므로 영상의 움직임 이 크거나 영상의 움직임이 불규칙한 영상에서 움직 임 수행을 잘 수행한다. 움직임 추정 기법들[13-22]
은 단일 시점 영상에서 사용되는 움직임 추정 기법들 로 다시점 영상에서 탐색 패턴의 일부로 사용될 수 있다. 다시점 비디오를 위한 움직임 추정 기법으로는 JMVC 참조 모델의 PBS(Pel Block Search)와 TZ이 다[20]. PBS는 최적의 움직임 벡터를 찾을 수 있는 기법이지만 많은 계산량을 요구한다. PBS의 계산량 을 줄이기 위한 움직임 추정기법에는 TZ과 TZ의 초 기 탐색 패턴의 모양을 육각형 탐색 패턴으로 수정한 기법[21] 그리고 움직임 추정을 초기에 종료하기 위 하여 임계치를 사용한 기법[22]등이 있다.
본 논문에서는 다시점 비디오 부호화의 계산량을 줄이기 위하여 움직임 추정 기법을 제안하고 영상 화질 향상을 위하여 시간적 예측 구조를 제안한다. 제안한 움직임 추정 기법은 계층적 움직임 추정 기법 으로 초기 탐색 패턴, 작은 다이아몬드 탐색[16,17], 수정된 래스터 탐색 패턴[23] 그리고 2-gird 사각형 탐색 패턴으로 이루어져 있다. 본 논문에서 제안된 움직임 추정 기법은 국부적 최소화 문제를 해결하기 위하여 탐색 영역 내에 탐색 점들을 규칙적, 대칭적 으로 배치하고 대각선 방향보다는 수직 또는 수평 방향으로 블록의 움직임이 많다는 사실을 이용하여 탐색 점들을 배치한다. 그리고 블록 움직임의 크기에 따라 적응적으로 탐색 패턴을 사용함으로써 움직임 추정 계산량을 감소시킨다. 그리고 계층적 B(Bi-di- rectional prediction) 화면 구조에서 B계층의 최대 인덱스와 각 B계층의 화면 수를 고려한 제안한 시간 적 예측 구조는 B계층의 최대 인덱스와 B계층의 최 대 인덱스의 화면수를 줄임으로 영상의 화질을 높였 다.
본 논문의 구성은 다음과 같다. 2장에서는 JMVC 의 와 고속 움직임 추정 기법인 TZ에 대하여 설명하 고, 3장에서는 본 논문에서 제안한 예측 구조와 움직 임 추정 기법을 기술한다. 그리고 4장에서는 제안한 예측 구조와 움직임 추정 기법의 성능을 비교한 후, 마지막으로 5장에서는 결론을 맺는다.
2. JMVC의 참조 예측 구조와 고속 움직임 추정 기법
2.1 JMVC의 참조 예측 구조
다시점 비디오 부호화를 위하여 Fig. 1의 JMVC
Fig. 1 Hierarchical B pictures of JMVC Reference Prediction Structure.
참조 예측 구조인 계층적 B화면 구조를 사용한다 [24-26].
Fig. 1에서 Sn은 n번째 시점의 카메라를 의미하고 Tm은 시간적으로 m번째 화면을 나타낸다. 화살표 는 이웃하는 화면들 사이의 참조 관계를 나타낸다. 다른 시점과 상관없이 독립적으로 복원할 수 있는 시점을 I 시점, 부호화가 완료된 하나의 시점만을 참 조하여 예측 부호화하는 시점을 P시점 그리고 인접 해 있는 두 개의 시점을 참조하여 예측 부호화하는 시 점을 B시점이라고 한다. Fig. 1의 S0은 I시점 그리 고 S2, S4, S6, S7들은 P시점 그리고 S1, S3, S5들은 B시점이다. Fig. 1의 참조 예측 구조는 시간 예측을 위하여 계층적 B구조(hierarchical B picture struc- ture)를 사용하며, S0∼S7시점에서 각 GOP의 첫 화 면인 T0과 T12는 앵커(anchor) 화면들로 시간적 임 의접근과 에러 전파 방지를 위하여 사용된다.
2.2 JMVC의 고속 움직임 추정 기법
JMVC의 움직임 추정 기법은 PBS와 TZ 탐색 기 법이다. PBS는 전역 탐색 기법으로 움직임 벡터를 추정하기 위하여 현재 프레임의 기준 블록과 참조 프레임의 탐색 영역내에 있는 후보 블록들을 비교한 후 최소 정합 오차를 가진 블록의 위치를 움직임 벡 터롤 추정한다. PBS는 탐색 영역 내에서 가정 적합 한 움직임 벡터를 찾을 수 있지만 많은 계산량을 요 구하므로 실시간 비디오 코딩 응용 분야 및 소프트웨 어 구현에 많은 어려움을 가지고 있다. PBS의 계산 량을 줄이기 위해 제안된 움직임 추정 기법이 TZ이 다. TZ의 탐색 패턴들은 Fig. 2와 같고 다음과 같은 알고리즘을 수행하여 움직임 벡터를 추정한다.
[단계1] : 움직임 벡터 예측(Motion Vector Prediction) 탐색 시작점을 결정하기 위하여 메디안 예측, 상 위 모드를 이용한 예측, 이전 화면의 대응 블록을 이 용한 예측, 이웃한 참조 화면을 이용한 예측들을 사 용한다.
[단계2] : 초기 그리드 탐색 (Initial Grid search) 초기 탐색 시작점을 탐색의 원점으로 초기 그리드 탐색 패턴을 사용한다. 초기 그리드 탐색 패턴 stride length의 범위는 1, 2, 4, 8, 16, 32, 64이다. Stride length는 초기 그리드 탐색 패턴에서 탐색 원점(0,0) 과 탐색 점들과의 거리를 의미한다. Fig. 2(a)는 최대 stride length가 16인 초기 그리드 탐색 패턴이다. 탐 색 영역 내에 Fig. 2(a)와 같이 탐색 점들을 배치한다.
이 탐색 점들 중 최소 비용함수 값을 가지는 점이 [단계2]의 최적 탐색점이다. 현재 블록과 참조 블록 의 유사성을 측정하기 위한 블록 정합 기준으로 평균 제곱 오차, 평균 절대 오차, 절대값의 합 등이 사용된 다. 탐색 영역 내에서 블록 정합 기준의 값이 가장 작을 때의 값을 최소 비용 함수 값이라 한다. 즉, 최소 비용 함수 값을 갖는 점의 위치가 현재 블록과 가장 유사한 블록의 위치이고 이를 움직임 벡터로 추정한 다.
[단계3] : 초기 탐색 시작점과 [단계 2]의 최적 탐색 점 사이의 거리(uiBestDistance)를 구한다. uiBest- Distance가 0이면 초기 탐색 시작점을 움직임 벡터 로 추정하고 움직임 추정을 종료한다. 만약 uiBest- Distance가 래스터 탐색의 iRaster (stride length) 보 다 크면 [단계4]를 수행하고 그렇지 않으면 [단계5]
를 수행한다.
[단계4] : 래스터 탐색 (Raster search) - 현재 블록 의 움직임이 크면 수행되는 탐색으로 Fig. 2(b)는
(a) Initial grid search pattern (stride length 16) (b) Raster search pattern (raster length=3)
Fig. 2. Search patterns of TZ.
raster length가 3인 래스터 탐색 패턴이다. Fig. 2(b) 와 같이 탐색 영역 내에 탐색 점들을 배치한다. 탐색 점들 중 최소 비용 함수 값을 가지는 점이 [단계4]의 최적 탐색점이다.
[단계5] : 정교한 탐색 (Refinement search) - 탐색 시작점을 변경한 후 [단계2]의 초기 그리드 탐색을 수행한다. 탐색 점들 중 최소 비용 함수 값을 가지는 점이 [단계5]의 최적 탐색점이다. 그리고 변경된 탐 색 시작점과 [단계 5]의 최적 탐색점 사이의 거리 (uiBestDistance)를 구한다. uiBestDistance가 0이면 [단계5]의 최적 탐색점을 움직임 벡터로 추정하고 움 직임 추정을 종료한다. 그렇지 않으면 [단계5]를 반 복 수행한다.
3. 제안한 시간적 예측 구조와 움직임 추정 기법
3.1 제안한 시간적 예측 구조
다시점 비디오 부호화 효율을 높이기 위하여 본 논문에서 제안하는 시간적 예측 구조는 B계층의 최 대 인덱스와 Bi계층의 화면수를 고려하였다. Bi에서 i를 인덱스라 정의한다.
Fig. 3의 예측 구조들을 사용하여 길이가 12인 GOP를 분할 할 때 생성되는 각 Bi계층의 화면수와 B화면의 최대 인덱스 수는 Table 1에 제시한다. 각 Bi계층의 화면수와 B화면의 최대 인덱스 수는 영상 화질과 발생 비트량에 영향을 준다. Fig. 3에서 다른 화면과 상관없이 독립적으로 복원할 수 있는 화면을 I화면, 부호화가 완료된 하나의 화면만을 참조하여
예측 부호화하는 화면을 P화면 그리고 인접해 있는 두 개의 화면을 참조하여 예측 부호화하는 화면을 B화면이라고 한다. 일반적으로 Bi계층에서 B1화면은 부호화가 완료된 I화면 또는 P화면을 이용하여 부호 화되고 B2화면은 부호화가 완료된 하나의 B1화면과 I화면 또는 P화면을 이용하여 부호화된다. 그리고 B3
화면은 부호화가 완료된 하나의 B2화면과 I화면 또는 P화면 또는 B1화면을 이용하여 부호화된다. 일반적 으로 I화면, P화면, B1화면, B2화면 그리고 B3화면 순 으로 적용되는 Quantization Parameter (QP)가 커지 므로 I화면의 발생 비트량이 가장 많고 B3화면의 발 생 비트량이 가장 적다. 그리고 영상 화질면에 있어서 I화면의 화질이 가장 좋고 B3화면의 가장 좋지 않다.
일반적으로 B화면의 최대 인덱스 수가 작을수록 발생 비트량을 많아지고 영상 화질은 향상된다. 그리 고 최대 인덱스의 수가 같은 경우 최대 인덱스의 화 면 수가 적을수록 화질은 좋아진다. 그래서 본 논문 에서 다시점 비디오의 영상 화질을 향상시키기 위하 여 B화면의 최대 인덱스 수를 줄이고 B1화면의 수를 많게 한다. Fig. 4는 제안한 시간적 예측 구조이다.
다시점 비디오 부호화의 발생 비트량과 계산량은 제 안된 움직임 추정 기법을 이용하여 감소시킨다.
3.2 제안한 움직임 추정 기법
TZ에서 사용하는 초기 그리드 탐색 패턴과 래스 터 탐색 패턴은 탐색 영역 전역에 탐색 점들을 배치 한 후 최적의 탐색 점을 찾는다. 래스터 탐색 패턴은 그리드 탐색 패턴 수행 후 사용하는 탐색 패턴으로, 이는 초기 그리드 탐색에서 탐색 영역 전역에 탐색 점들을 배치하여 검사할 필요가 없다는 것을 의미한 다. 제안한 움직임 추정 기법은 여러 영상들에서 움 직임 벡터 분포의 확률을 Table 2에 제시하고 움직임
(a) reference prediction structure
(b) park’s prediction structure
(c) yoon’s prediction structure
(d) proposed prediction structure
Fig. 3. Group Of Pictures and the number of Bi Picture.
Table 1. the number of pictures of each B layer Fig.3(a) Fig.3(b) Fig.3(c) Fig.3(d) The number
of B
1Picture 1 1 2 3
The number
of B
2Picture 2 2 3 8
The number
of B
3Picture 8 4 6
The number
of B
4Picture 4
벡터가 분포할 확률을 이용하여 탐색 패턴을 제안한 다. Table 3의 움직임 벡터들을 살펴보면 블록 움직 임이 대각선 방향보다는 수평, 수직 방향으로 더 많 이 움직인다는 것을 알 수 있다. Table 3에서 각 매크 로 블록의 움직임 벡터를 좌표 평면상에 배치하였을 때, 움직임 벡터가 x축, y축 위에 존재하면 블록 움직 임이 수평, 수직 방향이고, 움직임 벡터가 (0,0)이면 블록 움직임이 없고, 그 이외의 값을 가지면 블록 움
직임이 대각선 방향이다.
Fig. 5(a)의 초기 탐색 패턴은 Table 2과 Table 3에 서와 같이 움직임 벡터가 탐색 영역의 중심부분에 많이 분포한다는 사실과 블록의 움직임이 수직 또는 수평으로 많다는 사실을 이용하여 움직임 추정 초기 에 탐색 영역의 중심 부분에 탐색 점들을 배치하여 움직임 벡터를 추정한다.
제안한 초기 탐색 패턴은 움직임 추정 초기에 탐 색 영역의 원점을 중심으로 4픽셀 이내에 탐색 점들 을 배치하여 움직임 벡터를 추정함으로써 움직임이 없는 블록과 움직임이 작은 블록에서 초기에 움직임 추정을 종료할 수 있다. 움직임이 큰 블록에서는 수 정된 래스터 탐색 패턴을 사용하여 움직임 벡터를 추정을 수행한다. 그리고 TZ의 정교한 탐색은 uiBestDistance가 0이 될 때까지 초기 그리드 탐색 패턴을 반복 수행하는데, 이 때 불필요한 탐색 점들 을 배치하고 검사한다. 이러한 문제점을 해결하기 위 하여 제안한 움직임 추정 기법은 Fig. 5(c)와 같은 2-그리드 사각형 탐색 패턴을 사용한다. 제안한 움직 임 추정 기법은 블록 움직임의 크기에 따라 적응적으
Fig. 4 Proposed Temporal Prediction Structure.
Table 2. The Distribution of Motion Vector
1 pixel 2 pixel 3 pixel 4 pixel
akiyo 98.53 98.65 98.69 98.7
carphone 56.68 60.4 61.62 62.31
claire 36.9 91.97 92.04 92.12
foreman 91.81 44.88 49.35 52.53 mother 87.83 88.75 89.25 89.44 salesman 95.27 95.44 95.52 95.54 stefan 40.19 44.85 48.14 50.72
suzie 61.71 66.27 68.45 69.57
Table 3. Motion Vectors in the sequences
1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1 0 -1 0 -2 1 0 1 1 4 0 4 0 4 0 4 0 4 0 4 0 4 0 4 0 4 0 4 0 0 0
2 0-1 -1-11 0 0 0 0 0 0 0 0 0 0 -1 0 0 6 5-3 0-15 2 4 0 4 0 4 0 4 0 4 0 4 0 4 0 4 0 4 0 4 0 0-2
3 0 0 0 0 -3 0 0 0 0 0 -1 1 0 1 0 3 -1-2 4-2 0-15 3 4 0 4 0 4 0 4 0 4 0 4 0 3 0 4 0 4 0 4 0 0 0
4 0 0 6 0 -2 0 -1 0 0 1 0 1 0 1 0 1 0 5 4-1 0 0 4 4 0 3 0 3 0 4 0 4 0 3 0 2 0 4 1 6 0 4 0 -14 0
5 0 0 8 0 4 0 0 0 0 0 0 1 0 1 0 0 -1-5 0 1 -1 0 5 4 0 0 0 4 0 4 0 4 0 3 0 2 0 3 1 4 0 4 0 0 0
6 0 0 2 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 6 4 0 4 0 4 0 4 0 4 0 3 0 2 0 2 0 4 0 4 0 0 0
7 0 0 1 0 0 0 -1 1 0 0 0 1 0 1 0 1 0 0 0 1 -1 0 7 0 0 0 0 0 0 0 0 0 0 0 0 4 0 3 0 4 0 0 0 0 0
8 0 0 0 0 -1 1 0 0 0 1 0 1 0 1 0 1 0 0 0 1 0 1 8 0 0 0 0 2 0 0 0 0 0 3 0 4 0 4 0 15 1 0 0 0 0
9 0 0 0 0 0 0 -1 0 -1 0 -1 0 -1 0 -1 0 0 0 -1 0 -1-1 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
로 탐색 패턴을 사용함으로써 움직임이 없는 블록이 나 움직임이 작은 블록에서 초기에 움직임 추정을 종료함으로써 움직임 추정 계산량을 감소시킨다. 그 리고 제안한 움직임 추정 기법은 다음과 같은 알고리 즘을 수행하여 움직임 벡터를 추정한다.
[단계1] 움직임 벡터 예측(Motion Vector Prediction) 초기 탐색 시작점을 결정하기 위하여 메디안 예 측, 상위 모드를 이용한 예측, 이전 화면의 대응 블록 을 이용한 예측, 이웃한 참조 화면을 이용한 예측들 을 사용한다.
[단계2] 초기 탐색 (Initial Search) : Fig. 5(a)의 초 기 탐색 패턴을 이용하여 초기 탐색 시작점 주위에 탐색 점들을 배치한다. 탐색 점들 중 최소 비용 함수 값을 가지는 점이 [단계2]의 최적 탐색점이다.
[단계3] 초기 탐색 시작점과 [단계 2]의 최적 탐색 점 사이의 거리(uiBestDistance)를 구한다. uiBest- Distance가 2이하인 경우 [단계2]의 최적 탐색 점을 움직임 벡터로 추정하고 움직임 추정을 종료한다. 만 약 uiBestDistance가 6이상이면 [단계5]를 수행하고 그렇지 않으면 [단계4]를 수행한다.
[단계4] 작은 다이아몬드 탐색 (Small Diamond search) : 탐색 시작점을 변경한 후 Fig. 5(b)처럼 노 란색 탐색 점들을 배치하여 작은 다이아몬드 탐색을 수행한다. 탐색 점들 중 최소 비용 함수 값을 가지는
점을 움직임 벡터로 추정하고 움직임 추정을 종료한 다.
[단계5] 래스터 탐색 (Raster search) : Fig. 5(d)와 같은 방법으로 탐색 영역 내에 탐색 점들을 배치하여 래스터 탐색을 수행한다. 탐색 점들 중 최소 비용 함 수 값을 가지는 점이 [단계5]의 최적 탐색점다.
[단계6] 2-그리드 사각형 탐색 : 탐색 시작점을 변 경한 후 2-그리드 사각형 탐색을 수행한다. 탐색 점 들 중 최소 비용 함수 값을 가지는 점을 움직임 벡터 로 추정하고 움직임 추정을 종료한다.
4. 실험 결과
JMVM 6.0에서 제안한 예측 구조와 제안한 기법 을 구현하였다. 실험 영상으로 Exit, Ballroom와 Uli 를 사용하였다. 실험 조건은 Table 4에 제시한다 [24-27]. 그리고 제안 기법의 성능을 BDPSNR (Bjontegaard Delta PSNR) 및 BDBR (Bjontegaard Delta Bitrate)와 TS (Time Saving of Encoding Time) 제시한다.
Exit영상 (QP : 37)일 때, Fig. 3의 (a), (b) 그리고 (c)의 구조들과 제안한 시간적 예측 구조의 영상 화 질과 발생 비트량을 Table 5에 제시한다. Table 5의 결과로 B화면의 최대 인덱스가 작을수록 발생 비트 량이 많아지고 영상 화질이 향상되며 최대 인덱스의
(a) (b) (c) (d)
Fig. 5. Search patterns of proposed methods. (a) Initial search pattern, (b) Small Diamond search pattern, (c) 2-grid Square search pattern. (d) Raster search.
Table 4. Experiment Conditions
sequence Quantization Parameter (QP) search area the number of frames the size of sequence
Exit 22, 27, 32, 37 ±96 100 640*480
Ballroom 22, 27, 32, 37 ±96 100 640*480
Uli 22, 27, 32, 37 ±96 100 1024*768
수가 같은 경우 최대 인덱스의 화면 수가 적을수록 화질이 좋아짐을 알 수 있다. 제안한 예측 구조가 다 른 구조에 비해 B1화면의 수가 많고 최대 인덱스 수 가 적으므로 화질은 향상되고 발생 비트량은 다른 예측 구조들에 비해 많다.
본 논문에서 제안한 예측 구조 성능과 참조 예측 구조의 성능을 Table 6에 제시한다. 제안한 예측 구 조가 참조 예측 구조보다 영상 화질 면에서 0.07(dB)
∼0.27(dB) 성능 향상을 보이고 비트량에 있어서 1.2%∼6.1%의 감소한다. 제안한 움직임 추정 기법의 성능을 Table 7와 Table 8에 제시한다. 제안한 움직 임 추정 기법은 TZ보다 영상 화질 면에서 0.02(dB)
∼0.15(dB) 화질 저하를 보이고 비트량에 있어서 0.5%∼7.6%의 증가하지만 부호화 계산량을 약 46%
∼72%을 감소시킨다.
제안한 예측 구조와 제안한 움직임 추정 기법을 함께 구현하였을 때의 성능과 참조 예측 구조와 TZ 을 함께 구현하였을 때의 성능을 Table 9와 Table10 에 제시한다. 움직임이 작은 Uli영상에서 제안한 예 측 구조와 제안한 움직임 추정 기법을 함께 구현할 때의 성능이 참조 예측 구조와 TZ을 함께 구현할 때의 성능보다 영상 화질 면에서 0.148(dB) 성능 향 상을 보이고 비트량에 있어서 3.77%의 감소를 보이 며 부호화 시간을 69%∼71% 감소시킨다. 그리고
Table 5. image quality and bitrates of the structures in Fig. 3
Fig. 3(a) Fig. 3(b) Fig. 3(c) Proposed
Prediction structure the number
of camera PSNR(db) bit rate
(Kbps) PSNR(db) bit rate
(Kbps) PSNR(db) bit rate
(Kbps) PSNR(db) bit rate (Kbps)
0 35.14 113.53 35.08 110.61 35.19 113.05 35.14 117.76
1 34.09 60.30 34.00 56.50 34.18 59.07 34.29 62.87
2 34.84 95.96 34.78 92.04 34.91 95.8 34.97 98.83
3 33.79 72.81 33.69 67.92 33.86 70.76 33.90 73.76
4 34.29 118.05 34.22 113.02 34.37 118.05 34.42 121.95
5 33.68 89.16 33.59 83.03 33.74 87.45 33.80 91.95
6 33.70 149.75 33.63 143.96 33.78 149.19 33.85 152.86
7 33.65 131.69 33.57 125.20 33.71 129.83 33.75 132.96
average 34.17 105.36 34.07 99.04 34.22 102.90 34.27 102.85
Table 6. Simulation Results : BDPSNR and BDBR
Sequence QP
Reference
Prediction structure Proposed
Prediction structure BDPSNR BDBR
(Kbps) (dB) (Kbps) (dB) (dB) %
Exit
22 794.72 39.85 820.87 39.95
0.13 -3.2
27 337.60 38.03 345.83 38.31
32 177.44 36.44 183.46 36.56
37 105.36 34.17 106.62 34.27
Uli
22 4148.45 38.99 4243.00 39.49
0.27 -6.1
27 2197.35 36.97 2287.00 37.47
32 1215.34 34.40 1298.00 34.90
37 667.83 31.62 731.05 32.12
Ballrom
22 1494.35 39.04 1525.06 39.30
0.07 -1.2
27 751.27 36.82 778.96 37.20
32 402.10 34.28 430.99 34.49
37 226.70 31.56 247.97 31.76
Exit와 Ballroom영상에서 제안한 예측 구조와 제안 한 움직임 추정 기법을 함께 구현할 때의 성능이 참 조 예측 구조와 TZ을 함께 구현할 때의 성능보다 영상 화질 면에서 0.09(dB)∼0.11(dB) 성능 저하를 보이고 비트량에 있어서 2.9%∼4.07%의 증가를 보 이며 부호화 시간을 약44%∼46% 줄인다.
5. 결 론
본 논문에서는 다시점 비디오 부호화의 계산량을 줄이면서 영상 화질을 유지하는 예측 구조와 움직임
추정 기법을 제안한다. 다시점 비디오의 영상 화질 향상과 발생 비트량 감소를 위해 제안한 예측 구조는 B계층 최대 인덱스 그리고 각 Bi계층의 화면 수를 고려한다. 그리고 다시점 부호화의 계산량을 줄이면 서 화질을 유지하기 위한 제안한 움직임 추정 기법은 움직임 벡터의 분포 특성과 블록의 움직임 방향을 이용하여 탐색 점들을 탐색 영역에 배치하고 움직임 추정 시 사용되는 탐색 패턴을 적응적으로 선택한다.
제안한 예측 구조와 움직임 추정 기법의 성능을 참조 예측 구조와 TZ 움직임 추정 기법을 사용한 JMVC 참조 모델의 성능과 비교한 경우, 영상 화질과 발생 비트량은 비슷하지만 다시점 비디오 부호화에 소요되는 시간을 45% ∼70% 감소시킴으로 다시점 비디오 부호화의 계산량을 줄인다.
REFERENCE
[ 1 ] A. Smolic, K. Mueller, P. Merkle, C. Fehn, P.
kauff, P. Eisert, et al., "3D Video and Free Viewpoint Video-Technologies, Applications and MPEG Standards," Proceeding of IEEE International Conference on Multimedia and Exposition, pp.2161-2164, 2006
[ 2 ] ITU-T Rec. & ISO/IEC 14496-10 AVC, Advanced Video Coding for Generic Audio Visual Services, 2005.
[ 3 ] ISO/IEC JTC1/SC29/WG11 N10357,Vision on
Table 7. Simulation Results : BDPSNR and BDBR
Sequence QP TZ Proposed motion
estimation method BDPSNR BDBR
(kbps) (dB) (kbps) (dB) (dB) (%)
Exi t
22 794.72 39.85 822.70 39.84
-0.20 7.65
27 337.60 38.03 356.24 38.29
32 177.44 36.44 190.69 36.40
37 105.36 34.17 115.23 34.13
Uli
22 4148.45 38.99 4,172.56 38.98
-0.02 0.55
27 2197.35 36.97 2,216.53 36.96
32 1215.34 34.40 1,230.92 34.42
37 667.83 31.62 680.48 31.61
Ballroom
22 1494.35 39.04 1,29.52 39.05
-0.15 3.90
27 751.27 36.82 782.09 36.80
32 402.10 34.28 424.86 34.24
37 226.70 31.56 239.67 31.54
Table 8. Comparison values of total encoding time
Sequence QP Proposed method △T
(sec) (sec) (%)
Exit
22 77122 41389 -46
27 69999 37345 -46
32 64453 34513 -46
37 60665 33180 -46
Uli
22 386955 108092 -72
27 355760 99203 -72
32 324375 90579 -72
37 298839 81274 -72
Ballroom
22 83309 43978 -47
27 78003 41189 -47
32 72337 37927 -47
37 67215 35921 -47
3D Video, 2009.
[ 4 ] A. Vetro, P. Pandic, H. Kimata, A. Smolic, and Y. Wang, J oint Multi-view Video Model (JMVM) 8.0, Joint Video Team of ISO/IEC JTC21/SC29/WG11 and ITU-T SG16 Q.6, JVT-AA207, 2008.
[ 5 ] P. Merkle, K. Muller, A. Smolic, and T.
Wiegand, "Efficient Compression of Multi- view Video Exploiting Inter-view Dependen-
cies based on H.264/MPEG4-AVC," Pro- ceeding of IEEE International Conference on Multimedia and Exposition, pp.1461-1473, 2006.
[ 6 ] P. Merkle, A. Smolic, K. Muller, and T.
Wiegand, "Efficient Prediction Structures for Multiview Video Coding,"IEEE Transactions on Circuits and Systems for Video Technol- ogy, Vol. 17, No. 11, pp. 1461-1473, 2007.
Table 9. Simulation Results: BDPSNR and BDBR
Sequence QP
Reference prediction
structure + TZ Proposed prediction structure +
Proposed motion estimation method BDPSNR BDBR
(kbps) (dB) (kbps) (dB) (dB) %
Exit
22 794.72 39.85 819.54 39.93
-0.09 4.075
27 337.60 38.03 350.31 38.34
32 177.44 36.44 190.13 36.46
37 105.36 34.17 110.23 34.17
Uli
22 4148.45 38.99 4093.56 39.09
0.148 -3.777
27 2197.35 36.97 2208.74 37.08
32 1215.34 34.40 1283.42 34.87
37 667.83 31.62 673.78 31.76
Ballroom
22 1494.35 39.04 1530.80 39.15
-0.112 2.925
27 751.27 36.82 790.34 36.91
32 402.10 34.28 430.35 34.35
37 226.70 31.56 230.80 31.64
Table 10. Comparison values of total encoding time
Sequence QP
Reference prediction
structure + TZ Proposed prediction structure +
Proposed motion estimation method △T
(sec) (sec) (%)
Exit
22 77122 42890 -0.44 (%)
27 69999 38911 -0.44 (%)
32 64453 36336 -0.44 (%)
37 60665 34220 -0.44 (%)
Uli
22 386955 113011 -0.71 (%)
27 355760 105860 -0.70 (%)
32 324375 100333 -0.69 (%)
37 298839 93681 -0.69 (%)
Ballroom
22 83309 45200 -0.46 (%)
27 78003 42131 -0.46 (%)
32 72337 39517 -0.45 (%)
37 67215 37189 -0.45 (%)
[ 7 ] ISO/IEC JTC1/SC29/WG11, Joint Multiview Video Model (J MVM) 8, 2008.
[ 8 ] B. Zatt, M. Shafique, S. Bampi, and J. Henkel,
“A Multi-Level Dynamic Complexity Reduc- tion Scheme for Multiview Video Coding,”
IEEE International Conference on Image P rocessing, pp. 761-764, 2011.
[ 9 ] P.K. Park, K.J. Oh, and Y.S. Ho, “Efficient View-temporal Prediction Structures for Multi- view Video Coding,” Electronics Letters, Vol.
44, No. 2, pp. 102-103, 2008.
[10] R.L. He, "A Multiview Video Coding Method with Adaptive Selection of Reference Frame Modes," J ournal of Computer-aided Design And Computer Graphics, Vol. 30, No. 12, pp.
2205-2211, 2007.
[11] F. Lu, P. An, Z. Zhang, and L. Shen, “Multi- view Video Coding Based on Sequence Corre- lation," International Conference on Audio Language and Image Processing, pp. 1227- 1232, 2010.
[12] Z. Chen, P. Zhou, and Y. He, “Fast Integer Pel and Fractional Pel Motion Estimation For JVT,”Proceeding of the 6th meeting on Joint Video Team of ISO/IEC MPEG & ITU-T VCEG, 2002.
[13] T. Koga, K. Iinuma, A. Hirano, and Y. Ishi- guro, “Motion Compensated Interframe Cod- ing for Video Conference," Proceeding of National Telecommunications Conference, pp.
G5.3.1-5.3.5, 1981.
[14] R. Li, B. Zeng, and M.L. Liou, "A New Three Step Search Algorithm for Block Motion Estimation," IEEE Transactions on Circuits and System for Video Technology, Vol. 4, No.
4, pp. 438-442, 1994.
[15] L.M. Po and W.C. Ma, "A Novel Four Search Algorithm for Block Motion Estimation,"
IEEE Transactions on Circuit and Systems for Video Technology, Vol. 6, No 3, pp. 313- 317, 1996.
[16] J.Y. Tham, S. Ranganath, and A.A. Kassim,
"A Novel Unretricted Center-Biased Diamond Search Algorithm for Block Motion Estim- ation," IEEE Transactions on Circuits and Systems for Video Technology, Vol. 8, No. 4, pp. 369-377, 1998.
[17] S. Zhu and K.K. Ma "A New Diamond Search Algorithm for Fast Block Matching Motion,"
IEEE Transaction on Image Processing, Vol.
9, No. 2, pp. 287-290, 2000.
[18] Z. Chen, J. Xu, Y. He, and J. Zheng, “Fast Integer Pel and Fractional-pel Motion Estim- ation for H.264/AVC,” J ournal of Visual Communication and Image Representation, Vol. 17, No. 2, pp. 264-290, 2006.
[19] Yoon Hyo Sun, “Efficient Integer pel and Fractional pel motion estimation on H.264/
AVC”, KIPS, Vol. 16B, No. 2, pp.123-130, 2009.
[20] X.L. Tang, S.K. Oat, and C.H. Cat, "An Anal- ysis of TZ Search Algorithm in JMVC,"
International Conference on Green Circuits and Systems(ICGCS), pp. 516-520, 2010.
[21] N. Purnachand, L.N. Alves, and A. Navarro,
“Improvements to TZ Search Motion Estim- ation Algorithm for Multiview Video Coding,”
P roceeding of International Conference on Systems, Signals and Image Processing, pp.
388-391, 2012.
[22] P. Zhang, G. Jiang, S. Yang, and L. Jia, “An Adaptive Early Termination Algorithm for Motion Estimation in Multi-view Video Coding,”
International Congress on Image and Signal P rocessing (CISP ), pp. 72-75, 2013.
[23] H. Yoon and M. Kim, “An Effective Early Termination Motion Estimation Method for Multi-view Video Coing,” J ournal of Korea Multimedia Society, Vol. 17, No. 3, pp. 333- 341, 2014.
[24] ISO/IEC JTC1/SC29/WG11, Requirements on Multiview Video Coding v.4, 2005.
[25] ISO/IEC JTC1/SC29/WG11,Call for Proposal on Multi-view Video Coding N7327, 2005.
[26] J. Daase, U. Goelz, P. Kauff, K. Mueller, O.
Schreer, A. Smolic, et al., Fraunhofer HHI Test Data Sets for MVC, ISO/IEC JTC1/
SG29/WG11, Document MPEG2005/M11894, 2005.
[27] A. Vetro, M. McGuire, W. Matusik, A. Behrens, J. Lee and H. Pfister, Multiview Video Test Sequences from MERL, ISO/IEC JTC1/
SG29/ WG11, Document MPEG 200/M12077, 2005.
김 미 영
1994년 전남대학교 전산학과(박 사 )
1998년~현 재 전남도립대학교 보건의료과 교수 관심분야 : 영상처리, 영상 압축,
영상 부호화
윤 효 순