Hewlett-Packard PA-RISC 8800 - ARCHITECTURE OF HIGH-PERFORMANCE COMPUTERS

2. ARCHITECTURE OF HIGH-PERFORMANCE COMPUTERS

2.8. P ROCESSORS

2.8.3. Hewlett-Packard PA-RISC 8800

Superdome과 같은 Hewlett Packard 시스템의 계산 성능은 PA-8800 칩에서 나온다. 올해

2월 이후로 이 칩은 PA-RISC 8700+를 대체하고 있다. 8700+는 PA-8700과 비교해 동일 한 프로세서지만 클럭 수가 750 MHz에서 875 MHz로 높아져 이름에 “+”를 붙이고 있다.

PA-8800 프로세서는 다르다. PA-8800은 하나의 칩에 두 개의 CPU를 넣는 최근의 경향 을 따르고 있다. 이것은 180 nm 대신 130 nm를 사용하는 고밀도 기술에 의해 가능해 졌다.

또 이로 인해, 클럭 사이클을 1 GHz까지 올리는 것이 가능하게 됐다. 게다가 칩 하나당 대 역폭이 1.6 GB/s에서 6.4 GB/s로 대폭 증가되었다. 이것은 Itanium 2의 프론트-사이드 버 스 속도와 같은 것으로 HP는 PA-RISC 칩을 Itanium 2 칩으로 교체하려고 한다. 칩에 있는 CPU 코어들은 거의 PA-8700(+)정도로 작아졌다. 차이점이 하나 있는데 데이터 캐시와 마 찬가지로 두 부분에서 L1 명령어 캐시 크기가 750 KB에서 1.5 MB로 두 배가 되었다.

하나의 칩에 두 개의 CPU가 있어서 CPU당 순 대역폭은 2배로 증가되었다. Superdome과 같은 더 큰 시스템들은 4개 프로세서 셀로 구성되는데, 여기서 칩들은 보통 셀 안의 시스템 메모리와 연결되고, 하나의 셀을 SMP 노드로 구성하고 다른 셀과의 통신을 담당하는 셀 컨 트롤러와 연결된다. 다음 그림은 프로세서 코어를 나타내고 있다.

그림 9a: Block diagram of an HP PA-RISC 8800 processor core

두 코어의 레이아웃과 칩에 있는 다른 중요한 장치들을 다음 그림 9b에서 볼 수 있다.

그림 9b: Chip layout of an HP PA-RISC 8800 CPU

PA-8x00 칩의 특성은 2차 캐시가 없다는 것이다. 이로 인한 손실은 큰 L1 캐시를 두어서 보상된다. L1 캐시는 1.5 MB 데이터 캐시와 1.5 MB 명령어 캐시로 구성된다. 둘 모두 4-way 집합 연관성을 가진다. L2 캐시가 없는 문제는 8800에서 수정되었다. 8800은 칩 밖에 32 MB나 되는 큰 L2 캐시를 가진다.

PA-8600부터 logic의 축소로 인해 L1 캐시를 칩에 둘 수 있게 되었다. 캐시의 latency는 2 사이클이다. 매 사이클마다 데이터가 레지스터로 옮겨질 수 있도록 하기 위해 load/store 유닛들은 “out-of-phase”로 동작한다. 이것은 하나의 유닛이 데이터 캐시의 반을 load할 때 나머지 반을 다른 유닛이 load 하는 것이다. Address Reorder Buffer는 load들에 우선 순위를 정하고 매 사이클에 반씩 교차하여 load 하도록 한다.

다른 모든 진보된 RISC 프로세서들처럼 PA-8700(+)는 out-of-order 실행을 한다. 여기서 명령어의 순서는 Instruction Reorder Buffer (IRB)에 의해 결정되는데 IRB는 Computational Functional 유닛을 구동하는 ALU 버퍼와 load/store 유닛들을 제어하는 메 모리 버퍼를 가지고 있다. 추정 분기 (speculative branch)가 추정을 잘못한 경우, 이에 의 존하는 명령어들은 IRB에서 내려지고 새로운 후보 명령어들로 채워진다. 분기 예측은

branch history table(BHT)를 통해 제어되지만, 이것은 동적 분기 예측이고 정적인 분기 예 측은 컴파일러 수준에서 또는 프로그램의 이전 실행에 대한 실행 추적(execution trace)에 의해서 수행될 수 있다. PA-8600 이전에는 BHT의 크기가 작았었는데, 이제는 더 나은 추 정 결과를 얻기 위해 많이 커져서 2048 entry를 가진다. 더 효과적인 address translation 을 위해 Translation Look-aside Buffer (TLB)도 160 entry까지 커졌다. 또 PA-8800에는 데이터 캐시로부터의 pre-fetch 기능도 있다.

앞서 그림 9a에서 보았듯이 2개의 부동소수 연산 유닛이 있다. 이 부동소수 연산 유닛 하 나는 연산이 axpy(x=x+ay)형태일 때, 한 사이클에 2회의 부동소수 연산이 가능한데, 이것 을 HP에서는 Floating Multiply Accumulate (FMAC)라고 부른다. 이에 의해 1 GHz의 클럭 에서 이론 성능 최대치가 4 Gflop/s/CPU, 8 Gflop/s/chip에 이른다. 그러나, 연산 순서나 연 산 구성이 달라지게 되면 1 flop/cycle/floating-point 유닛은 더 낮은 flop rate으로 실행될 수 있다.

HP의 로드맵에 따르자면 앞으로 최소 하나이상의 새로운 8x00가 계획되어 있다. PA-8900은 IA-64 Itanium Montecito와 함께 시장에 나올 것인데, 그런 측면에서 보면 좀 혼란 스럽다. PA-RISC family는 가장 최신의 PA-8800 chip이 마지막이 될 것이라는 예측도 있 는데 이렇게 생각하는 것이 더 맞을 것 같다.

문서에서 최신 슈퍼컴퓨터에 대한 이해 (페이지 26-29)