• 검색 결과가 없습니다.

SYSTEMS UNDER DEVELOPMENT

문서에서 최신 슈퍼컴퓨터에 대한 이해 (페이지 93-96)

실험적이고 특별한 목적을 가지는 시스템이나 아직 불확실한 시스템이 아닌 현실적이고 시 장에 나올 수 있는 시스템에 대해 알아보고자 하고 있지만, 아직 개발 중이며 그래서 시장 에 나올 수 있는 기회를 가지고 있는 시스템들을 이곳에서 다루고자 한다. 앞에서 이미 발 표되고 6개월 내에 시장에 나올 수 있는 시스템들에 대해 다룰 것이라는 규칙을 정한바 있 다. 여기서 설명하는 시스템들은 이 보고서가 완성되는 시점으로 1년 이내에 시장에 나타날 것이다. 그러나 일부 업체에서는 그들의 새로운 시스템이 판매되어 설치되기 전에 그 시스 템의 자세한 데이터가 알려지는 것을 원하지 않을 수 있다. 그들은 해당 정보를 밝히지 않 을 것이고 우리는 그런 업체들의 뜻을 충분히 알고 있다(단, 잠재적인 고객들에게 지나치게 긴 시간 기대하게 하는 것이 현명한 일은 아니다.).

지금부터 6개월에서 일년 이내에 시장에 나오게 될 상업적인 시스템을 선도할 시스템에 대 해 아래에서 알아볼 것이다. 상업적인 시스템들은 대상이 되는 사용자 그룹이나 개발되는 방식(미국과 일본의 접근 방식이 현저히 다르다.)에 따라 원래의 연구 모델들과는 많이 다 를 수 있다.

최근의 주목할 만한 사건은 Intel의 IA-64 Itanium 프로세서 계열이 소개된 것이다. 이미 4 개의 업체에서 Itanium 2 기반의 시스템을 제공하고 있다. HP에서는 Itanium 프로세서 계열 로 인해 Alpha와 PA-RISC 기반 시스템의 영업을 종료할 것으로 알려져 있다. 동시에 SGI 도 MIPS 기반의 시스템 개발을 더 이상 하지 않을 것이다. 이것은 HPC 시스템을 위한 RISC 프로세서를 계속 생산하게 되는 업체는 앞으로 수년 내에 AMD와 IBM, Intel과 SUN 만이 남게 될 것이라는 것을 의미한다. 한편으로, 일본의 Earth Simulator 시스템의 등장으 로 인한 충격으로 미국이 또 다른 프로세서와 컴퓨터 아키텍처 연구를 위해 투자를 아끼지 않을 것으로 보여진다. 실제로 일부에서는 이미 그러한 계획이 시작되어 진행 중이기는 하 지만, IBM의 BlueGene을 제외하고는 1, 2년 내에 가시적인 결과를 보기는 어려울 것이다.

5.1. Cray Inc.

2002년 말에 Cray사의 차세대 벡터 프로세서, X1이 시스템에 장착되기 시작하였다. X1은 Cray SV-1s에서 발견할 수 있는 기술들을 기반으로 하였다. Cray는 약 2010년까지 앞으로 의 시스템들에 대한 로드맵을 널리 광고하고 있다. 그들 중 얼마나 많은 시스템들이 실현될 지는 두고 봐야 하겠지만, 적어도 2종의 시스템은 2005년에 시장에 나올 것이 확실하다.

그 중 하나는 Cray X1e로 현재의 X1 시스템과 비교해 프로세서 클럭이 800 MHz에서 1.2 GHz로 향상된 것 이외에는 다른 것이 아무것도 없다. 다른 하나는 Cray Strider로 Cray가 Sandia Laboratories에 설치한 AMD Opteron(11,648개 프로세서) 기반의 Red Storm 시스 템의 상업용 버전이다. 이 시스템은 값싼 프로세서와 AMD의 HyperTransport, Cray의 SeaStar router ASIC를 기반으로 하는 고속 네트워크로 인해 많은 관심을 끌고 있다.

X1e를 뒤이어 Black Widow가 2006년경에 시장에 나올 것으로 계획 중이다. 최근에는 코 드명 “Rainier” 불리는 새로운 타입의 시스템 개발 계획이 알려졌다. 이 시스템에서는 프로 세서 사이의 네트워크가 중요 부분이고 이 네트워크에서는 벡터 타입(Black Widow), 스칼 라 타입(AMD or other) 또는 특별한 함수를 위한 FPGAs/DSPs 등과 같은 서로 다른 타입 의 노드가 혼합되어 사용될 수 있다. Red Storm 네트워크를 더욱 업그레이드시킨 형태가 이와 같은 시스템을 위해 매우 적합해 보이기는 하지만 실현되기에는 아직 시간이 더 필요 해 보이고 기술적인 문제에 부닥치게 될 것은 자명해 보인다.

5.2. Hewlett-Packard/Intel

HP와 Intel은 Itanium 프로세서 패밀리를 통해 다가올 수년 동안 아주 큰 영향력을 가지게 될 것이다. Itanium을 기반으로 하는 듀얼 코어 프로세서가 이미 drawing board상에 있고 1, 2년 이내에 시장을 강타할 것이다. 일반적으로 듀얼 코어 프로세서는 동일한 싱글 코어 프로세서에 비해 상대적으로 좋지 않은 성능을 가지므로 듀얼 코어 프로세서에 의한 성능 향상이 그다지 크지는 않을 것이다. 이보다는 시스템 아키텍처가 더 중요할 것이다. 또한 프로세서 자체의 변화가 성능을 향상시킬 것으로 보인다. HP/Intel이 가지고 있는 VLIW 프 로세서에 대한 경험으로 인해, 사람들은 보다 긴 명령어 word를 가지는 프로세서 개발 쪽 으로 연구 방향이 맞춰질 것을 기대한다. 그리고 FFT나 sparse Matrix-Vector 곱셈과 같 은 고수준 연산을 위한 특별한 장치를 포함할 가능성에 대한 기대도 있다. 그렇지만 이와 같은 개선이 미래의 시스템에서 언제 어떻게 실현될지는 불확실하다. 분명한 것은 앞으로 2 년 내에는 어렵다는 것이다. HP의 drawing board상에 올라온 시스템 중에 급진적으로 다른 형태의 아키텍처를 가지는 것은 아직 없다. 대신 HP는 이미 Itanium 기반의 대형 시스템들 을 설치해 오고 있는 클러스터 분야에 더 많은 관심을 기울이고 있다.

5.3. IBM

IBM은 이미 몇 년 동안 Blue Gene 시스템에 힘을 쏟고 있다. 첫 시스템으로 Blue Gene/L 이 2004년에 나올 것으로 보인다. 이 시스템은 700 MHz 클럭과 두 개의 부동소수 유닛을 가지는 프로세서 65,536개로 이루어질 것이다. 각 부동소수 유닛은 지금의 POWER4와 마 찬가지로 fused multiply-add가 가능해 이론 최대 성능이 183.5 Tflop/s에 이른다. 또 다른 후속 Blue Gene 시스템들로 최대 성능이 1Pflop/s인 Blue Gene/P와 최대 성능이 3 Pflop/s인 Blue Gene/Q가 계획 중이다. 이 모든 시스템들은 HPC 사용자들을 주 대상으로 해서 개발 되고 있지만, 일반 시장에서도 사용 가능하도록 적절한 아키텍처 특성을 마련하 려고 노력할 것이다.

물론 POWER4 프로세서의 개발도 계속될 것이다. POWER5 프로세서는 POWER4를 능가하 는 기술적인 장점을 가지게 될 것이다. POWER5에서 고려되고 있는 것은 프로세서 8개를

묶어 60 ~ 80 Gflop/s에 이르는 하나의 가상 벡터 프로세서를 구성하는 방법이다. 이것을 ViVA(Virtual Vector Architecture)라고 부른다. 이 같은 방법은 Hitachi의 SR8000 프로세 서나 Cray X1에서 사용된 MSP 프로세서를 연상 시킨다. ViVA의 구현은 2004/2005년에 POWER5가 나오고도 몇 년은 더 걸려야 가능할 것이다.

5.4. SGI

SGI가 MIPS기반 시스템 생산을 중단할 것이라는 사실이 최근에 알려지고 있다. 따라서 SGI는 Itanium 기반의 시스템을 제공하는 다른 업체들과의 차별성을 SGI 시스템의 macro-architecture에 두고자 한다. 시스템 아키텍처의 주요 개선 방향은 네트워크(Numalink3를 Numalink4 및 그 이상으로 더욱 개선)의 속도와 하나의 시스템 이미지 내에 대량의 프로세 서를 가지는 시스템을 구성하는 것 등이다. 그 점에 있어서 SGI는 이미 미래의 Altix x000 시스템으로 확장됐을지도 모르는 MIPS 기반 Origin 3000 시스템에 대한 경험이 있다.

5.5. SRC

SRC사는 당대의 최대 속도를 끌어 올리는 경향을 보인다. SRC는 Field Programmable Gate Arrays(FPGAs)를 통해 일반 프로세서들을 보완하는 기술을 사용하고, 이를 통해 사 용자가 정의하는 특별한 작업들을 위한 시스템 구성을 가능하게 한다. 이 기술을 사용하면 동일한 작업에 대해 일반 프로세서를 사용하는 것보다 현저하게 빠른 결과를 얻을 수 있다.

SRC가 제공하는 SRC-6 시스템은 표준 IA-32 프로세서를 가지는 256개의 듀얼 프로세서 보드로 구성되며 각각의 보드는 하나의 Multi-Adaptive Processor(MAP) 유닛으로 연결된 다. MAP는 FPGA, 개별 메모리, MAP 컨트롤러와 필요할 때 유닛을 재설정하는 logic으로 구성된다. MAP들은 링 네트워크로 서로 연결되고 로컬 메모리를 가지는 표준 프로세서 보 드는 MAPs를 거쳐 읽기와 쓰기 크로스바를 통해 글로벌 메모리로 연결된다.

문서에서 최신 슈퍼컴퓨터에 대한 이해 (페이지 93-96)