2022년 혜성처럼 등장한 챗GPT는 생성형 인공지능* 열풍을 일으키며 지난 1년 새 많은 것을 바꿔놓았다. 거대언어모델(Large Language Model, LLM)에 기반해 사람의 말을 알아듣는 이 AI는 ICT 분야를 넘어 교육·의료·서비스 등 수많은 영역으로 확장하며 우리 삶을 새롭게 정의하고 있다.
반도체 산업도 생성형 AI 열풍에 발맞춰 숨 가쁜 한 해를 보냈다. 특히 AI 연산에서 메모리의 역할이 더더욱 중요해지며, 메모리 기업들은 AI용 반도체를 개발하는 데 많은 시간과 노력을 쏟았다.
그 가운데서도 SK하이닉스는 올해 AI 메모리 시장에서 가장 큰 두각을 보였다. ▲글로벌 1위 HBM(High Bandwidth Memory)을 필두로 ▲PIM(Processing-In-Memory) 반도체 GDDR6-AiM 기반의 가속기 카드 ‘AiMX’ 시제품을 선보였고 ▲차세대 메모리 솔루션 ‘CXL(Compute Express Link)’ 상용화에도 힘썼다.
뉴스룸은 SK하이닉스 AI 메모리 3종의 한 해를 정리했다. 주요 성과부터 로드맵까지 한눈에 살펴보자.
* 생성형 인공지능(Generative AI): 딥 러닝 모델을 사용하여 대량의 데이터를 학습, 이용자의 요구에 따라 능동적으로 결과를 생성하는 인공지능 기술
SK하이닉스, 적재적소 활용 가능한 AI 메모리 라인업 구축
성과에 앞서 SK하이닉스의 AI 메모리 3종을 자세히 알아보자. 특징과 활용도가 어떻게 다르기에 각각 개발에 나서는 것일까?
▲ SK하이닉스가 2023년 8월 공개한 HBM3E 제품
먼저, HBM은 여러 개의 D램을 수직으로 연결해 데이터 처리 속도를 높인 초고성능 D램을 말한다. 고속 병렬 연산에 적합하도록 메모리 대역폭*을 극대화한 것이 특징이다.
HBM은 모든 AI 분야에 활용할 수 있지만, 특히 학습에 효과적이다. AI 학습 과정에서 GPU로 전달하는 데이터가 가장 크고 많기 때문이다. 소프트웨어(SW) 개발이 함께 필요한 PIM 대비 비교적 빠르고 효과적으로 연산 성능을 높일 수 있어 현재 가장 각광받는 AI 메모리로 꼽힌다.
* 대역폭(Bandwidth): 데이터가 지나는 통로를 의미하며, 대역폭이 넓을수록 한 번에 입출력하는 데이터의 양이 많다.
▲ GDDR6-AiM을 여러 개 모아서 개발한 PIM 가속기 카드 AiMX
PIM은 메모리 반도체에 연산 기능을 더한 지능형 메모리 반도체다. 이는 GPU와 CPU가 메모리에서 데이터를 불러와 연산하는 폰노이만 구조와 달리 메모리 내부에서 연산하는 것이 특징이다.
PIM은 메모리 반도체 내부 저장 공간(뱅크, Bank)마다 전용 내부 데이터 경로의 대역폭을 활용해 연산 속도를 높이며, 연산을 마친 소량의 데이터만 xPU로 전달하기에 병목 현상*과 데이터 이동 거리를 획기적으로 줄여 전력 소모량을 절감하는 효과도 있다.
특히, PIM은 AI 연산 중 추론 영역에 특화된 제품이다. 학습은 시간당 얼마나 많은 데이터를 처리하는지가 중요하고, 추론은 데이터를 지연시간(Latency) 없이 얼마나 빠르게 처리하는지가 사용자의 요구 사항을 충족하기 위한 핵심 요소이기 때문에, 메모리가 연산한 값을 신속히 전달할 수 있는 PIM은 추론에 더 효과적인 것이다.
* 병목 현상: 다음에 처리해야 할 데이터가 메모리에서 도달하지 못해 컴퓨팅 장치가 대기하는 상황이 발생하는 현상
▲ SK하이닉스가 2022년 공개한 DDR5 96GB CXL 2.0 메모리 샘플
CXL은 PCIe* 기반으로 CPU, GPU, 가속기 등 여러 장치와 메모리를 연결하는 통합 인터페이스 기술이다. AI 연산을 위해선 메모리 용량과 대역폭 확장이 필수인데, 기존 시스템에서는 한계가 있다. CPU마다 확장할 수 있는 D램 개수가 제한적이고, 확장한다 해도 대규모 데이터를 처리하는 데는 역부족이기 때문이다.
PCIe 기반의 CXL을 사용하면 모듈을 추가하는 방식으로 메모리 용량과 대역폭을 크게 늘릴 수 있다. 여러 장치에 CXL 메모리를 효율적으로 나눠 쓸 수 있고, 가속기를 붙여 연산에 활용할 수도 있다.
즉, 기존 시스템 변형 없이 성능을 높이고, 전체 메모리를 효율적으로 관리하는 수단을 제공하며, 공유 및 연산 기능으로 AI 데이터를 처리하는 단계별(학습·추론) 환경을 구축할 수 있게끔 도와주는 솔루션이 CXL인 것이다. 이를 위해 CXL 메모리 컨트롤러*가 적용되는데, 이는 여러 장치가 CXL 메모리를 공유할 수 있도록 해준다.
* PCIe(Peripheral Component Interconnect Express): 디지털 기기의 메인보드에서 사용되는 직렬 구조의 고속 입출력 인터페이스
* CXL 메모리 컨트롤러: CPU 등으로부터 명령어를 받은 뒤 D램을 제어해 데이터를 읽고 쓰는 기능을 하는 시스템 반도체
이처럼 HBM, PIM, CXL은 AI 메모리로 불리지만, 저마다 특징과 쓰임이 모두 다르다. 이에 SK하이닉스는 고객이 필요에 따라 자사 환경에 맞는 메모리를 효과적으로 활용할 수 있도록 3종의 솔루션을 모두 개발하며 AI 메모리 라인업을 탄탄히 갖춰 나가는 중이다.
글로벌 1위 수성… HBM 경쟁 우위 굳건히 지켰다
SK하이닉스는 세계 최초로 TSV 기반 HBM 제품을 내놓은 이래 MR-MUF*, 어드밴스드 MR-MUF* 등의 선행 기술을 접목하며 지속적인 성능 향상에 나서고 있다. 2013년 회사는 TSV* 기술로 D램 칩 사이사이에 수천 개의 데이터 이동 통로를 만들어 고용량, 고대역폭 HBM을 구현했다. 이후 MR-MUF 기술로 D램 칩을 쌓고 포장해 생산성을 높였다. 최근에는 어드밴스드 MR-MUF까지 개발, 더 작은 크기로 고용량 패키지를 만들고 열방출 성능도 개선했다[관련기사].
* MR-MUF(Mass Reflow-Molded UnderFill): 매스 리플로우(MR)는 모든 범프를 한 번에 녹여 수직 적층된 칩을 연결하는 기술, 몰디드 언더필(MUF)은 적층된 칩 사이에 보호재를 넣은 후 전체를 한 번에 굳히는 기술로, 칩을 하나씩 쌓을 때마다 필름형 소재를 깔아주는 방식 대비 공정이 효율적이고 열 방출도 효과적이다.
* 어드밴스드 MR-MUF(Advanced MR-MUF): ‘웨이퍼 휨 방지 기술’로 더 얇은 칩을 더 많이 적층하고 ‘신규 보호재’로 언더필을 진행하여 열 방출 성능을 높이는 기술
* TSV(Through Silicon Via): D램 칩에 수천 개의 미세한 구멍을 뚫어 상·하층 칩의 구멍을 수직 관통하는 전극으로 연결하는 기술
이 같은 기술력을 바탕으로 올해 SK하이닉스는 24GB(기가바이트) 12단 HBM3(이하 12단 HBM3)를 개발했다[관련기사]. 지난 8월에는 세계 최고 성능의 HBM3E* 개발을 마쳤다[관련기사]. 이 제품의 핀당 처리 속도는 초당 9.2Gb 이상이며, 데이터 처리량은 초당 1.15TB(테라바이트)에 달한다. 용량은 12단 HBM3와 같지만, 층수는 8단으로 더 적다. 12단 개발 시 더 많은 용량을 확보할 수 있는 셈이다. 특히 이 제품은 고객 인증 과정에서 고사양 GPU의 성능을 최상위로 끌어올리는 것으로 밝혀져, 더 많은 기대를 받고 있다.
* 1세대(HBM)-2세대(HBM2)-3세대(HBM2E)-4세대(HBM3)를 거쳐 5세대(HBM3E)까지 개발됨. HBM3E는 HBM3의 확장(Extended) 버전
HBM3E 개발을 성공적으로 마친 SK하이닉스는 국내외 행사에 참여하며 기술 리더십을 공고히 했다. 지난 10월 OCP 글로벌 서밋 2023에서 HBM3E를 세계 최초로 공개한 회사는 하반기 주요 행사에 참석해 HBM3E의 경쟁 우위를 널리 알렸다[관련기사].
경쟁 우위는 내년에도 지속된다. GSM 김왕수 팀장은 “내년에는 HBM3E의 양산·판매가 계획되어 있어, 자사의 시장 지배력이 다시 한번 극대화할 것”이라며 “후속 제품인 HBM4 개발도 본격화할 예정이기에 내년은 SK하이닉스의 HBM이 새로운 국면(Phase)을 맞는 한 해가 될 것”이라고 언급했다.
또 김 팀장은 “AI 산업이 빠르게 성장하는 만큼 HBM 제품도 현재 AI 서버에 국한된 것을 뛰어넘어 AI와 관련된 모든 영역으로 확장할 것”이라며 “이 시점에 자사의 HBM 제품은 AI 산업을 이끄는 매우 중요한 역할을 맡을 것”이라고 전망을 밝혔다.
저전력으로 10배 빠른 응답 속도… AiMX로 ‘눈도장’
SK하이닉스의 PIM은 GDDR6-AiM*을 시작으로 상용화에 한 발짝 다가서고 있다. GDDR6-AiM은 xPU와 함께 사용하는 지능형 메모리 반도체로, 그래픽 D램인 GDDR6에 가속기(Accelerator)*가 덧붙은 제품이다[관련기사].
* AiM(Accelerator-in-Memory): SK하이닉스의 PIM 반도체 제품명, GDDR6-AiM이 이에 포함됨
* 가속기(Accelerator): 각종 정보 처리와 연산에 특화 설계한 칩(Chip)을 사용해 만든 특수 목적의 하드웨어(Hardware) 장치를 통칭
SK하이닉스는 지난 9월, 이 메모리를 기반으로 한 AiMX* 시제품을 공개하며 업계 관심을 한 몸에 받았다. AiMX는 GDDR6-AiM 여러 개를 연결해 성능을 높인 가속기 카드로, GPU 대신 AI 연산에 활용할 수 있다. LLM 추론 기반 서비스에 특화된 이 제품은 GPU 대비 빠른 응답 속도와 더 적은 전력으로 데이터를 처리한다.
* AiMX(AiM based Accelerator): GDDR6-AiM 칩을 사용해 대규모 언어 모델(Large Language Model, 대량의 텍스트 데이터로 학습하는 인공지능으로 챗GPT가 이에 해당)에 특화된 SK하이닉스의 가속기 카드 제품
같은 달, 회사는 AI 하드웨어 & 엣지 AI 서밋 2023에서 AiMX 시제품의 실성능을 공개하기도 했다. AiMX 시제품을 탑재한 서버에서 메타(Meta)의 생성형 AI인 ‘OPT(Open Pre-trained Transformer) 13B(Billion)’ 모델을 시연한 것이다. 130억 개 매개변수를 가진 AI 모델로 추론을 진행했는데, AiMX 시스템은 GPU를 탑재한 시스템 대비 반응 속도는 10배 이상 빠르지만, 전력 소모는 1/5 수준이다[관련기사].
올 하반기 SK하이닉스는 각종 행사에 참여해 AiMX가 바꿔나갈 미래에 관해서도 중요하게 언급했다. 특히 AiMX가 빠른 응답 속도로 AI 서비스의 답변 속도를 높이고, 낮은 소비 전력으로 운영 비용을 크게 줄여준다고 강조했다.
본격적인 상용화를 위해 내년에는 성능과 활용 범위를 더욱 높일 계획이다. Solution개발 권용기 팀장은 “SK하이닉스의 AiM은 AI 추론 분야에서의 핵심인 가격 경쟁력을 갖춘 유일한 AI 솔루션”이라며 “데이터센터부터 온디바이스(On-Device) AI*를 탑재한 모바일까지 AI 추론 영역에서 폭넓게 활용될 것”이라고 이야기했다.
* 온디바이스(On-Device) AI: 인터넷 접속 없이 스마트폰과 같은 단말기 내에서 바로 AI 연산과 추론을 처리하여 효율을 높이는 개념
또, “수백 GB급 LLM에 대응하기 위해 스펙 향상을 진행한다”며 향후 로드맵을 언급했다. SK하이닉스는 고용량 AiMX 시제품을 내놓고, OPT 13B보다 더욱 큰 규모의 LLM을 시연한다는 계획이다.
CXL 상용화 초읽기… 다양한 AI 서비스에 최적화된 환경 제공한다
현재 SK하이닉스는 CXL 기반 3가지 솔루션으로 AI 메모리 시장을 공략하고 있다. ▲CXL 2.0 E3.S 메모리 확장 솔루션(Memory Expansion Solution, 이하 확장 솔루션) ▲CXL 풀드 메모리 솔루션(Pooled Memory Solution) ▲CMS(Computational Memory Solution) 2.0 등이다[관련기사].
확장 솔루션은 기존 서버 시스템의 메모리 용량을 확장하고, 대역폭을 높여주는 솔루션이다. SSD와 같은 EDSFF E3.S 폼팩터를 사용하고 PCIe 5.0을 지원해, 손쉽게 부착해 용량과 성능을 높일 수 있다[관련기사].
올해 SK하이닉스는 제품화를 위해 많은 고객과 검증 협업을 진행했다. 5월에는 실물 서버에 적용한 DDR5 96GB CXL 2.0 메모리를 공개, 상용화에 한 발짝 더 다가섰다. 적극적인 협업을 통해 고객사의 솔루션 채용을 이끌어낸 것은 올해 CXL 분야에서 거둔 가장 큰 성과다.
풀드 메모리 솔루션은 여러 개의 CXL 메모리를 묶어 풀(Pool)을 구성하고, 여러 호스트(CPU, GPU 등)가 용량을 나눠 쓰도록 해주는 솔루션이다. 유휴 메모리가 없도록 사용을 최적화하고, 전력 소모를 줄여 비용을 절감하는 효과가 있다. SK하이닉스는 이를 구현한 ‘나이아가라(Niagara): CXL 분리형 메모리 솔루션’ 시제품을 공개하며[관련기사], 메모리 확장에 이은 또 다른 경쟁력을 보여줬다.
CMS 2.0은 CXL 메모리에 연산 기능을 통합한 솔루션이다. 메모리 확장성이 높은 CXL의 장점에 머신러닝 및 데이터 필터링 연산 기능이 더해진 것이 특징이다. 지난해 10월 CMS 개발에 성공한 SK하이닉스[관련기사]는 올해 기술을 고도화하는 한편, 성능 시연에 나서며 경쟁력을 알렸다.
CXL 3종의 성능은 델 테크놀로지스 월드 2023[관련기사], 슈퍼컴퓨팅 2023[관련기사] 등에서 확인할 수 있었다. 이를 통해 회사는 메모리 확장 솔루션이 기존 시스템 성능을 얼마나 향상하고, ‘나이아가라’ 시제품이 인공지능과 빅데이터 처리 분산 시스템에서 메모리 성능을 어떻게 높이며, CMS 2.0이 데이터 처리 성능과 에너지 효율 향상에 얼마나 기여하는지 보여줬다.
내년에는 상용화에 주력한다. SK하이닉스는 메모리 확장 솔루션 제품화 및 양산에 나선다. GSM 최원하 TL은 “96GB와 128GB 제품을 중심으로 24년 상반기에는 고객 인증을 마치고, 하반기에 상용화할 예정”이라며 “CXL 2.0 메모리 확장 솔루션을 적용한 고객은 DDR5만 탑재한 기존 시스템 대비 최대 50% 대역폭 향상을 기대할 수 있고, 용량 확장도 최대 50~100%까지 가능하다”고 언급했다.
이제 하나의 서버에 고대역폭·고용량 메모리를 탑재하는 방식으로는 AI 시대에 대응할 수 없다. 미래의 AI 시스템은 HBM으로도 충족할 수 없는 대용량 메모리를 요구할 수도 있다. 그렇기에 확장 솔루션으로 메모리 용량을 늘리고, 풀드 메모리 솔루션으로 공유하며, AI 연산까지 가능한 CXL은 주목받을 수밖에 없다.
이에 최 TL은 “SK하이닉스는 공유, 연산 등 다양한 응용 사례를 창출하는 동시에 HBM이 주도하는 AI 시장에 더불어 더 많은 용량으로 유연하게 확장할 수 있는 CXL 제품을 개발할 것”이라고 계획을 밝혔다.
HBM으로 시장을 선도하는 가운데 AiMX, CXL 솔루션으로 AI 메모리 라인업을 탄탄하게 마련해 놓은 SK하이닉스. 내년 회사는 후속 제품들의 상용화를 본격화하며, Global No.1 AI Company의 지위를 더욱 굳건히 할 계획이다.