· 데이터에 키값 부여해 분류/처리 속도 획기적으로 높인 ‘인덱싱 기술’ 세계 최초 적용
· 초고속 성능으로 AI · 빅데이터 · 고성능 컴퓨팅 분야 기여 전망
· “SK하이닉스 기술이 글로벌 스탠더드가 되도록 노력, 회사 경쟁력 높일 것”
SK하이닉스는 16일(현지시간) 미국 캘리포니아주 샌디에이고에서 개최된 ‘2023 R&D 100 어워드’에서 자사 기술진이 차세대 저장장치 ‘KV-CSD(Key Value Computational Storage Drive, 키값 전산 저장장치)’를 개발한 공로로 ‘IT/Electrical 부문상’을 수상했다고 밝혔다.
R&D 100 어워드는 매년 세계에서 가장 큰 혁신을 이룬 기술·제품 100가지를 선정하는 과학 기술 시상식으로, 산학계에서는 ‘혁신의 오스카상’으로 불린다.
KV-CSD는 SK하이닉스가 미국 로스앨러모스 국립연구소(Los Alamos National Laboratory, LANL)*와 공동 개발한 제품으로, SK하이닉스는 KV-CSD 개발을, LANL은 KV-CSD를 슈퍼컴퓨터에 적용하는 시스템 개발을 맡았다.
* LANL(Los Alamos National Laboratory): 미국 에너지부 산하 국립연구소이며, 국가 안보와 핵융합 분야를 비롯해 우주 탐사 등 다양한 연구를 수행한다. 특히, 2차 세계대전 당시 맨해튼 프로젝트에 참여해 세계 최초로 핵무기를 개발한 곳으로 유명하다.
이 제품은 수 PB(페타바이트)*의 대용량 데이터를 수 분 만에 처리하는 빠른 읽기·쓰기 성능을 보여주며, 자체 연산으로 데이터를 빠르게 분석할 수 있어 고성능 컴퓨팅(HPC) 분야에서 큰 주목을 받고 있다.
* PB(Peta Byte, 페타바이트): 데이터의 용량 단위로 1PB(페타바이트)는 약 1,024TB(테라바이트)와 같다.
또, SK하이닉스는 KV-CSD에 세계 최초로 ‘인덱싱(Indexing, 색인)’ 기술을 적용해 데이터 찾기 속도를 획기적으로 높였다고 강조했다.
보통 하나의 파일을 저장하면 여러 개의 저장공간인 블록(Block)*에 데이터가 쪼개져 저장되는데, ‘인덱싱 기술’을 활용하면 여러 개로 쪼개진 데이터에 고유의 키(Key)가 부여돼 필요시 이를 인덱싱(색인) 기준에 따라 빠르게 모아서 처리할 수 있다. 블록을 하나하나 들여다보며 필요한 데이터를 모아 처리하는 기존 저장장치인 SSD(Solid State Drive)보다 KV-CSD의 속도가 최대 7.4배 더 빠르다고 회사는 설명했다.
* 블록(Block): 데이터가 저장되는 공간이며, SSD와 같은 저장장치 내부는 여러 개의 블록으로 구성된다. 데이터가 저장되는 가장 작은 단위는 셀(Cell)이며, 셀이 모인 것이 페이지(Page), 페이지가 모인 것이 블록(Block)이다.
SK하이닉스 정우석 Computational Storage 팀장은 “KV-CSD는 키값과 인덱싱에 기반해 데이터를 빠르게 처리하고 분석까지 마친 뒤 원하는 결과만 CPU에 전달해주는 차세대 저장장치로, 고성능 컴퓨팅은 물론 대규모 데이터를 처리하는 AI 및 빅데이터 산업에 유용할 것”이라며 “앞으로 상용화에 주력해 다양한 분야에서 쓰이도록 노력하겠다”고 밝혔다.
뉴스룸은 Computational Storage 팀 정우석 팀장, 양순열 TL, 오태진 TL, 박인혁 TL을 만나 수상 소감과 함께 KV-CSD의 개발 배경과 핵심 기술 등에 대해 들어봤다.
“앞선 스토리지 기술력 세계적으로 알린 데 의미 있어”
▲ KV-CSD 개발 주역, (왼쪽부터) 정우석 팀장, 양순열 TL, 박인혁 TL, 오태진 TL
차세대 저장장치는 현재 여러 가지 콘셉트로 개발되고 있다. CPU에 가까운 위치에서 데이터를 처리하는 방식, 또는 CPU 대신 데이터를 직접 연산하는 방식 등 다양한 형태로 진화하고 있다. 이 중 데이터를 직접 연산하는 저장장치를 ‘컴퓨테이셔널 스토리지 드라이브(Computational Storage Drive, CSD)’라고 하는데, SK하이닉스의 KV-CSD는 바로 여기에 해당한다.
이번 제품 개발의 주역인 Computational Storage 팀은 “기존 CSD에 새로운 기술을 접목하느라 수많은 시행착오를 거쳤다”며 “그만큼 어려운 과정을 거쳐 탄생한 제품이기에 이번 수상은 더욱 뜻깊다”고 소감을 밝혔다.
개발을 주도한 정우석 팀장은 “전 세계 수많은 연구소, 기업 등이 도전하는 글로벌 어워드에서 상을 받아 자랑스럽다”며 “무엇보다 이번 수상은 SK하이닉스의 뛰어난 저장장치 기술력을 세계적으로 알린 데 의미가 있다”고 말했다.
“고객의 페인포인트를 해결해 주는 솔루션으로 탄생하게 된 KV-CSD”
KV-CSD는 고객의 페인포인트(Pain Point, 고민거리)를 해결해 주었다는 점에도 의미를 둘 수 있다고 회사는 강조했다. SK하이닉스는 이 제품이 빅데이터 처리에 소요되는 시간을 획기적으로 단축시킴으로써 ‘솔루션 프로바이더(Solution Provider)’의 면모를 보여준 사례라고 덧붙였다.
▲ 정우석 팀장이 KV-CSD 제품을 보여주며 특장점을 소개하고 있다.
정우석 팀장은 “대용량 데이터를 저장·분석할 때 불필요한 데이터까지 읽어 속도가 느려진다는 게 고객사인 LANL의 고충(Pain Point)이었다”며 “CSD의 처리 속도를 높이는 게 관건이라 판단해 키값(Key Value) 및 인덱싱(Indexing) 기반 저장장치를 제안했다”고 개발 배경을 설명했다.
▲ 양순열 TL이 KV-CSD의 특장점을 이야기하고 있다.
특히 ‘인덱싱 기술’이 관건이었다고 한다. 키값 저장장치를 구현하는 것도 쉽지 않은데, 여기에 인덱싱 기술을 접목한 건 세계 최초의 성과였다.
양순열 TL은 “LANL이 자체적으로 연구 시뮬레이션을 수행하면 수 PB(페타바이트)의 데이터가 생성되는데 여기서 원하는 데이터를 추출할 때 기존 SSD로는 수십 시간이 소요됐다”며 “하지만 키값이 부여된 데이터를 인덱싱 목록에서 바로 찾아 읽는 KV-CSD는 이 시간을 수 분으로 단축했다”고 말했다.
그는 이어 “수 PB의 데이터를 스캔해 데이터를 찾는 일은 CPU가 해야 하기에 시스템에 부담을 준다”며 “KV-CSD의 인덱싱은 데이터 처리 속도를 높이면서 시스템 부담도 최소화한다”고 장점을 꼽았다.
▲ 박인혁 TL이 KV-CSD의 핵심 기술인 세컨더리 인덱싱에 관해 설명하고 있다.
박인혁 TL은 인덱싱 기술 중에서도 ‘세컨더리 인덱싱’을 강조했다. 이는 인덱싱 목록을 더 세분화해 데이터 분류 범위를 한층 넓히는 기술이다. 박 TL은 “가령 시간대별 판매 제품을 데이터베이스화 했을 때, 일반 인덱싱으로는 특정 시간에 어떤 제품이 팔렸는지 정도까지만 찾을 수 있지만, 세컨더리 인덱싱으로는 그 제품을 누가 샀고, 얼마에 팔렸는지도 찾을 수 있어 다양한 데이터를 더 빠르게 처리하는 게 가능하다”고 말했다.
▲ 오태진 TL이 KV-CSD 테스트 앱 개발 과정에서의 어려움을 이야기하고 있다.
이번 성과를 이뤄내기까지 가장 큰 어려움으로 개발진은 ‘불확실성’을 꼽았다. 그들은 “세상에 없던 제품을 만드는 일이었기에 신기술을 이해하고, 동향을 살피고, 아키텍처를 설계하고, 제품을 개발하는 모든 것이 도전의 연속이었다”고 말하며 “특히 시제품 개발을 마친 후 성능 검증이라는 어려운 관문을 통과하는 데 수 차례의 고비를 넘겼다”고 회고했다.
오태진 TL은 “새로운 저장장치인 만큼 제품에 매칭되는 테스트 앱이 전무했다”며 “기존 테스트 앱의 요소를 하나하나 KV-CSD의 특성에 맞춰 나가며 오랜 시간을 공들인 끝에 결국 자체 테스트 앱 개발에 성공했고, 이를 통해 성능 검증을 완료했다”고 말했다.
정우석 팀장은 “SK하이닉스의 독자 기술이 앞으로 글로벌 스탠더드(표준)가 되면 회사의 경쟁력이 더 높아질 것”이라며 “협력 기관과 제품 생태계를 구축하는 등 후속 연구 및 표준화 작업을 이어가겠다”고 향후 계획을 밝혔다.
아울러 개발진은 “이번 수상으로 팀이 한 단계 성장했고 이 경험을 바탕으로 또 다른 차세대 저장장치를 개발하는 등 연구 개발에 더욱 매진하겠다”고 각오를 밝혔다.