[DGIST 시리즈 4편] 의료 분야의 빅데이터와 인공지능의 발전 그리고 반도체의 역할

뉴스룸에서는 대구경북과학기술원 교수 7명과 함께 반도체 기본 모듈과 반도체 적용 사례, 메모리, 인터페이스 회로 등을 주제로 총 7편의 칼럼을 연재하고 있다.이번 4편에서는 로봇 및 기계전자공학과 유재석 교수로부터 차세대 의료 시스템의 등장으로 인해 지속적으로 증가하는 데이터와 이를 위한 솔루션인 반도체 기술에 대해 알아볼 것이다.

※대구경북과학기술원(DGIST, Daegu Gyeongbuk Institute of Science and Technology): 반도체 융합기술, 뇌공학, 마이크로레이저 등 다양한 첨단 과학 기술을 연구하고 있다. 특히 반도체 분야에서는 전문적인 연구개발(R&D)과 함께 캠퍼스 내 반도체 제조 시설을 구축 운영하고 있다.

전 세계적으로 인구 고령화가 진행되면서 각국 의료 시스템에도 부담이 가중되고 있다. 한국의 경우, 통계청에 따르면 1970년대에는 62.3세였던 국민 기대 수명이 꾸준히 늘어 2021년에는 83.6세에 도달했다. 이제 한국은 공식적으로 고령화 사회에 해당된다. 2022년에 전체 국민 중 65세를 넘은 인구가 차지하는 비율은 17.5%를 돌파했고, 2025년이면 20.6%로 늘어날 전망이다. 한국이 세계에서 가장 빠른 속도로 고령화되고 있지만, 다른 많은 국가에서도 이와 같은 인구 변화 추세를 보이고 있다.

따라서 건강 관리에 대한 관심이 부쩍 높아졌으며, 의료 시스템에 지워지는 부담을 덜기 위한 기술 개발에도 이목이 쏠리고 있다. 예를 들어, 개인의 건강 상태를 꾸준히 모니터링할 수 있는 POC(Point of Care)* 차세대 의료 영상 시스템이 각광받고 있다. 차세대 의료 시스템에 적용되는 기술들은 많은 양의 데이터를 기반으로 한다는 특징이 있다. 기본적으로 상시 개인의 건강 상태를 모니터링하며 많은 양의 데이터가 매일 생성된다. 또한, 빅데이터 기반의 인공지능이 위험 요인을 분석하고 예측하여 환자가 적절한 시기에 치료받을 수 있도록 지원하거나, 영상의 표준화를 통해 적절한 진단을 가능케 하는 3D 초음파 영상 기술과 같은 기술들이 필요하다. 이러한 기술들은 데이터의 양이 기존과는 비교도 안 될 정도로 많다는 공통점이 있다. 따라서 보다 많은 데이터를 처리하기 위한 고속, 대용량 반도체 메모리가 차세대 의료 영상 시스템의 핵심 필수 요소로 자리 잡으며 수요가 꾸준히 증가하고 있다.

* POC(Point of Care) : 환자가 있는 현장에서 실시하는 의료 검사로, 결과를 기관이나 연구소로 보낼 필요 없이 즉석에서 확인 가능한 검사를 일컫는다.

초음파 영상 기술의 발전

Sk hynix_DGIST 유재석 기고문_01

▲ 초음파 영상 기술의 진화

초음파 장비는 POC 검사에 가장 적합한 의료용 영상 기술이다. 이는 저렴한 가격, 안전성, 소형으로 제작될 수 있다는 장점 덕에 가정용으로 쓰기에 가장 적합한 장비라고 할 수 있다. 다른 의료용 영상 기술, 예를 들어 자기공명영상(MRI), 전산화단층촬영(이하 CT), 양전자단층촬영(이하 PET)과 같이 병원에서 흔히 쓰이는 장비는 소형화하기 어렵다. 게다가 CT와 PET의 경우 방사선을 사용하기 때문에 가정용으로는 안전상 위험이 따른다. 반면 초음파 영상 기술은 소형화가 가능할 뿐만 아니라 방사선을 사용하지 않기 때문에 비교적 안전한 편이다. 또한 초음파는 환자의 몸속을 실시간으로 보여주기 때문에, 특히 신속한 진단이 필수인 뇌졸중과 같은 혈관 질환을 모니터링하는 데 적합하다.

최근 초음파 영상 기술의 연구 개발은 크게 두 가지다. 하나는 병원에서 쓰는 고급/고성능 시스템이고 다른 하나는 다양한 환경에서 쓰는 휴대용 POC 시스템이다. 특히 소형 디바이스 시장은 최근 몇 년간 크게 성장했고, 코로나19 팬데믹 이후 더욱 주목받고 있다. 예를 들어, 미국 스타트업 Butterfly Network가 스마트폰과 연동하여 초음파 영상을 볼 수 있는 소형 POC 시스템인 ‘Butterfly IQ’를 2018년에 개발했다. 이는 2022년 10월에 복부, 심장, 태아, 산부인과, 근골격, 소아, 혈관, 장기, 비뇨기 등 13종류 체내 영상을 촬영할 수 있는 스캐너로 FDA의 승인을 받으며 전 세계 20개국에 서비스되고 있다.

첨단 초음파 영상 장비와 데이터 대역폭

최근 초음파 영상 분야 연구에서는 많은 양의 데이터를 빠르고, 효율적으로 처리하는 기술에 대한 수요가 늘어나고 있다. 대용량의 반도체 메모리와 고속 인터페이스의 등장에 따라 많은 양의 데이터를 취득하는 것이 가능해지면서 초고속 영상 기법들이 속속 개발되었고, 많은 양의 데이터를 활용하여 영상을 재구성하면서 기존에 비해 훨씬 좋은 품질의 영상을 얻을 수 있게 되었다. 또한, 하드웨어의 발전에 따라 기존 대비 수백 배의 데이터양을 요구하는 3차원 영상 기술에 대한 연구도 최근 다시 주요 연구 주제에 오르게 되었다.

현재 초음파 시스템의 가장 중요한 한계는 2D 단면 이미지만 표시할 수 있다는 것과 장비를 작동하는 사람의 숙련도에 따라 결과가 크게 달라질 수 있다는 것이다. 후자의 문제점을 ‘작동자 의존도’라고 부른다. 영상의 표준화를 통해 ‘작동자 의존도’를 최대한 낮출 수 있는 3D 영상 기술에 대한 연구는 꾸준히 진행 중이다. 지금도 한정된 형태로 3D 초음파 영상 기술을 구현할 수는 있으나 많은 기술적인 문제로 인해 고화질 3D 이미지를 실시간으로 표시하기는 어려운 상황이다.

가장 큰 한계점은 데이터 대역폭이다. 휴대용 초음파 시스템이 3D 이미지를 도출하려면 초음파 어레이(Array) 트랜스듀서(Transducer)*에 속한 여러 소자를 1차원(1D) 선형 어레이(Array) ‘n’개에서 2D 평면 어레이(Array) ‘n²’개로 늘려야 한다. 1D 선형 어레이(Array) 개수인 ‘n’이 보통 128~256 사이의 숫자라는 점을 감안할 때, 3D 이미지를 처리하려면 엄청난 양의 데이터가 필요하다는 것을 쉽게 예측할 수 있다. 일반적인 2D 초음파 영상 시스템의 경우, 아날로그-디지털 변환기(ADC, 보통 40~60MHz)*에 연결해서 데이터를 수신하는데, 이 장비는 최대 데이터 대역폭이 초당 몇 기가바이트(GB) 수준에 불과하다. 따라서 3D 초음파 시스템에는 대략 초당 수백 기가바이트에 달하는 대역폭이 필요할 것으로 추정할 수 있다.

* 트랜스듀서(Transducer) : 하나의 에너지 유형을 다른 형태의 에너지 유형으로 변환하는 것으로, 전기 신호를 음파로 바꾸는 장치. 파장 송신과 수신이 동시에 이루어진다.

* 아날로그-디지털 변환기(Analog-to-Digital Converter, ADC) : 아날로그 신호를 표본화하여 디지털 신호로 변환하는 장치. 이를 통해 아날로그 신호를 디지털 신호로 변환한 후 디지털 신호 처리 장치에서 처리할 수 있다.

Sk hynix_DGIST 유재석 기고문_02

▲ 2D와 3D 초음파 영상 시스템 비교

이에 따라 3D 이미지를 제공하면서도 데이터 사용량은 줄이는 기술이 다수 연구되고 있다. 예를 들어 희소 어레이 이미징(Sparse Array Imaging) 기술*, 압축 센싱(Compressive Sensing) 기술*, 딥러닝 기반 이미지 품질 향상 기술 등이 대표적이다. 또한 근본적으로 데이터 대역폭을 개선하는 것을 목표로 삼는 여러 방법에 관한 연구도 진행되고 있다. 무엇보다 중요한 것은 폭증하는 대량의 데이터를 효율적으로 전송하고 처리할 수 있는 기술을 개발해 3D 초음파 영상의 한계를 극복하는 것이다.

* 희소 어레이 이미징(Sparse Array Imaging) 기술 : 초음파 트랜스듀서에 기반해 데이터 수집 및 이미지 생성을 최적화하는 기술로, 의료 영상 분야에서 저비용 및 효율적인 초음파 이미지를 위해 사용되고 있다.

* 압축 센싱(Compressive Sensing) 기술 : 적은 수의 관측치로 원래 신호를 복원할 수 있어, 데이터의 효율적인 수집과 압축, 재구성을 가능하게 하는 기술이다.

의료계에서 인공지능이 지닌 잠재력과 장애물

정규화된 3D 이미지 데이터를 얻게 되면 이를 관련 모니터링 데이터와 함께 해석하여, 조기 진단과 예측에 바로 사용할 수 있어야 한다. 현재는 이런 업무를 전문 의료인이 맡고 있는데, 이는 시간과 비용이 많이 드는 일이다. 때문에 기술 발전으로 인공지능이 의사를 부분적으로 대체하거나 보조하게 될 것으로 전망되나, 의료계에 인공지능을 통합하는 과정은 순조롭지만은 않을 것으로 보인다. 인공지능이 많은 분야에서 뛰어난 성과를 보였음에도 불구하고, 의료계에 적용하기 위해선 넘어야 할 장애물이 많기 때문이다.

의료 진단에서 인공지능을 활용할 때의 문제점은 여러 가지가 있는데, 가장 큰 문제는 특정 질병과 관련된 데이터가 몹시 복잡하며, 데이터를 해석하는 데 주관적인 판단이 개입할 수밖에 없다는 점이다. 물론 대부분의 상황에서는 잘 정제된 학습 데이터의 모음(데이터 세트)를 정립해 의료 부문에서도 인공지능이 성과를 내도록 만들 수 있을 것이다. 하지만 결국 그러한 데이터 세트를 선정하고 라벨(Label)을 지정하며 생성할 수 있는 인력은 역시 전문가인 의사뿐이다. 이 점이 바로 의료 인공지능 개발에 가장 큰 난관으로 작용하는 부분이다. 또한 현존하는 의료 데이터에는 양적으로 한계가 있을 뿐만 아니라, 데이터를 정제하는 데 엄청난 시간과 비용이 소요된다. 결과적으로 양질의 데이터 세트를 확보하기 어렵고, 데이터 세트를 확보한다고 해도 사람이 학습용 데이터 세트를 생성할 때 주관적인 판단이 개입되기 때문에 데이터 해석이 달라질 가능성이 있다는 어려움도 있다.

진단용 의료 인공지능을 학습시키기 위한 또 다른 장애물은 인종, 국가, 문화적 배경이 다른 엄청난 양의 환자 배경 데이터를 동기화해야 한다는 것이다. 이것이 국가에 따라 사용하는 의료용 인공지능 시스템의 진단 정확도가 크게 달라지는 주된 원인인 것으로 추측된다. 또한 모든 전자 의료 기록(Electronic Medical Record, EMR) 데이터를 시스템에 수작업으로 입력하는 번거로운 과정이 필요한데, 이는 대단히 불편할 뿐만 아니라 인공지능이 새로운 정보를 학습하기 어렵게 만든다. 이와 같은 의료계 데이터 확보 문제 때문에 인공지능이 참조 데이터 없이 대량의 데이터만 학습하면 결과를 도출할 수 있는 비지도형 학습*과 같은 기술이 개발되었다. 최근 진행된 몇몇 연구에 따르면 이러한 기술은 지도형 학습* 시스템에 견줄 만한 성과를 제공하는 것으로 드러나 이목이 집중되고 있다.

* 비지도형 학습(Unsupervised Learning) : 머신러닝의 학습 방법 중 하나로, 정답 라벨이 없는 데이터를 통해 알고리즘이 데이터의 비슷한 특징을 군집화시켜 학습하는 방법이다.

* 지도형 학습(Supervised Learning) : 정답이 있는 데이터로 인공지능을 학습시키는 방법. 알고리즘에게 입력 값과 그에 대응하는 정답 라벨을 함께 주어 결과 값을 예측하게 하는 방법이다.

의료용 인공지능 데이터의 핵심

의료 분야에 인공지능을 도입했을 때 데이터의 해석과 동기화가 문제가 될 수 있다는 점이 분명해짐에 따라, 앞으로는 데이터의 수집, 활용하는 방법을 개선하는 것이 의료 인공지능을 발전시키는 핵심 요소가 될 것이다. 미국에서는 의료 데이터의 중요성이 널리 인식되어 의료 데이터 취합을 위해 여러 기관이 관여하는 협업 프로젝트가 진행되고 있다. 이와 같이 업계, 학계, 병원이 협업하는 대표적인 예로 피츠버그 헬스 데이터 얼라이언스(Pittsburgh Health Data Alliance)가 있다. 이는 카네기 멜런 대학교, 피츠버그 대학교, 피츠버그 메디컬 센터로 구성된 협력체로 인근 지역의 헬스케어 데이터를 수집해 의료계 인공지능과 관련한 연구를 지원하는 프로젝트다.

Sk hynix_DGIST 유재석 기고문_03

▲ AI 의료 시스템에 사용할 데이터 수집 및 처리 과정

데이터의 양과 중요성이 모두 폭발적으로 늘어나고 있는 요즘, 인공지능 시스템에서 가장 중요한 것은 대량의 데이터와 대역폭을 효율적으로 연산하여 처리하는 능력이다. 사실 최근 인공지능이 각광받게 된 배경에는 데이터 양의 증가와 이러한 많은 양의 데이터를 다룰 수 있는 하드웨어의 발전이 있었다.

지금처럼 인공지능이 주류로 받아들여지기 전까지는 많은 난관이 있었다. 인공지능에 대한 기본적인 원리가 탄생한 것은 1940년대지만, 당시에는 한정된 하드웨어 리소스와 사용할 수 있는 데이터가 적은 탓에 인공지능이 예상한 만큼의 성과를 낼 수 없었고, 이에 따라 신경망 개발도 늦춰지게 됐다. 하지만 약 70년의 세월이 흐른 뒤, 알렉스넷(AlexNet)이라는 딥러닝 구조의 컨볼루션 신경망(Convolutional Neural Network, CNN)*이 등장하면서 인공지능의 잠재력이 널리 드러났다. 알렉스넷은 심층 신경망과 빅데이터를 기반으로 하는 인공지능으로, 2012년에 알고리즘의 사물 탐지와 이미지 분류 기능을 평가하는 대회 ‘ImageNet Large Scale Visual Recognition Challenge(ILSVRC)’에서 큰 활약을 펼쳤다. 알렉스넷의 가장 중요한 특징은 학습 데이터를 통해 스스로 학습하는 능력이다.

* 컨볼루션 신경망(Convolutional Neural Network, CNN) : 딥러닝 기법의 일종으로, 이미지 인식에 탁월한 성능을 보이는 알고리즘이다. 컨볼루션 신경망은 전체 이미지를 작은 단위로 나눠 특징을 파악해 결과를 예측하는 방식으로 작동한다.

이전에는 대량의 데이터를 사용해 머신러닝을 구현하는 것이 쉽지 않았다. 데이터 수집이 어렵고 연산하는 컴퓨팅 성능과 대역폭이 부족했기 때문이다. 그러나 병렬 연산과 고대역폭 하드웨어의 개발로 대량의 데이터를 처리하고 복잡한 신경망을 학습할 수 있게 되었다. 이에 따라 수집하는 데이터의 양이 엄청나게 늘었을 뿐만 아니라, 데이터 증강과 같은 기법의 출현으로 기존 데이터를 재생산하여 성과를 강화함으로써 학습할 수 있는 데이터의 양이 많이 늘어났다. 알렉스넷은 네트워크 매개변수가 무려 6,000만 개에 달하며, 두 개의 GPU를 사용하여 엄청난 양의 작업을 효율적으로 수행한다. 그리고 이러한 네트워크 구조는 지난 10년 동안 거의 3,000배 증가한 매개변수인 1,750억 개에 달하는 챗GPT와 같은 초대형 인공 신경망에서도 작업 수행 능력을 보이고 있다. 이처럼 네트워크와 학습 데이터양이 늘어날수록 이를 효율적으로 다루기 위한 하드웨어의 필요성도 증가하고 있다.

차세대 의료 기술에서 반도체의 역할

앞으로 의료 기술은 더욱 개인화되어 개인 건강 상태를 꾸준히 모니터링하고 질병을 조기 진단하는 방향으로 발전할 것이다. 이에 따라 데이터양이 기하급수적으로 늘어날 것이고, 인공지능 의료계 도입으로 데이터의 중요성도 더욱 높아질 것이다. 결국 의료 기술의 미래는 정제된 데이터를 얼마나 잘 수집하고 효율적으로 처리할 수 있느냐에 좌우될 것이며, 이 과정에서 하드웨어, 특히 혁신적인 반도체 기술이 매우 중요해질 것이다. 현재의 메모리 반도체 기술은 나노미터(nm) 공정 구현이 가능한 단계에 이르면서 성능 개선 면에서는 한계에 다다르기 시작했다.

따라서 세계 반도체 기업은 이 난관을 타개할 혁신적인 차세대 반도체 개발을 위해 연구와 투자에 매진하고 있다. 시스템의 데이터 요구 사항에 따라 사용되는 메모리 반도체의 유형도 각기 달라진다. POC와 같은 대부분의 시스템은 보통 DDR* 메모리를 사용하는 편이고, 연산량이 많아 GPU를 사용하는 시스템의 경우 GDDR* 메모리를 사용한다. 또한 클라우드 컴퓨팅을 위한 데이터 센터와 같이 많은 양의 데이터를 보유한 시스템의 경우 HBM3*를 사용하거나, PIM* 기반 액셀러레이터*가 내장된 메모리를 사용한다. 전자는 빠른 연산 속도와 높은 대역폭을 가지고 있어 인공지능 용도로 데이터를 빠르게 처리할 수 있고, 후자는 메모리에서 연산을 직접 수행할 수 있다는 점이 특징이다. 이러한 특징이 있기 때문에 두 가지 기술 모두 앞으로 의료 진단용 인공지능 학습에 적합할 것으로 판단된다.

* DDR(Double Data Rate) : 국제반도체표준화기구(JEDEC)에서 규정한 D램의 표준 규격 명칭으로, DDR1-2-3-4-5 순으로 개발됐다.

* GDDR(Graphic Double Date Rate) : 국제반도체표준화기구(JEDEC)에서 규정한 그래픽 D램의 표준 규격 명칭. 그래픽을 빠르게 처리하는 데 특화한 규격으로, 1-2-3-4-5-5X-6 순으로 개발됐다. 최근에는 그래픽을 넘어 인공지능, 빅데이터 분야에서도 가장 대중적인 메모리로 주목받고 있다.

* HBM(High Bandwidth Memory) : 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치, 고성능 제품. HBM은 1세대(HBM)-2세대(HBM2)-3세대(HBM2E)-4세대(HBM3) 순으로 개발됐다.

* PIM(Processing In Memory) : 메모리 반도체에 연산 기능을 더해 인공지능과 빅데이터 처리 분야에서 데이터 이동 정체 문제를 풀어낼 수 있는 차세대 기술이다.

* 액셀러레이터(Accelerator, 가속기) : 각종 정보 처리와 연산에 특화 설계한 칩(Chip)을 사용해 만든 특수 목적의 하드웨어(Hardware) 장치를 뜻한다.

패러다임을 전환하는 혁신적인 차세대 반도체 솔루션을 찾아

전 세계가 고령화 현상을 맞이하면서 개인 맞춤형 의료의 시대로 진입하고 있는 지금, 인공지능과 데이터 수집이 차세대 의료 시스템의 필수가 되었다. 이에 따라 대용량, 고속 반도체 메모리가 기술 혁신을 이끄는 ‘핵심 열쇠’가 될 것이다. 이러한 기술들이 모여 병원 중심에서 개인화된 건강관리라는 새로운 패러다임을 제시하게 되었고, 이를 위해 현재 연구자와 기업들이 많은 노력을 기울이고 있다.

새로운 반도체 솔루션은 앞으로도 기술의 혁신의 핵심으로 자리할 것이다. 미래의 혁신을 선도하기 위해서는 혁신적인 차세대 반도체 기술에 대한 투자와 선행 연구가 선행되어야 한다. 최근 필자의 연구팀에서 많은 관심을 가지고 연구를 수행하고 있는 차세대 반도체인 실리콘 포토닉스*가 그 대표적인 예이다. 이러한 반도체 기술의 혁신이 나비효과처럼 어떠한 새로운 의료 기술의 혁신을 이끌어내고, 또 새로운 패러다임을 제시할 수 있을지 많은 기대가 된다.

* 실리콘 포토닉스(Silicon Photonics): 반도체 신호 전송을 기존 전기가 아닌 빛으로 대체하는 기술이다. 많은 정보를 빠른 속도로 전송할 수 있고 전력 효율도 뛰어나다.