우리 삶을 혁신적으로 바꾸고 있는 인공지능(Artificial Intelligence, AI). AI를 알고, 이해하고 또 활용하고 싶은 이들을 위해 <AAA - All Around AI>에서 AI 기술에 대한 모든 것을 알려드립니다. 앞선 두 회차에서는 머신 러닝(Machine Learning, 기계 학습)과 딥러닝(Deep Learning, 심층 학습)의 개념 및 주요 특징에 대해 알아보았습니다. 이번 회차에서는 AI 시대에 스마트폰과 온디바이스 AI의 결합이 가져올 미래의 변화에 대해 자세히 살펴보겠습니다.
휴대전화가 처음 등장했을 때는 단순히 ‘통화 기기’에 불과했다. 그러나 시간이 지나면서 다양한 기능을 탑재한 스마트폰으로 발전했고, 이제는 삶의 모든 영역을 관리하는 개인 비서로 진화하고 있다. 이 변화의 중심에는 AI 기술이 자리하고 있다. 특히 최근에 주목받고 있는 온디바이스 AI는 스마트폰의 기능을 한층 더 향상할 것으로 예상된다. 온디바이스 AI는 기존에 주로 사용되던 클라우드 서버가 아닌 스마트폰 자체에서 정보를 처리할 수 있는 기술을 말한다. 이 기술이 상용화된다면 실시간에 가까운 처리 속도, 높은 수준의 개인 정보 보호, 에너지 효율성 극대화 같은 다양한 이점을 누릴 수 있을 것으로 기대된다.
온디바이스 AI란 무엇일까?
온디바이스 AI를 이해하려면, 먼저 그 반대 개념인 클라우드 기반 AI를 알아야 한다. 대다수 일반적인 AI는 클라우드 기반으로 작동한다. 예를 들어, GPT-4, 클로드(Claude) 3.5, 코파일럿(Copilot) 같은 AI 서비스는 모두 대규모 데이터 센터에서 운영된다. 이러한 이유로 인터넷 연결이 끊기거나 클라우드 자체가 마비되면 AI를 사용할 수 없다는 큰 단점이 존재한다. 또한, 클라우드 AI는 사용자의 질문과 데이터가 모두 클라우드로 전송되기 때문에 보안 문제가 발생할 가능성이 있으며, 데이터 전송에 비용과 시간이 필요하다. 반면, 온디바이스 AI는 규모가 작아 기능이 다소 제한적일 수 있지만, 클라우드에 연결하지 않고도 바로 서비스를 이용할 수 있다. 이로 인해 앞서 언급한 불편함을 겪지 않아도 된다는 장점이 있다.
▲ 그림 1. 온디바이스 AI의 구성요소
온디바이스 AI는 크게 세 가지 구성 요소로 이뤄진다[그림 1 참고]. 첫 번째 구성 요소는 디바이스로, 이는 가장 기본적인 요소다. 디바이스는 스마트폰, PC/노트북, 자동차, 공장 자동화 기기 안의 IoT 디바이스, 그리고 신호등이나 주차장에 설치된 센서 등 다양한 시스템이다.
두 번째 구성 요소는 디바이스 내장 AI다. AI는 크게 전통적인 AI와 생성형 AI로 구분된다. 전통적인 AI는 주로 이미지나 영상 인식 같은 간단한 분류 작업을 수행하며, 한 가지 일만 처리하는 특성을 갖고 있다. 반면, 생성형 AI는 하나의 AI가 번역, 통역, 이미지 인식, 음성 대화 등 다양한 작업을 수행할 수 있다는 점에서 차별화된다. 최근 주목받고 있는 생성형 AI 기술 중 하나인 거대 언어 모델(LLM, Large Language Model)은 기존 AI에 비해 월등한 성능을 보여 많은 관심을 끌었다. 생성형 AI는 점점 소형화되어 이제는 스마트폰에도 탑재될 수 있게 되었으며, 이에 따라 온디바이스 AI에 대한 관심도 더욱 높아질 것으로 예상된다.
세 번째 구성 요소는 온디바이스 AI의 용도다. 모든 AI는 크게 두 가지 작업 단계를 가진다. 대량의 데이터를 학습하는 단계인 ‘학습(training)’과 학습이 완료된 모델에 실데이터를 입력해 결과를 도출하는 ‘추론(inference)’이다. 그런데 온디바이스 AI는 추론과 학습 가능성에 따라 두 가지 용도로 나뉜다. 현재까지 온디바이스 AI는 하드웨어 제약 때문에 추론만 가능했다. 그러나 앞으로 하드웨어가 발전하면, 학습이 가능한 온디바이스 AI가 등장할 것으로 예상된다. 현재 스마트폰용 생성형 AI의 크기는 작지만, 거대한 클라우드 컴퓨터에서 학습한 결과물을 활용할 수 있다. 만약 디바이스 내 반도체에서 직접 학습이 이루어진다면, 온디바이스 AI는 사용자의 데이터를 학습하고, 한 단계 더 높은 혁신적 차원에 도달할 수 있을 것이다.
위와 같은 온디바이스 AI의 세 가지 구성 요소는 서로 결합하면서 각각 독립적인 온디바이스 AI 영역을 형성한다. 이러한 조합의 경우의 수를 모두 고려했을 때, 5가지 디바이스, 2가지 AI, 2가지 용도로 총 20가지 시장이 형성될 수 있음을 알 수 있다[그림 1 참고]. 예를 들어, ‘스마트폰 - 생성형 AI - 추론형’이라는 프로세스를 구성했다면, 다음으로는 ‘스마트폰 - 생성형 AI - 학습형’과 같은 방식으로 다양한 프로세스를 만들 수 있다. 이러한 선택지의 다양성은 실제 비즈니스에 큰 파급효과를 가져올 수 있으며, 앞으로도 반도체를 포함한 AI 기술이 다양한 분야의 발전에 지대한 영향을 미칠 것으로 예상된다.
온디바이스 AI 기능의 다변화
온디바이스 AI의 등장으로, 기존 스마트폰과 전통적인 AI의 기능에 국한되었던 사용 범위가 크게 확장되고 있다. 전통적인 AI가 주로 이미지 및 영상 인식과 편집 기능을 수행했다면, 온디바이스 AI는 한 걸음 더 나아가 실시간 통역, 다양한 언어 번역, 문장 요약, 음성을 글로 변환하는 STT(Speech to Text), 글을 음성으로 변환하는 TTS(Text to Speech), 음성 및 영상 대화 등 수많은 기능을 수행할 수 있다.
온디바이스 AI의 확장 가능성은 매우 크다. 기본적으로 스마트폰은 통화, 메시지 전송, 인터넷 검색, 파일 탐색, 위치 확인 등 다양한 기능을 수행한다. 이와 함께, 스마트폰에는 사진, SNS 메시지, 문서, 이메일, 위치 정보 등 수많은 사용자 정보가 축적되어 있다. AI는 이러한 스마트폰의 기본 기능과 내부 정보를 결합해 무수히 많은 새로운 서비스를 창출할 수 있다. 예를 들어, 기존에는 이메일 전송, 카메라 사진 촬영, 번역 기능이 각각 별도로 존재했다면, 이제는 그런 기본 기능과 스마트폰의 내부 정보(수신 이메일, 갤러리 내 사진)를 이용하여 이메일을 자동으로 번역하고, 스마트폰 갤러리 사진을 선택 및 편집해 특정인에게 전송하는 서비스가 가능해졌다.
놀랍게도, 스마트폰의 기능이 점점 다양해지면서 사용자가 일일이 새로운 기능을 익히지 않아도, 질문만으로 필요한 기능을 사용하고 정보를 제공받을 수 있게 되었다. 이러한 변화는 2011년 무렵 음성 AI 비서의 등장과 함께 대중에게 인식되기 시작했다. 애플의 시리, 아마존의 알렉사, 구글의 어시스턴트, 삼성전자의 빅스비가 대표적이다. 그리고 불과 몇 년 후, 간단한 명령어를 실행하는 AI 비서를 넘어, 더욱 복잡한 질문에도 고차원적인 답변을 제공할 수 있는 Chat GPT 등의 AI 챗봇이 빠르게 상용화되기 시작했다.
그렇다면 현재 시점에는 또 어떤 변화가 일어나고 있을까? 최근에는 생성형 AI의 고유한 기능으로 주목받고 있는 AI 에이전트가 등장했다. 사용자가 질문하면, AI 에이전트가 이를 분석하고 필요한 정보를 도출해 보여준다. 예를 들어, “부산 가는 KTX 시간표를 알아봐 줘”라고 요청하면, AI가 KTX 웹 페이지와 연동하여 부산행 KTX 시간표를 보여준다. 물론 정확한 답변을 얻기 위해서는 KTX 웹페이지와 연동하여 요청된 열차 시간표 정보를 가져오는 프로그램이 미리 구축되어 있어야 하는데, 이러한 연결 프로그램을 API(Application Programming Interface)*라고 한다.
* API(Application Programming Interface): ‘애플리케이션 프로그램 인터페이스’의 줄임말. 이때 애플리케이션이란 고유한 기능을 가진 모든 소프트웨어를 뜻하며 인터페이스는 두 애플리케이션 간의 서비스 계약이라 할 수 있다.
스마트폰에는 수백 개의 앱이 설치되어 있지만, 대부분의 사용자는 필요할 때마다 사용법을 익혀가며 활용한다. 그러나 AI 에이전트가 이 수백 개의 앱과 모두 연동된다면, 사용법을 따로 배울 필요가 없어진다. 전자상거래, 중고품 판매, 주식 시황, 부동산 현황, 카카오 택시 등 자주 사용하는 앱이 없어도, AI 에이전트가 필요한 기능을 대신 수행해 줄 수 있기 때문이다. 예를 들어, 주식 거래 앱이 없어도 스마트폰에 “지금 삼성전자 주가가 얼마야?”라고 물어보면 주가를 알려주는 식이다. 실제로 이러한 개념을 스마트폰에 적용한 사례가 이미 등장했다.
▲ 그림 2. 래빗 R1 스마트폰
2024년 CES에서 출시되어 큰 화제를 모은 스마트폰 ‘래빗(Rabbit) R1’은 혁신적인 기능과 저렴한 가격(199달러)으로 주목받았다. 별도의 구독료가 없고, 사용법도 간단하여 오른쪽에 있는 스위치를 누르고 음성으로 명령만 하면 되는 방식이었다. 출시 당시 우버 기사를 부르는 시연을 통해 많은 이에게 혁신성을 인정받았고, 초기 반응도 매우 긍정적이어서 10만 대가 판매되었다. 그러나 큰 관심에도 ‘래빗(Rabbit) R1’은 결국 실패로 끝나고 말았다. ‘스마트폰을 대체한다’는 대대적인 마케팅과는 달리, 실제로는 제한된 기능(우버, 스포티파이, 미드저니, 도어대시 앱 기능만 지원), 빈번한 버그 발생, 복잡한 요구를 처리하지 못하는 등 문제점이 드러났기 때문이다.
‘래빗(Rabbit) R1’은 실패했어도, 그에 적용된 아이디어는 여전히 유효하다. 아무리 뛰어난 기능을 갖추고 있어도, 복잡한 메뉴를 배우고 일일이 클릭해 사용하는 데 부담을 느끼는 스마트폰 사용자들에게 편리함을 제공할 수 있다면, 매우 긍정적인 반응을 얻을 수 있다는 점을 시사한 것이다. 사용자들은 이제 스마트폰이 자신의 행동과 사용 패턴, 축적된 데이터를 분석해 제공하는 “똑똑한” 어드바이스를 기대하고 있다.
현재 ‘도이치 텔레콤’은 ‘래빗(Rabbit) R1’ 스마트폰과 유사한 ‘콘셉트 스마트폰’을 개발 중이다. 이 스마트폰은 앱을 설치할 필요 없이 AI 에이전트에 음성 명령을 내리는 것만으로 작동하는 것이 특징이다. 그러나 통신 회사에서 개발하는 제품인 만큼, 온디바이스 AI 개념보다는 철저히 클라우드 기반 AI 단말기로 설계되고 있다.
▲ 그림 3. MWC2024에서 선보인 도이치 텔레콤의 콘셉트 스마트폰(출처: 유튜브 @counterpointresearch)[관련영상]
온디바이스 AI 모델의 트렌드: 경량화와 하이브리드화
온디바이스 AI의 성공을 위해 가장 중요한 요소는 첫째, 성능이며, 둘째로는 AI 모델의 크기다. AI 모델의 크기가 작아질수록 연산 속도가 향상되고, 메모리 사용량이 줄어들며, 에너지 효율성도 높아지기 때문이다. 따라서 경량화는 온디바이스 AI 개발에 필수적인 요소라 할 수 있다. 그렇다면, 얼마나 경량화해야 할까?
AI 모델의 크기는 ‘모델 파라미터*’ 라는 단위로 구분된다. 이는 AI 모델이 보유한 지식을 저장하는 단위를 말하며, GPT-4, 클로드, 코파일럿 등의 모델은 보통 2,000억 개 이상의 파라미터를 가지고 있다. 그러나 AI 모델을 스마트폰에 탑재하려면, 모델 파라미터의 크기를 40억 개 이하로 줄여야 한다. 스마트폰에서 원활히 구동되려면 필요한 메모리의 크기가 4GB를 넘지 않아야 하기 때문이다. 현재 많은 개발사는 성능은 유지하면서도 사이즈를 줄이는 방법에 초점을 맞춰 개발을 진행하고 있다.
* 파라미터(Parameter): AI 모델이 데이터를 학습하면서 조정되는 변수로, 학습 과정에서 입력값이 결괏값으로 변환될 수 있도록 조정한다. 파라미터의 개수는 AI 모델의 성능을 좌우하며, GPT-3의 파라미터 개수는 1,750억 개로 알려졌다.
GPT-4, 클로드, 코파일럿 등과 같은 클라우드 기반 AI로부터 완전히 독립된 온디바이스 AI를 구현하는 방법은 아직 개발이 더 필요해 보인다. 현재로서는 온디바이스 AI가 하드웨어 제약을 극복하기 어렵고, 스마트폰에서 생성형 AI를 완전히 구동하는 것도 역부족이다. 예를 들어, ‘실시간 통역’ 기능조차도 실제 사용할 때 약간의 시간차가 발생한다. 이러한 문제를 해결하기 위해, 스마트폰 온디바이스 AI로 처리 불가능한 기능을 클라우드 AI에 맡기는 하이브리드 방식도 모색되고 있다. 대표적인 사례가 온디바이스 AI와 클라우드 AI의 결합을 목표로 하는 ‘애플 인텔리전스(Apple Intelligence)’다.
▲ 그림 4. 애플 인텔리전스
그림 4에서 왼쪽은 디바이스(스마트폰, 노트북, PC)를, 오른쪽은 애플 전용 클라우드를 나타낸다.
왼쪽은 기존 앱에 AI 기능을 추가하기 위해서 필요한 시스템 구조를 나타낸다. 애플 인텔리전스의 디바이스 부분은 의미 인덱스*와 애플 인텐트 툴박스*, 그리고 앱 사용자의 AI 요구 사항을 디바이스에서 처리해야 하는지, 클라우드 서버로 보내야 하는지 처리 방식을 결정하는 라우팅 모듈*로 구성되어 있다. 의미 인덱스는 새로운 메시지를 받거나 사진을 촬영할 때 데이터를 벡터 DB에 수집하여 사용자 활동과 행동에 대해서 검색하고 의미를 분석한다. “내가 작년에 제주도에서 OO과 찍은 사진을 골라줘”라는 질문을 던지면 이를 의미 인덱스를 통해서 검색해서 보내줄 수 있다. 인텐트 툴박스는 AI 에이전트의 인터페이스로, 앱 개발자가 앱의 핵심 기능을 알리고, 생성형 AI가 AI 에이전트를 통해서 쉽게 호출할 수 있도록 연결해 준다. 예를 들면 “아까 찾은 사진들을 OO에게 이메일로 보내줘”라고 하면, 이메일 앱을 통해서 자동으로 보내준다. 이를 통해 사용자 자연어 명령을 기존 앱과 쉽게 연동할 수 있다.
* 의미 인덱스(Semantic Index): 각 앱의 요구를 개인 컨텍스트에 연결해 준다.
* 애플 인텐트 툴박스(Apple Intents Toolbox): 인텐트를 처리하는 과정에서 시리를 비롯한 애플 인텔리전스의 기능을 활용하게 해준다.
* 라우팅 모듈: 어떤 네트워크 안에서 통신 데이터를 보낼 때 최적의 경로를 관리하고 결정한다.
반면, 오른쪽의 애플 전용 클라우드는 보안을 강화한 서버 모델로 구성되어 있으며, 사용자가 자연어로 명령을 내리면, 그 명령을 스마트폰 자체적으로 처리할지, 서버의 클라우드 AI에서 처리할지를 결정한다. 만약 스마트폰 내에서 수행하기로 결정되면, 온디바이스 AI 모델이 해당 작업을 처리하며, 필요에 따라 인텐트 툴박스를 통해 앱을 실행하는 구조로 되어 있다.
온디바이스 AI와 하드웨어의 발전 방향
온디바이스 AI는 현재 포화 상태에 이른 스마트폰과 PC 하드웨어 시장에 새로운 수요를 창출하고 있다. 온디바이스에서 생성형 AI를 실행하려면, 지금보다 훨씬 더 많은 컴퓨팅 파워가 필요하기 때문이다. 이는 단순히 메모리, CPU, GPU 성능을 향상하는 것만을 의미하지 않는다. 생성형 AI를 스마트폰과 PC에서 효과적으로 실행하려면, 물리적인 용량과 성능을 뛰어넘어 아래와 같은 온디바이스 AI의 특수한 실행 조건을 충족해야 한다.
전통적인 AI 언어 모델은 주로 RNN*과 LSTM* 알고리즘을 사용했다. 이 알고리즘들은 문장의 단어를 순차적으로 입력받아 연산하기 때문에 병렬화가 어려웠다. 그러나 Chat-GPT와 같은 LLM의 등장으로 상황이 달라졌다. LLM은 트랜스포머(Transformer) 기반으로, 거대한 벡터(Vector)를 반복해서 연산하며 높은 수준의 병렬화를 가능하게 했다. 이러한 연산 방식은 수천 개의 코어를 가진 GPU에 매우 적합하다. 하지만 벡터 연산은 메모리 사용이 빈번해지므로, GPU와 RAM 간 초고속 데이터 전송 기능이 필수적이다. 따라서 트랜스포머 기반 LLM을 효과적으로 학습하기 위해서는 HBM*과 PIM* 기술이 요구될 수밖에 없다.
* RNN(Recurrent Neural Network): 순차적으로 입력되는 데이터를 한 번에 하나씩 처리하는 방식의 순환신경망. 이전 단계의 출력을 현재 단계의 입력으로 사용해 시퀀스 정보를 기억해 과거 정보가 현재 연산에 영향을 주지만, 병렬 처리가 어려운 단점이 있다.
* LSTM(Long Short-Term Memory): RNN의 한 종류로, 긴 시퀀스 데이터를 다룰 때 발생하는 문제를 해결하기 위해 개발됐다. 중요한 정보를 오랫동안 기억하고 불필요한 정보는 버릴 수 있어 긴 문맥을 더 잘 처리할 수 있다.
* HBM(High Bandwidth Memory): 고성능 컴퓨팅에 필요한 매우 빠른 데이터 처리 속도를 제공하는 메모리 기술. 주로 GPU와 같은 고성능 프로세서에 사용되며 대규모 데이터 처리 작업 시 성능을 높여준다.
* PIM (Processor in Memory): 데이터를 저장하는 메모리 자체에서 일부 연산을 수행해, 데이터 전송 속도를 높이고 데이터 전송의 병목 현상을 줄여준다.
현재 온디바이스 AI는 주로 추론에 초점을 맞추고 있다. 추론은 병렬적인 벡터 계산으로 이루어지지만, 학습 과정에서처럼 엄청난 계산 능력이 필요하지는 않다. 또한, 추론 서비스를 항상 사용하는 것도 아니기 때문에, 필요할 때만 추론을 활용하면서 전력 소모를 최소화할 수 있는 새로운 아키텍처가 필요하다. 이 역할을 하는 것이 바로 NPU(Neural Processing Unit)다. 기존 스마트폰 AP(Application Processor)에는 이미 NPU가 SoC* 형태로 구현되어 있다. 하지만 앞으로는 계산 속도가 훨씬 더 빠르면서 전력 소모가 적은 더 강력한 NPU 기능을 가진 AP가 필요하며, 이 NPU와 연결된 좀 더 빠른 램(RAM)도 요구될 것이다.
* SoC(System on Chip): 여러 가지 기능을 하나의 칩에 통합한 기술을 의미한다. 스마트폰에서 SoC는 CPU, GPU, 메모리, NPU 등 다양한 구성 요소를 하나의 칩에 포함해, 디바이스 성능을 높이고 전력 소비를 줄이는 데 도움을 준다.
앞으로 AI 에이전트가 발전함에 따라, 사용자별 맞춤 온디바이스 AI 에이전트가 등장할 것이다. 이러한 AI 에이전트는 사용자의 행동과 관련한 정보를 지속적으로 참고하여, 개인 어드바이저(Personal Advisor)로서 점점 더 발전해 나갈 것으로 예상된다. 이와 함께 스마트폰 역시 AP가 발전하면서, 학습된 데이터를 바탕으로 개인 어드바이저 역할이 강화된 스마트폰으로 변모할 것이다. 이러한 변화는 곧 시장의 엄청난 확장을 예고하며, 이에 따라 더 큰 용량, 더 빠른 속도, 더 적은 전력 소모를 자랑하는 메모리 반도체, NPU, GPU, HBM, PIM과 같은 맞춤형 기술들이 생성형 AI 모델의 구조와 연산에 밀접하게 연관되며 더욱 발전할 것이다.
※ 본 칼럼은 반도체/ICT에 관한 인사이트를 제공하는 외부 전문가 칼럼으로, SK하이닉스의 공식 입장과는 다를 수 있습니다.