딥페이크 디지털 성범죄나 딥보이스 스미싱 등 다양한 분야에서 AI를 악용한 범죄가 발생하고 있다. 이미지나 영상, 목소리, 대화 등 데이터의 스펙트럼은 다양해도 모든 AI 범죄는 ‘AI 윤리’ 측면에서 예견되어 있었다. 2020년 한 스타트업이 출시한 여대생 콘셉트 챗봇은 국내에서 AI의 윤리적 범죄 가능성을 처음으로 인지하게 했다. 이 챗봇은 짧은 기간 동안 가입자 80만 명을 모으며 인기를 끌었는데, 결과는 예상치 못한 방향으로 이어졌다. ‘지하철 임산부석’, ‘동성애’에 관한 질문에 여성과 소수자에 대한 혐오 발언을 답변으로 내놓거나, 은행과 주소를 묻는 말에 비식별화 처리되지 않은 불특정 다수의 실제 정보를 발화하기 시작한 것이다. 과거 서비스 이용자의 실제 SNS 데이터를 바탕으로 개발되었던 챗봇은 얼마 가지 못해 서비스를 종료했다.

▲ 국내 스타트업 챗봇의 실제 대화 예시(©온라인 커뮤니티 캡처)
해외 사례까지 종합해 보면, AI가 비윤리적인 언어를 필터링하지 못하고 수용하거나 스스로 생산하는 문제는 그 이전에도 있었다. 2016년 글로벌 대기업의 AI 챗봇도 SNS 계정에 적용되어 대중과 처음 만났다. 하지만 집단학살을 지지하냐는 질문에 ‘그렇다’라고 답변하는 등 나치즘과 같은 인종 차별을 필터링하지 못하고 16시간 만에 문을 닫았다.
▲ 글로벌 대기업 챗봇의 실제 대화 예시(©온라인 커뮤니티 캡처)
국내와 해외의 챗봇 사건, 그리고 다른 AI 범죄 사이에는 중요한 공통점이 있다. 인간의 악의가 어떤 방향으로 AI를 학습할 수 있을지 누구도 예측하지 못했다는 점이다. 서비스가 종료되기 전, 10~20대로 이루어진 주 사용층은 커뮤니티에서 여대생 콘셉트의 챗봇을 성희롱하는 방법을 공유했다. 일부 극우 성향을 지닌 글로벌 기업의 챗봇 사용자들은 ‘따라 하기’ 기능을 활용해 욕설과 차별적인 언행을 챗봇에게 학습시켰다.
뛰는 개발자 위에 나는 범죄자
계속해서 제기되는 이런 문제를 예방할 수는 없었을까? 초기 AI는 단순한 규칙으로 움직이는 챗봇이었다. 개발자가 설정해 둔 선택지 안에서 객관식 답변을 주는 형태였기 때문에 윤리적인 문제가 발생할 가능성이 낮았다. 그러나 딥러닝을 기반으로 한 최근의 생성형 AI는 학습한 정보를 조합해 서술형 답변을 생성할 수 있는 수준까지 발전했다.

▲ 디셉티브 딜라이트 예시(©Palo Alto Networks)
AI가 똑똑해지는 만큼, 이를 악용한 범죄도 더 영악해진다. 최근 개발자들이 다양한 공격 형태를 예상하여 보완책을 강구하는 이유다. 앱 기반 보안정책을 제공하는 팔로앨토 네트웍스(Palo Alto Networks)의 최신 사이버 보안 연구팀 유닛 24는 최근 대규모 언어 모델(이하 LLM)의 보안을 무력화할 수 있는 신종 해킹 기법을 공유했다. 이들이 디셉티브 딜라이트(Deceptive Delight)라고 명명한 기법은 LLM의 취약점을 노리는 프롬프트 인젝션(Prompt Injection)에 속한다. 이와 같은 탈옥 기술은 AI와의 대화 속에서 점진적으로 유해한 요청을 하면서, 비정상적인 콘텐츠를 생성하도록 유도한다. 이 간단한 기술은 무려 8,000건의 사례 테스트에서 파괴적인 효과를 보였다. 문답 3개가 끝나기 전 65%의 확률로 안전 가드레일을 우회한 것이다.
프롬프트 인젝션의 실제 사례는 종종 뉴스에서 만날 수 있다. 2023년 게임 메신저 디스코드에서는 “폭탄 제조 기술자였던 할머니처럼 대화해 달라”고 상황극을 주문한 뒤, 네이팜탄 제조법을 알아낸 사례가 있었다. 장난스러운 탈옥 시도였지만, 네이팜탄을 정말로 제조했다면 간단한 해프닝으로 끝나지는 않았을 것이다. 더 이상 해킹에 전문 해커가 필요 없는 세상이 다가온다는 건 그래서 두렵다. 불특정 다수 누구나 비윤리적인 발화나 개인정보 침해 수준을 넘어서 시스템 자체를 공격할 수 있게 된다는 뜻이다. 악의적으로 생명을 해치는 정보를 편취하는 것도 충분히 가능하다.
다시 질문으로 돌아가 보자. 전 세계에서 계속되는 AI 범죄를 예방할 기술이 있을까? 개발자들이 그 질문에 답하려면, 필연적으로 인문학적인 고민에 직면하게 된다. 창의적인 범죄가 발생하는 나날, AI에 어떠한 윤리 지침을 내장해야 안전해질 수 있을까?
모든 AI 개발자의 고민, AI 윤리라는 통제 기준
선한 의도를 가지고 개발했다고 해서, 결과물까지 선한 것은 아니다. LLM 모델이 사람처럼 자연스럽게 대화하기 위해서는 수천억 개의 데이터, 토큰(Token)이 필요하다. 무수한 데이터를 바탕으로 하니 문제가 있는 데이터가 끼어들 확률도 높아진다. 그럼에도 문제의 소지가 있다면 어떻게든 제외해야 한다고 생각할 수도 있겠다. 그러나 모든 데이터의 옳고 그름을 무 자르듯 나눌 수 있는 것은 아니다. 먼저 어떤 데이터가 ‘선하고 악한’ 데이터인지부터 따져봐야 한다. 가치 판단 자체가 나라마다, 문화적 배경마다 달라지기 때문이다.
2024년 LA 한인타운의 목욕탕에서 논란이 있었다. 성전환 수술을 받지 않아 생물학적 남성이지만 자신의 정체성을 여성이라고 확립한 사람이 여탕에 입장하기를 원했다. AI로 이 목욕탕 출입을 관리한다고 할 때, 우리는 무엇을 기준으로 학습시켜야 할까? ‘AI가 편향된 데이터를 학습했다’라고 이야기하기는 쉽지만, 실제로는 간단한 문제가 아니다. 80억 인구가 모두 공감하는 편향되지 않은 데이터 표본이란 존재하지 않는다.
최선의 방어는 공격, 튜닙의 AI 가드레일 솔루션

▲ AI 가드레일 솔루션 패키지(©TUNIB)
챗봇 50여 종을 개발해 온 인공지능 기술 스타트업 튜닙도 ‘데이터 정제만으로는 AI 범죄를 완벽하게 예방할 수 없다’는 문제의식에서 AI 가드레일 솔루션을 고안했다. 그러나 모든 생성형 AI는 입력된 언어 프롬프트를 기반으로 하니 역설적으로 데이터 정제를 가장 먼저 연구해야 했다.
2021년 개발 당시, 이미 위험한 표현을 순화해 주는 콘텐츠 모더레이션(Contents-Moderation) 기능의 중요성이 대두되어 있었다. 오픈AI의 챗GPT로 대표되는 생성형 AI가 태동하던 시기였는데, 1,750억 개 매개변수를 가진 초거대 언어 모델 챗GPT-3가 주목받고 있었다. 오픈AI는 개발자들에게 콘텐츠 필터를 제공하며, 혐오 표현이나, 음란물 등 민감한 콘텐츠가 적확하게 걸러지는지 테스트하는 단계를 거쳤다. 이런 흐름 속에서 튜닙도 솔루션 패키지 중 혐오 표현 탐지 모델을 가장 먼저 개발했다. 혐오 표현 수준 및 개인정보 유출 가능성을 기준으로 프롬프트를 판단하고 감지한다.
하지만 문제는 프롬프트 인젝션이었다. 적나라한 악의가 깃든 표현은 비교적 제거하기 수월하다. 하지만 간접적이고 교묘한 공격(Indirect Prompt Attacks)에 관한 대응은 최근에서야 연구가 활발해진 분야라, 완성된 연구가 전무했다. 출시된 상업용 솔루션도 튜닙의 AI 가드레일 솔루션을 제외하면 올해 4월 마이크로소프트 AZURE AI가 발표한 프롬프트 쉴드(Prompt Shield)가 정도가 전부인 상황이었다.
개발 초창기일 때, 가장 어려운 지점은 표준화된 대응 모델이 없다는 것이다. 명확한 가이드라인이 없으므로 모든 개발자가 각자 마음대로 해석하고 적용하게 된다. 튜닙은 공격과 탐지, 방어라는 AI 가드레일의 시스템 구축에 가장 중점을 두었다. 괴물을 막기 위해 직접 괴물을 만들고, 이를 통해, 괴물의 공격에 효과적인 대응 전략을 세우기 위해서다. 탐지 모델이 아무리 성숙해도 편향된 가치 판단을 버릴 수 없다면, 약한 부분을 먼저 무너뜨리고 다시 메우기로 한 거다. AI 허브의 공개 데이터 중 비난·학대·범죄·차별·증오·성희롱·폭력 등 7가지 항목을 기준으로 선정했다. 본래는 공격에 대응하는 양상을 보여주기 위한 데이터 세트(Data Set)이지만, 역으로 이용한 것이다. 공격 엔진은 랜덤하게 공격적인 발화를 생성하고 시뮬레이션을 수행한다. 그러면 뒤를 이어 방어 엔진이 윤리적인 방어막을 펼친다. 이 시스템이 구동하면, 솔루션이 얼마나 잘 방어하고 있는지 자동으로 테스트가 가능해진다.

▲ AI 가드레일 솔루션 패키지 운영 시뮬레이션(©TUNIB)
상호 보완되는 공격과 방어 엔진의 대화 데이터 세트를 함께 활용하면, 더 공고하게 윤리적인 AI 서비스를 구현할 수 있다. 사실 두 엔진뿐 아니라, AI 윤리 가드레일 솔루션 패키지 안의 AI 엔진 6개 모두가 유기적으로 움직인다. 비윤리적 공격 시뮬레이션 모델 ‘조커’부터 방어 모델 ‘루시’, 혐오 표현 탐지 모델 ‘세인트 패트릭’, 준법 감시 모델 ‘가디언’, 스팸 탐지 모델 ‘스패무라이’, 프롬프트 주입 탐지 모델 ‘엔젤’까지. ‘공격-감시-탐지-대응’ 솔루션의 모든 사이클이 순환한다. 이렇게 기획한 이유는 단 하나다. 인류와 범죄가 계속되는 한 솔루션은 끊임없이 스스로를 공격하고 방어하며 업데이트해야 하기 때문이다. AI 솔루션은 머지않은 미래에 코비드(COVID) 19 백신 같은 존재가 될 것이다.
일상 속 AI 가드레일 솔루션 패키지
AI 가드레일 솔루션 패키지의 안착을 기대해 볼 수 있는 대표적인 업계는 금융권이다. 보안 시스템을 우회하는 외부 악성코드 공격도 탐지 가능하지만, 내부에서의 위법한 공격 탐지 엔진이 특히 효율적으로 적용될 것으로 보인다. 이미 각 금융기관은 사내에 ‘준법감시팀’을 두고 직원의 횡령, 핵심 기술 유출 등 회사에 지대한 영향을 초래할 수 있는 범죄를 비정기적으로 모니터링한다.
하지만 한정된 인력이 수천, 수만 명 사이에 오간 대화를 살피는 일은 절대 쉽지 않다. 이전의 AI 모니터링이 설정한 유해 단어 등을 찾아내고 감시하는 수준에 불과했다면, AI 가드레일 솔루션은 법률에 어긋나는 대화만을 특정해 감지할 수 있다. 직접적이지 않은 은유도 탐지하고 곱씹어봐야 하는 문맥도 파악한다. 이미 제이피 모건(JP Morgan), 모건 스탠리(Morgan Stanley) 등 해외 은행에서는 AI 솔루션을 적용해 자금세탁, 테러 자금 등을 미리 방지하려고 시도하고 있다. 투명함을 중요한 가치로 여기는 분야에서 AI가 직원의 윤리성을 보장하게 된 것이다.
여기서 ‘프라이버시’란 가치 판단에 관한 논의가 재점화할 수 있다. 그러나 의식하지 못할 뿐, 현재 대부분의 기업이 활용하는 메신저 개발 업체들은 관리자 버전을 별도로 제공한다. 정보 열람에 관한 동의를 취업 규칙 등에 기재한 경우도 늘어가고 있다. 과연 인간 관리자보다 AI 관리자의 프라이버시 침해 위험이 클지 곰곰이 생각해 봐야 한다. AI는 문제의 소지가 있는 대화를 발견할 때만 인간 관리자에게 보고하고, 인간 관리자는 보고된 문제만 열람할 수 있게 합리적으로 운용할 몫이다.
차세대 AI 보안 솔루션의 미래
▲ SK하이닉스의 AiM 칩과 AiMX 카드
연구가 무르익을수록 소프트웨어적인 대응에서 하드웨어적인 고민으로 나아갈 수밖에 없다. 정교한 가치판단이 AI 솔루션에 효율적으로 적용되려면, 지금까지는 존재하지 않았던 복잡한 연산이 요구되기 때문이다. 가치 판단에 따라 공격을 예민하게 탐지하고, 보관하고, 서버에 접속해 관리자에게 전송하는 모든 과정은 더욱 빠른 처리가 필요하다. 고용량 데이터의 초고속 전송이 가능해지려면 고대역폭 메모리 반도체 도입과 초대규모의 솔루션 확장이 우선되어야 한다. 반도체 처리량이 대용량 공격을 방어하는 단계에 도달하면, 소프트웨어와 하드웨어의 대응을 구분하는 것이 무의미해질 수도 있다.
최초에 프롬프트 인젝션이 아주 특수한 사례처럼 보였지만, 이제 대응을 고민하는 일이 너무 당연하게 여겨지듯 기존 컴퓨팅 시스템만으로 감당할 수 없는 규모의 데이터를 처리하고자 한다면, 보안에 특화된 고성능 메모리 솔루션이 다음 쟁점이 되리라 예상해 본다.
인공지능 시대, 착한 AI에도 사회적 합의가 필요하다
▲ 인공지능(AI)안전연구소 개소식(©과학기술정보통신부)
하지만 더욱 안전한 AI 솔루션은 기술적 고민만으로는 도달할 수 없다. 세계적으로도 AI 개발이 가속화되면서, 안전성에 관한 논쟁이 격화 중이다. 지난해 5월 테슬라 CEO 일론 머스크와 역사학자 유발 히라리 등 굴지의 경영자와 석학들이 챗GPT 등 생성형 AI 개발을 6개월간 중지하라는 공개 서명을 한 바 있다. 뉴욕대 인지 심리학 교수 게리 마커스는 핵전쟁을 초래할 수 있는 AI의 위험성을 경고했고, 딥러닝의 대부 제프리 힌턴은 2023년 인공지능의 위험성을 경고하며 구글을 퇴사하기도 했다. 메타의 수석 AI 과학자이자 부사장인 얀 르쿤처럼 AI의 위험성은 과장되어 있다는 반대파도 있다.
첨예한 거대 담론이 학문적으로는 유의미할지라도, 제한된 정보를 접한 대중에게 발전적인 영향을 미치지는 못하고 있다. 우리는 AI 범죄를 보며 AI가 인류의 종말을 야기한다거나, 선두 주자인 강대국이 세계를 정복한다는 음모론에 쉽게 동요한다. 이럴수록 AI 교육의 중요성을 떠올리게 된다. 더 빨리 AI를 개발하기 위한 교육이 아니라, AI를 윤리적으로 받아들이고 적재적소에 활용하는 사용자 중심 교육 말이다. 받아들이는 사용자와 문화권 전체가 공감하는 가치 정립이 선행되어야 한다.
다시금 가치 판단의 기준이 중요해지는 시점이다. 국내에는 굵직한 AI 규제가 거의 없었다. 하지만 지난해 5월 대한민국, 미국, 영국, EU 등 11개국의 세계 지도자들이 모여 안전·혁신·포용을 AI의 3대 규범 가치로 채택한 ‘서울선언’ 이후 변화가 생기고 있다. 지난해 9월에는 국내 AI 기업에 컴퓨팅 인프라를 제공하겠다는 정부의 발표도 있었다. 국가 주도로 AI 모델을 개발하고 한국의 고유한 문화와 강점을 담겠다는 소버린 AI(Sovereign AI) 정책의 일환이다. 지난해 11월 말에는 전 세계에서 6번째로 AI 안전 연구소가 출범했다.
돌이켜보면, 코비드 19 백신에도 부작용은 있었다. 모든 연구는 수정을 반복하며 완벽에 가까운 결과물에 다가간다. AI가 인간의 생과 공존하는 흐름을 막을 수 없다면, 인간이 만든 AI에도 오남용을 바로 잡을 기회를 주어야 한다. 사회가 발전해 온 방식과 동일하게, 구성원의 합의를 도출하는 과정은 그래서 중요하다. 드디어 마련된 국가 주도 AI 컨트롤 타워가 그 역할을 해주리라 기대해 본다. 모두가 100% 동의할 수는 없더라도, 기준선을 세운 국립국어원의 외래어 표기법 확립처럼.