본문 바로가기

WE DO/인사이드

SK하이닉스 데이터 사이언스 조직의 어제, 오늘 그리고 내일

2020.09.23|by SK하이닉스 Data Science 박찬진 담당

 

SK하이닉스는 지난 2017년 국내 제조기업 최초로 데이터 사이언스(Data Science, 이하 DS) 조직을 신설했다. 전사에 흩어져 있던 데이터 분석가들을 모아 40명 규모의 조직으로 시작했고, 지금은 150명 규모의 전사 DS와 인공지능(Artificial Intelligence, 이하 AI) 분야를 책임지는 조직으로 성장했다. 통계와 머신러닝(Machine Learning)1) 및 딥러닝(Deep Learning)2) 알고리즘(algorithm)3)을 적용해, 불량 탐지 및 예측과 원인 분석, 수율 분석과 같은 다양한 과제를 수행하고 있다.

1) 인공지능이 스스로 데이터를 학습하고 예측을 수행하도록 하는 기술 또는 시스템(프로그램)
2) 머신 러닝의 한 분야로, 빅데이터를 컴퓨터가 처리 가능한 형태인 벡터나 그래프 등으로 표현하고 이를 학습하는 추상화 모델을 구축하는 기술 또는 시스템(프로그램)
3) 어떤 문제를 해결하기 위해 정의된 규칙과 절차의 모임

 

반도체 산업, 데이터 사이언스 분야의 새로운 기회의 장

과거 데이터 분석가의 주 업무는 통계적 컨설팅을 통해 의사결정을 돕는 것이었다. 하지만 최근에는 AI, 빅데이터(Big Data) 기술을 통해 스스로 판단하고 결정할 수 있는 알고리즘을 개발하는 데 초점을 두고 있다.

구글, 페이스북, 아마존 등 글로벌 IT 기업은 이미 DS 조직을 만들어 검색, 추천, 광고 등을 최적화하기 위한 AI 알고리즘을 개발 중이다. 하지만 데이터를 수집하고 처리할 수 있는 자체 온라인 플랫폼을 확보하고 있는 IT 기업과 달리, 생산시설에 기반한 제조 기업은 알고리즘 개발 전 필요한 데이터를 확보하고 IT 시스템 고도화를 추진하는 ‘디지털 혁신(Digital Transformation)’을 먼저 이뤄내야 한다.

반도체 회사는 좀 더 일찍 데이터 분석에 주목해, 다른 제조 기업에 비해서는 상황이 나은 편이다. 수 년 전부터 방대하지만 잘 정제된 데이터를 수집해왔고, 현장 엔지니어들은 불량 원인을 분석할 때 이 데이터를 충분히 활용하고 있다. 한 예로 장비 상태에 대한 센서 신호 데이터, 공정 진행 후 웨이퍼에 대한 측정 데이터는 컴퓨터 서버로 전송되며, 엔지니어는 이렇게 수집된 데이터를 기반으로 장비 상태와 공정 처리 결과를 확인하고 조치를 취하는 것이다.

따라서, 반도체 분야는 고객 활동 데이터가 아닌 장비, 공정 및 엔지니어 활동 데이터로부터 가치를 발굴하는 가운데 최신 AI 기술을 적용해볼 수 있는 기회의 장이라고 할 수 있다.

 

SK하이닉스 데이터 사이언스 조직이 걸어온 길 ‘현장에 AI 기술을 뿌리내리다’

SK하이닉스의 DS 조직은 현장의 다양한 과제를 수행하며 반도체 관련 전문 지식(Domain Knowledge)을 이해하는 한편, AI 기술 적용 경험도 확보했다. 출범 초기에는 AI, 빅데이터 등 최신 정보통신기술(ICT)을 적용해 빠르게 효과를 볼 수 있는 과제를 수행하면서 전사 분석 저변을 확대했다. 이후에는 수율, 생산성, 품질 측면에서 기여할 수 있는 기술혁신 과제를 선정해 현업과 함께 목표를 정의하고 협업했다.

2019년부터는 현장의 피드백을 받아 필요한 기능을 지속적으로 반영하는 제품 중심 개발 방식을 추진했다. 또한, 분석 기능이 현장의 생산라인에서 문제없이 사용될 수 있도록 알고리즘을 개발·배포하고, 이후 운영상 이슈 해결까지 고려한 시스템을 구축하는 데 주력했다. 이 중 제품 중심 개발 과제에는 이미지 기반 불량 탐지 및 분류 과제인 IVIA(Intelligent Visual Inspection Analytics)4)와 웨이퍼 테스트 결과에 기반해 칩의 품질 점수를 예측하는 Sherlock5) 과제가 있다.

이에 더해 각기 다른 프로젝트에서 동일한 목적으로 과제를 개발하거나 비슷한 IT 인프라가 중복 구축되는 문제를 해결해 제품 개발 과정을 최적화하고자 했다. 이를 위해 공통적인 데이터 분석 서비스를 제공하는 분석 플랫폼(Analytics Platform)인 ‘DAY(Design Analytics Yourself)6)’와 AI 모델 운영을 위한 ‘AIP(AI Service Platform)’ 개발을 진행 중이다. 이러한 AI 플랫폼은 데이터 분석 전문가들에게 AI 모델 운영에 대한 고민 없이, 분석에만 집중할 수 있는 통합 분석 개발 환경을 제공한다. 이로써 AI 과제의 생산성을 극대화할 뿐 아니라 자원을 효율적으로 관리할 수 있게 됐다.

4) 측정 장비에서 나오는 이미지에 대해 양품/불량을 판단하고, 불량의 타입을 판별하는 과제
5) 웨이퍼의 칩 단위 테스트 결과에 기반해 메모리 모듈로 결합 시의 품질을 예측하는 과제
6) 분석 알고리즘 개발자에게 필요한 개발 환경을 컨테이너 방식으로 제공하는 플랫폼. Jupyter Notebook과 같은 분석 코드 편집기, 자사 분석 알고리즘 라이브러리, 주기적 실행을 위한 워크 플로우 설계 및 실행 기능, 결과 시각화 도구 등의 기능을 포함하고 있다.

 

내·외부 인재와 함께하는 데이터 사이언스 조직

DS 조직은 Headquarters(본부) 팀과 현장 팀으로 구성돼 있다. 부문 DS팀은 현장의 분석 요청을 해결하며, 전사 DS팀은 부문 DS팀이 해결하지 못하는 현장의 난제를 해결하거나 제품을 분석하고 플랫폼을 구축하는 업무를 담당하고 있다.

특히 부문 DS팀은 현장의 숙련된 데이터 분석 전문가(Citizen Data Scientist, 이하 CDS)와 협업해, 현장 중심의 데이터 기반 의사결정 문화를 확산하는 역할도 맡고 있다. SK하이닉스는 과제는 현장에서 잘 정의할 수 있다는 판단 아래, 2019년부터 현장 엔지니어에게 데이터 사이언스 교육을 진행해 DS 역량을 두루 갖춘 양손잡이 인재로 육성하고 있다. 분석 역량을 가진 CDS AI 알고리즘의 가치와 동작 방식을 이해하는 전문가로, SK하이닉스는 올해 약 300명의 CDS를 확보할 것으로 보고 있다.

해마다 AI와 관련해 수천 편의 논문이 출간되고 있으며7), 기업, 대학, 연구소에서는 새로운 AI 기술을 지속적으로 개발하고 있다. DS 조직은 이 같은 외부의 급속한 AI 관련 혁신 기술을 사내 문제 해결에 활용하기 위해, 대학과 AI 연구 및 기술 적용 관련 ‘AI 협력센터(AICC)’를 구축했다. AICC의 주요 목표는 최신 AI 기술 탐색 기술 로드맵 및 발전 트렌드 이해 새로운 관점의 접근을 통한 현장 난제 해결 과제 수행을 통한 반도체 데이터에 익숙한 AI 연구자 인재 풀 확보 등이다.

올해는 KAIST AICC(AI Collaboration Center)를 구축, AI 모델 운영 기술 확보를 주제로 6건의 AI 협업 연구8)를 진행했으며, 내년에는 서울대, 포항공대까지 협업 대상을 확대해 22개 과제를 진행할 계획이다.

7) 인공지능 최신 동향과 시사점, 소프트웨어정책연구소(2020)
8) AI 적용 후 데이터의 변화(Drift) 감지, 신규 불량 탐지 및 재분류(Open-Set Recognition, Multi Task Learning), 적은 데이터로 학습(Few Shot Learning) 등 SK하이닉스의 AI 모델 운영 기술 확보 과제를 수행하고 있다.

 

지금 데이터 사이언스 조직이 하고 있는 일 ‘현장 분석 및 기술 혁신 과제 수행’

SK하이닉스는 데이터의 규모(Volume), 처리속도(Velocity), 다양성(Variety) 측면에서 유의미한 데이터를 확보하고 있다. 반도체 공정에서 수집된 수십 페타바이트(Petabyte)9)의 빅데이터를 적재하고 있고(Volume), 불량 탐지와 알림을 위해 실시간으로 데이터를 처리하고 있다(Velocity). 또한 △공정별 웨이퍼 계측 데이터 △장비 탑재 센서 시계열데이터 △웨이퍼 테스트 데이터 △포토 장비의 웨이퍼 높낮이 데이터 △검사 장비의 불량 이미지 데이터 등 여러 공정과 장비에서 다양한 데이터를 수집, 분석하고 있다(Variety).

DS 조직은 이러한 데이터에 기반해 △장비의 이상 탐지 및 제어 △웨이퍼 및 메모리 불량 분류 △반도체 설계 최적화 △장비 고도화 등의 다양한 분석 작업을 진행하고 있다. 이외에도 △설비 운영 최적화와 에너지 비용 절감을 위한 ‘설비 데이터 분석’ △메모리 시장 수요 예측을 위한 ‘뉴스(News) 텍스트 분석’ △불량 보고서 검색 및 관련 문서 추천 △챗봇(Chatbot) 기반 분석 질의 및 시각화 △근무 환경 내 주요 질환 사전 예방 관리를 위한 ‘코호트 분석(Cohort Analysis)10)’ 등의 과제도 수행하고 있다.

설계, 소자, 공정, 수율, 장비 등 각 현장에서 요청하는 과제에 대응하는 것뿐만 아니라, 공급망(Supply Chain) 전반의 마케팅, 구매, 인적자원 관리(HR), 전략, 설비, 안전·보건·환경 관리(SHE) 등 기술혁신 과제 수행, 내부 제품 및 플랫폼 개발 등을 포함해 올해도 현재까지 300개가 넘는 프로젝트가 전사 및 7개 부문 DS팀에서 활발하게 진행 중이다.

9) 데이터의 크기를 표현하는 단위로, 킬로바이트(KB), 메가바이트(MB), 기가바이트(GB), 테라바이트(TB), 페타바이트(PB) 순으로 단위가 점점 커지며, 단위가 바뀔 때마다 데이터의 크기가 1,000배씩 증가한다.
10) 각각의 기준으로 분류된 동종 집단(cohort)의 데이터를 비교분석하는 분석 기법

 

SK하이닉스, AI 기반 ‘지능형 기업’으로의 도약을 꿈꾸다

DS 조직의 최종 목표는 SK하이닉스를 AI 기반 ‘지능형 기업’으로 성장시키는 것이다. 이를 위해서는 AI를 현장의 생산라인에 적용하고 현업 엔지니어가 스스로 운영할 수 있는 체계를 구축하는 과정이 필요하다. 이에 그간 DS 조직은 수많은 과제를 진행함으로써 지능형 기업으로 발전하기 위해 필요한 AI 과제를 현장에 적용해보는 경험을 축적했다.

대표적인 사례인 IVIA는 2018년부터 2년간 진행해온 불량에 대한 시각 검사 자동화 과제다. 초기 불량 탐지 및 분류를 위한 AI 모델 개발부터 MVP(Minimum Viable Product)11) 구현, 생산공정에서 AI 주도 검사 체계 완성까지 경험했다. 딥러닝에 기반한 불량 탐지 및 분류 알고리즘 기술은 기존의 반복적 수작업을 90% 이상 감소시켰으며, 더욱 높은 정확도로 불량을 찾아냈다.

현재 제조업에 AI를 활용한 사례는 많이 발표되고 있지만, AI 기반 운영시스템을 구축하는 데까지 발전한 과제는 많지 않다. AI 주도 검사 체계로 전환하기 위해서는 성능 저하시 빠르게 원인을 분석하고 복구하는 AI 성능 모니터링 체계가 갖춰져야 한다. 이를 위해 AI 모델이 스스로 디버깅(Debugging)12)하고 신규 불량 발생시 자동으로 학습하는 기능이 필요하며, AI 모델의 배포 체계도 구축해야 한다.

11) 고객의 피드백을 받아 최소한의 기능(features)를 구현한 제품. 추가적인 기능 요구를 받아 완성도를 높여가는 점진적 개발 방식을 의미하기도 한다.
12) 컴퓨터 프로그램의 오류를 찾아내고 수정하는 작업.

 

앞으로 데이터 사이언스 조직이 나아갈 길

AI 연구자인 앤드류 응(Andrew Ng) 스탠퍼드대 교수는 “불량 탐지나 분류 같이 일반적인 사람이 1초 이내에 판단하는 문제는 AI가 대신할 가능성이 높다”고 말했다. 이처럼 AI는 과거 전기가 그랬듯, 모든 산업 분야에 적용돼 혁신을 가져올 것이다. 또한, 이러한 혁신을 SK하이닉스로 가져와 적용하는 것이 바로 DS 조직이 지금까지 해왔고 앞으로도 해나갈 핵심 업무다.

실제로 DS 조직은 현재 △지속적인 현장 분석 과제 발굴 및 수행 △현장 분석 역량 강화 △분석 자동화 도구 개발 지원 등을 통해 SK하이닉스의 데이터 기반 의사결정 문화 정착에 노력하고 있다. 나아가 지능형 기업으로의 발전을 위해 AI가 의사결정하고 사람은 AI를 관리(성능 모니터링/재교육)하는 체계를 구축해 가고 있다.

아울러 현장 적용을 위한 AI 기술도 연구·개발 중이다. 비전(Vision)13) 및 자연어 처리(Natural Language Processing, NLP)14)와 같은 성숙한 AI 기술을 도입하여 활용하고 있으며, 분석 개발 환경과 AI 모델 운영 플랫폼을 구축해 AI 모델 개발 작업도 효율화하고 있다.

앞으로 AI 도입 범위가 넓어질수록 현장 작업자의 역할과 책임도 기존과 달라진다. 따라서 AI 기술을 현장에 적용해 지속적으로 활용하려면, 기존 시스템과의 통합뿐 아니라 일하는 방식의 혁신까지 고려해야 한다. AI에 문제가 생겼을 때 운영상의 이슈를 현장에서 스스로 해결할 수 있도록 AI 모델 운영을 위한 교육과 모델 관리 방법 등에 대해서도 함께 고민해야 한다.

13) 특정 알고리즘을 통해 사람의 시각 체계를 구현하는 기술
14) 특정 알고리즘을 통해 사람의 자연어를 분석하고 처리하는 기술