산업공학과 학생들은 취업을 준비해야 할 시기가 다가오면 고민이 많아집니다. 다양한 분야를 폭넓게 배우는 만큼, 진로를 정하는 게 쉽지 않기 때문일 텐데요. 그런 산업공학과 학생들이 주목할 만한 분야가 있습니다. 바로 최근 핫하게 떠오르는 ‘데이터 사이언스(Data Science)’입니다. 천문학적인 양의 빅데이터 시대가 도래한 만큼, 이제는 반도체 업계에서도 데이터를 적극적으로 활용하기 시작했다고 하는데요. 지금부터 SK하이닉스 데이터 사이언스팀 구성원이자, 산업공학과 출신 선배 두 분을 만나 궁금했던 이야기를 들어보겠습니다.
▲ 주용한 책임(좌), 김종환 책임(우)
Q. 안녕하세요, 만나 뵙게 되어 반갑습니다. SK하이닉스 블로그 독자분들을 위해 간단한 자기소개 부탁드립니다.
주용한 책임 안녕하세요. 데이터 사이언스 조직의 data innovations팀 P/L을 맡고 있는 주용한 책임입니다. 저희 팀은 현장구성원들이 업무에 활용할 수 있는 데이터 분석 솔루션을 개발하여 생산성과 연구개발 효율성 향상을 도모하고, 다양한 기계학습, 통계, 인공지능기법들을 현장에 적용하고 있습니다.
김종환 책임 안녕하세요. 저는 Data architect lab의 김종환 책임입니다. 데이터 사이언스 조직은 총 6개의 부서로 이루어져 있는데요. 그 중에서 4개의 부서가 데이터 분석을 담당하고, 2개의 부서가 데이터 처리를 담당합니다. 주용한 책임님의 부서가 데이터 분석 쪽이라면, 저희 팀은 데이터 처리 쪽에 가깝습니다.
Q. 산업공학도인 저 역시 몇 가지 생소한 개념들이 있는데요. 두 분이 맡고 계신 업무에 대해 좀 더 구체적으로 설명해주세요.
주용한 책임 반도체를 개발하고 제조하는 단계에서는 데이터를 많이 측정해야 합니다. 하지만 전체 측정하는 것은 불가능하기 때문에 sample data만 추출하게 되는데요. 수집된 데이터를 검토하고 해석하기 위하여 다양한 분석 모형을 개발합니다. 들쑥날쑥한 변동의 원인을 찾기 위해 머신 러닝, 딥 러닝, 데이터 마이닝과 같은 기법이나 휴리스틱 기법들을 사용하여 모델링을 진행합니다. 이것이 제가 하고 있는 통계와 최적화, 예측 모형 개발 업무입니다.
김종환 책임 Data Wrangling이라는 작업은 분석하기 어려운 Raw data를 정제하고 처리하는 작업입니다. 빅데이터는 말그대로 데이터가 크기 때문에 속도가 매우 중요한데요. 데이터를 분산해서 처리하게 되면, 그만큼 많은 사람이 분업하여 빠르게 데이터를 처리할 수 있게 되겠죠? 이것이 바로 빅데이터 환경 분산 처리 기술입니다.
Q. 반도체 회사인 SK하이닉스에 입사하시게 된 특별한 계기가 있으신가요? 또, 많은 직무 중 데이터 사이언스 직무를 선택하신 이유가 있나요?
주용한 책임 3년 전만 해도 산업공학 학부 지식을 특화할 수 있는 채용 분야가 많이 없었습니다. 하지만 유일하게 SK하이닉스에는 품질 공학, 데이터 마이닝, 머신 러닝 등 학부 지식을 활용할 수 있는 채용 분야가 있었죠. 저는 학부생 시절 통계와 품질 공학이 적성에 잘 맞았기 때문에, 데이터 마이닝을 기반으로 한 데이터 사이언스 직무를 선택하게 되었습니다.
김종환 책임 데이터 사이언스 조직은 총 6개의 부서로 이루어져 있는데요. 그 중에서 4개의 부서가 데이터 분석을 담당하고, 2개의 부서가 데이터 처리를 담당합니다. 주용한 책임님의 부서가 데이터 분석 쪽이라면, 저희 팀은 데이터 처리 쪽에 가깝습니다.
Q. 그렇다면 두 분이 생각하시기에 데이터 사이언스 직무의 매력은 무엇이라고 생각하시나요?
주용한 책임 업무의 자율성이 매우 높습니다. 무언가 실험해보고 싶은 게 있다면 자유롭게 실행할 수 있어요. 또한, 전사조직이다 보니 저희가 개발에 성공하면 회사 내 긍정적인 영향력을 끼칠 수 있다는 점이 스스로 자부심을 느끼게 합니다.
김종환 책임 SK하이닉스의 데이터 사이언스 조직은 흡사 연구 조직과 같기 때문에 더 나은 솔루션을 위해 다 함께 개발하고 연구하고 시도할 수 있는 점이 매우 좋습니다. 누군가 ‘넌 이거 해’와 같이 업무 단장을 해주는 것이 아니라 함께 협업하는 분위기입니다. 또한, 빅데이터를 분석하고 처리하다 보면 서버나 컴퓨터 사양 등 환경 구축에 필요한 것들이 많은데, 회사에서 이러한 부분에 대해 적극적으로 지원한다는 점이 좋습니다. 또한, 정기적인 교육 및 세미나를 받을 수 있다는 것 또한 큰 매력입니다.
Q. 두 분 모두 산업공학을 전공했다고 들었습니다. 데이터 분석 업무를 포함하여 산업공학 전공자들이 입사를 하게 되면 어떤 직무들을 담당하게 되나요?
주용한 책임 산업공학 전공자들이 입사하면 수율 및 품질 분석, Split 분석, 분석 시스템 개발, Process Control 등의 직무를 담당하게 되는데요. 그 중 최근 저희가 속한 데이터 분석 직무의 경우 산업공학 전공자들이 입사하게 되면 데이터 분석 및 빅데이터 처리와 관련된 업무를 주로 진행하게 됩니다. 고도화된 실험계획방법을 공정분석에 활용하기도 하며, 공정 중 이상이 탐지되면 해당 이슈의 원인을 파악하기도 합니다.
Q. Data Science 조직의 산업공학 전공자가 많다고 들었는데, 그 비율이 어떻게 되는지 궁금합니다. 또, 조직에서 산업공학 전공자들을 필요로 하는 이유는 무엇인가요?
주용한 책임 산업공학은 약 30%, 통계전공자를 합치면 약 60~70%정도입니다. 산업공학 전공자들은 다양한 학문을 배우게 됩니다. 따라서, 나무가 아닌 숲을 보는 시야가 발달되어 있습니다. 문제의 근본 원인 및 해결 방법을 제시하는 것에 장점이 있습니다. 또한 데이터 분석적인 면에서도 최적화, 회귀분석, 데이터베이스, 머신러닝을 두루 학습하기 때문에 데이터사이언티스트의 기본 소양을 갖추고 있습니다. 이러한 기초 지식은 현업의 요청사항을 기반으로 기술을 개발할 때 유용하게 활용됩니다.
김종환 책임 데이터 사이언스 실에는 저희 뿐이 아니라 산업공학 전공하신 분들이 많습니다. 데이터 분석을 하기 위해서 통계와 프로그래밍, 데이터베이스에 대한 이해가 필수적이라고 할 수 있어요. 산업공학에서는 이와 관련한 과목 등을 전공과목으로 배우고 있는데요. 특정 영역에서는 통계학과나 컴퓨터 공학과 보다 전문적으로 배우지 않는 부분도 있으나, 전체적인 시스템에 대한 이해를 바탕으로 데이터 분석 업무 프로세스를 진행할 수 있습니다.
Q. 반도체 업계가 데이터 분야에 집중하는 이유가 무엇인지 궁금합니다.
주용한 책임 반도체의 개발 생산 테스트 단계에서는 매우 많은 데이터가 쏟아지고 있습니다. 또한 실시간으로 모니터링도 해야 하고, 이슈가 발생할 경우 이에 대한 처리도 신속히 해야 합니다. 데이터는 많지만 유의미한 데이터를 생성하거나, 해석하기에 어려운 점이 있습니다. 현재까지 현장의 빅데이터를 분석하여 유의미한 성과를 지속적으로 창출하고 있습니다. 더불어 공정이 미세화 되면서 다양한 실험을 효율적으로 진행하고, 유의미한 결과를 신속히 제시해야 합니다. 이러한 이유들로 인하여 최근에 반도체 기업들의 데이터 분석에 관한 관심이 지속적으로 증가하고 있습니다.
김종환 책임 주용한 책임님 답변처럼 반도체에서는 데이터가 굉장히 많이 발생합니다. 그리고 점점 반도체 개발과 양산이 어려워지면서 기술의 한계가 발생해 데이터의 힘이 이전보다 더 필요하게 되었습니다. 데이터가 앞으로 다양한 분야에서 반도체 개발과 생산에 기여할 것으로 생각됩니다.
Q. 회사 내에서 팀의 중요성이 크다는 것을 어떻게 체감하고 계신가요?
주용한 책임 저는 2014년도에 연구원으로 입사했습니다. 그 당시는 저를 포함한 3명이 별동대처럼 분석업무를 처리하고 있었습니다. 그리고 점차 SK 하이닉스에서 데이터 분석이 중요함을 실감하면서 데이터 사이언스 담당으로 구성원들을 모았습니다. 데이터 분석이 매우 중요하다는 전사 홍보도 있었고, 전사 지침으로 연구원들도 데이터 분석 역량 인증 시험에서 일정 레벨 이상 취득해야 합니다. 데이터 사이언스의 중요성에 대한 회사의 시각이 달라졌다고 체감하는 부분이죠.
김종환 책임 작년 초반 데이터 사이언스 실이 처음 만들어졌습니다. 각자 분산되어 분석하던 소규모 조직들이 통합되어 규모가 많이 커졌어요. 회사 내 데이터 사이언스 팀의 중요성이 커졌다는 것 아닐까요? 또한, 신입 사원들이 들어오면 통계 툴과 통계 교육을 진행하는 점에서 회사가 데이터 분석에 주목도가 높은 것을 느낍니다.
Q. 그렇다면 데이터 사이언스는 어떠한 방식으로 SK하이닉스에 적용되고 있나요?
주용한 책임 데이터 사이언스는 제조 환경에서 이상(異常)을 잘 발견하게끔 툴, 알고리즘을 만드는 과정에 기여합니다. 사람들이 미처 다 풀지 못하는 문제를 해결하기 위해 일반적으로 정형화된 툴이나 로직을 적용하는 것이 아니라 많은 기법을 다양하게 적용해보면서 자동화를 위한 기반을 만듭니다. 즉, 모델링을 통해 반도체 제조 과정이 빠르고 잘 워킹 될 수 있게끔 처리를 해주는 것이죠.
김종환 책임 데이터 사이언티스트란 “IT 하는 사람보다 통계를 조금 더 잘 알고, 통계 하는 사람보다 IT를 더 잘 안다” 라는 우스갯소리가 있습니다. 이처럼 데이터 사이언티스트는 알고리즘, DB, 프로그래밍, 기술 등 분야의 전문가가 되기 위해서 알아야 할 것이 매우 많습니다. 즉, 전체적인 틀, 골자를 다 아는 사람이어야 하죠. 데이터 사이언스는 반도체 불량 원인 공정 등 사람이 하나하나 다 들여다볼 수 없는 부분에 대한 좋은 알고리즘을 만들 수 있는 사람입니다. 이 알고리즘을 여러 공정에 적용해 불필요한 테스트를 줄이거나, 불량의 원인을 더 빨리 찾거나, 개선을 좀 더 빠르게 해 돈과 시간을 낭비하지 않을 수 있죠. 그것이 데이터 사이언스 팀이 회사에 기여하는 방식입니다.
Q. 데이터 사이언스를 필요로 하는 분야는 매우 무궁무진한데요. 그중에서도 SK하이닉스에서의 데이터 사이언스는 어떻게 정의할 수 있을까요?
주용한 책임 제가 지금까지 살면서 배웠던 학부 지식을 정말 다 활용할 수 있습니다. 데이터양도 많고, 제 지식을 적용할 수 있는 데이터 분석 분야도 다양해서 제가 배운 실험계획법, 품질 공학, operational research, 데이터 마이닝, 생산관리 등 모든 내용을 응용할 수 있다는 게 정말 매력적입니다.
김종환 책임 다른 업계보다 제조 업계, 반도체 회사에서의 데이터는 그 양이 정말 많습니다. 예를 들어, 반도체에 셀이 40억 개가 있고, 셀 하나에 한 개의 데이터가 있다면 한 칩에 40억 개의 데이터가 있는 셈입니다. 그만큼 반도체 칩 하나에서만 데이터가 어마어마하게 만들어집니다. 반도체 회사에만 경험해볼 수 있는 데이터 양이죠. 하지만, 빅데이터 처리기술이 발전하게 되면서 그 많은 데이터를 summary 하거나 처리하는 것이 수월해졌어요. 빅데이터 분석 시 데이터가 부족하거나 없어서 분석이 불가능할 때도 있는데, SK하이닉스에서는 데이터가 매우 많아서 데이터 처리 과정은 까다롭지만, 그 과정이 매우 매력적입니다.
Q. 최근 데이터분야가 각광을 받으면서 많은 산업공학과 학생들이 관련 분야의 취업을 꿈 꾸고 있습니다. 앞으로의 전망이 어떻다고 생각 하시나요?
주용한 책임 데이터 사이언스에 관한 관심도 증가 및 효과가 확인되면서 인력 Pool도 넓어지고 있습니다. 앞으로도 이러한 트랜드는 유지될 것으로 생각합니다. 현재도 많은 업무를 진행하고 있으나, 앞으로 분석해야 할 영역들도 무궁무진하게 많습니다.
김종환 책임 데이터는 폭발적으로 증가하고 있고, 이에 따라 데이터 분석에 대한 중요성도 날로 증가하고 있습니다. 앞으로의 전망은 매우 좋다고 생각합니다. 해당 영역에 대해서 관심을 갖고 공부해 나간다면 데이터 분야에서 중요한 역할을 수행할 수 있을 것입니다.
Q. 데이터 사이언스 분야의 각 팀에서는 어떠한 인재상을 추구하고 있나요?
주용한, 김종환 책임 데이터 사이언스 분야의 관점에서 바라보자면, 문제를 잘 파악하고 해결 가능한 solution을 자기 주도적으로 제시하는 데 능한 사람이 좋겠죠. 또, 학부 지식 중에서도 데이터 공학이나 품질 공학에 관한 내용을 성실하게 배우고 오면 좋을 것 같아요. 그리고, 저희 직무 특성상 현업 구성원들과 협업이 자주 이뤄지는데요. 그렇기 때문에 모르는 것을 주저 없이 물어보고, 항상 배우고자 하는 자세를 가진 적극적인 분이면 좋을 것 같습니다.
Q. 인턴이나 현장실습을 제외하면 해당 직무를 경험해볼 기회가 부족한 학생들이 많습니다. 미리 데이터 사이언스 직무에 대해 경험한다면 어떤 방법이 있을까요?
주용한 책임 일 년에 한 번 열리는 SAS 분석 챔피언십에 참가해보는 것을 추천합니다. 데이터를 활용해 주어진 주제에 맞게 분석하여 결과를 도출해내는 공모전인데요. 지난 2016년에는 한국인의 질병에 관한 네트워크를 분석하는 주제였습니다. 공모전에서 입상한다면 더없이 좋겠지만, 경험만으로도 미리 직무를 파악하는 데 큰 도움이 될 것 같습니다.
김종환 책임 아마존의 아마존웹서비스(AWS)와 MS의 애저(Azure)는 클라우드 컴퓨팅 플랫폼인데요. 무료로 데이터와 환경을 제공하기 때문에 미리 sample 데이터를 추출하고 분석, 처리까지 경험해 볼 수 있습니다. 아마 혼자서는 어렵겠지만, 경험에 의의를 두고 한번 해보면 좋을 것 같아요.
Q. 마지막으로 미래의 데이터 사이언스 분야 전문가로 발돋움하고 싶어하는 산업공학과 학생들에게 조언 한마디 부탁드립니다!
주용한 책임 요즘 4차 산업혁명, 빅데이터 시대가 도래하면서 산업공학에 대한 주목도가 높아지고 있어요. 학부생 때부터 직무 기반인 산업공학지식을 기초부터 잘 쌓아가며 학업에 정진하다 보면 원하는 바를 꼭 이룰 수 있으실 겁니다. 화이팅!
김종환 책임 데이터 사이언스는 배울 게 아주 많기 때문에 재미있고 매력적인 분야입니다. 미래의 후배 분들과 이 분야에서 함께 일할 수 있다면 정말 좋을 것 같아요. 기다리고 있겠습니다.
지금까지 데이터 사이언스 분야의 전문가, 김종환∙주용한 책임님과의 인터뷰였습니다. 두분의 이야기를 들으며 막연하게만 느껴지던 데이터 사이언스에 대해 많은 매력을 느낄 수 있었는데요. 이번 인터뷰가 미래의 데이터 사이언스 전문가를 꿈꾸는 많은 산업공학과 학생들에게 좋은 길잡이가 되었기를 바랍니다!