"복잡계 네트워크와 데이터 과학"
상태바
"복잡계 네트워크와 데이터 과학"
  • 조원영
  • 승인 2015.09.19 17:16
  • 댓글 0
이 기사를 공유합니다

삼성 플레이 더 챌린지 토크콘서트가 18일 부산 벡스코 오리토리엄에서 열렸다. 이 자리에서  정하웅 카이스트 교수는 "복잡계 네트워크와 데이터 과학"이란 주제로 강연했다

안녕하세요. 저는 카이스트 물리학과 정하웅 교수로 복잡계 및 통계물리 연구실에서 일하고 있습니다.

오늘 강의가 아니고 이야기를 하러 나왔습니다. 미적분 같은 수식 이야기를 하는 것이 아니고 물리학에 대한 어려운 이야기를 하지는 않을 거에요. 오늘 ‘구글신은 모든 것을 알고 있다’는 타이틀로 복잡계 네트워크와 데이터과학이라는 주제로 이야기해보고자 합니다

. (화면) 여기 보시면 빅데이터 위에 데이터 과학이라고 썼는데 이유가 있어요. 요즘 빅데이터라는 말이 너무 많이 쓰이기 때문에 차별성을 두기 위해서 데이터 과학이라고 했습니다.

Gartner group에서는 빅데이터를 '3V(Volume, Velocity, Variety)+1C(Complexity)'라고 정의했습니다.

‘Volume’이란 방대한 양이라는 뜻입니다. 많아도 너무 많죠. 데이터의 양이 중요한 이유를 보여주는 예가 있습니다. 한국어를 영어로 번역하는 것보다 한국어를 일본어로 번역한 후 그것을 영어로 번역하면 굉장히 정확한 번역을 얻을 수 있습니다.

 
한국어와 일본어는 어순이 같아서 번역이 쉬운 반면 일본어에서 영어 번역이 많이 정확한데, 그 정보의 양이 많기 때문에 가능합니다. 그리고 ‘Velocity’, 엄청나게 빠르게 나오고 있습니다. 최근에는 SNS 툴이 생기면서 정보의 생성, 확산 속도가 매우 빨라졌습니다. ‘

Variety’, 또 종류가 아주 다양합니다. 최근에는 데이터의 의미가 넓어져 숫자를 넘어서 그림, 동영상, 음성까지 아주 다양한 형태가 빅데이터로 여겨지고 있습니다. 사물인터넷까지 상용화된다면 어마어마한 데이터가 만들어지게 될 것입니다. 이런 것들이 서로 얽혀서 아주 복잡한 관계를 이루고 있습니다.

심지어 이런 잡지도 있습니다. ‘Science of Everything. ‘ 모든 것의 과학이라고 하는 잡지에서는 ‘Is Data The New God? 데이터가 새로운 신이 될 수 있는가?’ 하는 제목을 내기도 했습니다. 사람들이 연구를 많이 함에 따라 데이터는 실제로 신의 영역에 다가가고 있습니다.

이 복잡계 네트워크 속에서 빅데이터를 분석해야 하는데요, 이 빅데이터의 최고수로는 데이터를 많이 가진 이들, 검색엔진을 들 수 있습니다. 지난 미국 대선이 11월 15일이었죠. 선거 전날, 11월 14일 11시 33분에 빅데이터 검색 분석을 해봤어요. 구글에 후보를 검색한 자료와 실제 결과가 똑같이 나오기도 했습니다. (결과> 50 % vs 48%)

이게 소위 말하는 빅데이터의 힘입니다. 물론 웹 페이지가 많다는 것이 꼭 좋은 것은 아니에요. 그만큼 안 좋은 내용도 많다는 것이지요. 근데 웹 페이지가 많으면 뽑아낼 수 있는 정보가 많다는 것을 의미하기도 합니다.

‘구글 트렌드’라는 사이트에 가보면 검색어가 늘었다, 줄었다 하는 것을 보실 수 있는데 이게 다이어트에 관한 검색량 입니다. 매년 1월 1일에 매우 높은 수치가 드러나죠.

올해는 살을 빼야지 다짐하지만 매년 초 작심삼일로 끝나는 거에요. 이렇게 빅데이터를 활용하면, 이렇게 여러분의 생각을 분석을 통해서 알 수 있다는 거죠! 사람들은 검색할 때 절대 거짓말을 하지 않아요. 검색할 때 ‘검색엔진을 골탕 먹어야지!’이런 생각 안 하잖아요.

그리고 검색은 실시간이에요. 궁금한 내용이 생기면 그 자리에서 검색하잖아요. ‘이거 궁금하지만 꼭 참았다가 내일 해야지!’ 이런 생각은 하지 않아요. 여러분이 모바일에서 검색하는 순간 gps와 시간이 붙어서 검색엔진으로 넘어갑니다.

그래서 데이터가 무서운 겁니다. 검색은 여러분의 생각을 그대로 바치는 거고, 구글은 그 데이터를 가지고 분석을 한다는 거죠.

한 번은 구글이 재미난 일을 했어요. 2008년도에 뜬금없이 독감 환자 수를 예측하는 논문을 썼어요. 미국 질병관리센터인 CDC(Center for Disease Control)에서 매주 독감 환자가 몇 명인지 보고 합니다.

매주 모니터를 하다가 어느 지역에 독감 환자가 늘면 그 지역을 차단해서 독감을 막는 것을 목표로 합니다. 근데 그 분석 기간이 2주가 걸려요. 만약 분석을 했는데 LA 지역에서 독감 환자가 늘어났어요.

근데 분석이 2주가 걸려요. 비행기 타고 4시간 이면 동부에서 서부로 이동할 수 있는 세상인데, 2주면 독감이 미국 전역에 쫙 퍼질 수 있는 기간이에요.

그래서 구글이 검색엔진을 써서 분석을 하겠다고 했어요. 만약에 사람이 독감에 걸리면 검색을 할거라는 것이죠. 그래서 구글이 2003년부터 나와있던 먼지 쌓인 보고서를 꺼내놓고 구글 검색 데이터와 비교를 했어요. 독감 환자 수와 가장 잘 맞는 검색어 50개를 골라냈어요.

그리고 분석해보니 검색어가 늘어나면 그 지역에 독감 환자 수가 늘었다는 것을 발견했어요. 실제로도 2008년도를 보시면 파란 데이터가 실제 데이터, 노란색이 구글이 분석한 내용이에요. 일치하죠. 이걸 바탕으로 프로그램을 짜놨기 때문에, 어느 지역의 검색어가 늘면 자동적으로 그 지역에 경고를 할 수 있게 됐어요.

사실은 이게 무서운 거에요. 이게 공익적인 내용이니까 구글이 Nature지에 논문을 썼지만, 만약 구글이 빅데이터를 이용해서 돈을 벌려고 한다면 얼마든지 돈을 벌 수가 있었다는 겁니다.

예를 들어서 갑자기 LA 지역에서 부동산 검색량이 늘어나면 부동산 투자를 하면 됩니다. 만약 LA 지역에서 어떤 브랜드음료 검색량이 늘어나면 그 음료를 팔면 되는 거에요. 여러분이 무슨 생각을 하는지를 다 보고 있는 거에요.

이런 구글도 실수를 합니다. 독감 예측 지수가 2013년에는 200%가 틀렸습니다. 분석을 해봤더니 문제가 하나 있었그러나 습니다. 언론의 힘입니다. 2013년 초 미국에서 무슨 일이 벌어졌냐 하면 ‘독감 백신 품귀현상’이 벌어졌습니다.

뉴욕타임즈와 CNN에서 독감백신이 모자란다고 열심히 보도했습니다. 그러자 독감에 안 걸린 사람들이 독감을 검색하기 시작합니다. 독감검색이 많이 늘어납니다. 구글은 이에 따라 독감환자가 많다고 결과를 발표할 수 밖에 없었습니다.
내용 검토 없이 숫자만 맹신하는 것은 안됩니다.

그렇다면 이러한 오류에 대해서, 해결책이 없느냐, 있습니다. 이 통계 그래프를 보면, 여자분들은 관심이 있을텐데, 명품 백입니다. 사람들이 쓸데없이 검색하는 것이 아닌가, 맞습니다. 내용을 안보고 숫자만 보면 안되죠 그러니까 연관검색어를 보아야 합니다.

 

네트워킹이 되어있는 개념을 보아야 합니다. 단어 하나는 나뭇가지 하나처럼 가볍습니다. 하지만 단어가 묶이면 흔들리지 않습니다. 데이터를 묶어서 보는데 있어 장점은 ‘안정성’입니다. 많고 무거운 데이터는 ‘안정적인 데이터’입니다.

거짓말이 퍼지는 패턴은 가볍게 퍼지지만, 진실의 확산은 데이터가 묶여서 전파됩니다. 연구 결과에서 살펴보면 알 수 있습니다. 마찬가지로 제가 학교에 있으니까, 융합연구위에서 공동연구를 많이 하고 있는데, 그렇게 될 수밖에 없는 이유가, 서로 부족한 것을 모아 보는 협동연구를 해야 더 좋은 결과를 얻을 수 있기 때문입니다.

구글은 정말 재미있는 일을 많이 합니다. 프로젝트 중에 ‘구글 북 프로젝트’가 있습니다. 전 세계의 책을 스캔해서 발표를 하려고 봤더니, 저작권에 걸려 발표할 수가 없었습니다.

그런데 한 교수가 그 데이터를 빌려 책을 단어단위로 잘게 쪼개 각 책의 데이터가 몇 번 나오는지 숫자만 셌습니다. 단어의 빈도수를 셌는데, 그걸 보면 재미있는 걸 알 수 있습니다.

‘노예’라는 단어는 특정 시대적 특성에 따라 쓰이는 빈도가 다르며, 남북전쟁시대나 시민운동에 등에 ‘노예’라는 단어가 책에 많이 쓰인 것을 알 수 있습니다. 이것은 ‘컬처노믹스’라고 새롭게 문화를 데이터에서 읽어내는 방법입니다.

구글의 데이터에 따르면 시대의 흐름을 책에 나온 단어의 숫자로 알 수 있습니다. 여기는 남자 여자입니다. 보시면 옛날에는 남자라는 단어가 훨씬 많이 나왔습니다. 놀랍게도 1980년대 이후로 여자가 더 많이 나옵니다. 여권이 신장하고 있어요. 다음, 달걀이 먼저인가 닭이 먼저인가도 찾아봤어요. 달걀이 훨씬 많이 나옵니다.

데이터의 위상이 높아지고 있죠. 우리 주제 ‘챌린지(도전)’를 찾아보면 계속 높아지고 있습니다. 그래서 ‘플레이 더 챌린지’ 토크콘서트도 생긴 것이 아닌가 싶습니다.

그러나 아까 말씀 드렸듯이 단어 역시 엮어서 보아야 합니다. 이는 영어문법 교정에도 쓸 수 있습니다. 구글은 수많은 책을 전부 분석을 했고 이를

우리가 문장을 입력하면 저게 몇 점짜리 문장인지 몇 번 나오는지 알 수 있습니다. 문법 책 보다 데이터를 이용한 문법교정이 가능합니다. 문법공부를 할 필요가 없어요 구글이 알아서 고쳐줍니다. 단어를 연결해서 그 빈도수 분석한 데이터를 통해 고쳐준다는 겁니다.

보스턴 대학의 스탠리 교수가 구글 검색을 활용해서 주식 투자를 했는데, 구글 검색으로 주가를 예측하는 것입니다. 어떤 단어의 검색이 늘어나면 주가가 오르고, 어떤 단어의 검색이 줄면 주가가 내린다는 가정에서 시작했습니다.

‘빚(debt)’이라는 단어를 선정하여 검색량을 측정한 다음에 많이 검색되면 주식을 팝니다. 7년동안 수익률이 326%가 나왔습니다. 증권전문가들이 평균 33%의 수익률인 것에 비하면 정말 높은 예측률 입니다.

빚, 레스토랑, 포트폴리오와 같은 단어는 주가와 반비례하고 반지, 기차, 환경 등의 단어는 정비례합니다. 바로 이를 이용해서 주식 하시는 분도 있겠지만 이 책을 쓴 저자는 이 내용은 논문에 그친다고 강조합니다.

조심하셔야 할 것이 빅데이터의 함정인데요, 초콜릿 노벨상 패러독스라는 책이 있어요. 국가별 1인당 초콜릿 소비량과 국가별 노벨상 개수가 정비례를 하는 것입니다. 이게 무슨 말이냐면, 초콜릿을 많이 먹은 나라가 노벨상을 많이 탄다는 것입니다.

스위스가 대표적인 나라거든요. 그러면 노벨상을 타려면 초콜릿을 많이 먹어야 할까요? 이 논문을 보던 어떤 블로거가 럭셔리 스포츠카와 노벨상 계수가 더 상관계수가 높다는 것을 찾아냈습니다. 말도 안된다고 생각하시죠?

여기서, 빅데이터의 상관관계와 인과관계를 혼동하시면 안됩니다. 초콜릿을 먹는다고 노벨상을 타느냐? 빅데이터에서는 과학적인 인과관계가 필요합니다.

빅데이터는 만능이 아니고 조심스럽게 사용해야 합니다. 짧은 기간의 예측은 가능하겠지만 장기간의 예측은 맞지 않을 가능성이 높습니다. 데이터는 힌트를 줄 뿐입니다.

마지막으로 데이터를 잘 묶어야 합니다. 뇌는 뉴런이라는 신경세포로 이루어져 있습니다. 신경세포를 떼어내면 건전지와 같습니다. 그렇지만 건전지를 붙여 놓는다고 그것이 뇌가 되지는 않습니다. 그렇기 때문에 잘 붙여야 한다는 것입니다. 유기적으로 묶어서 데이터와 네트워크를 잘 묶어서 보시면 지금까지 보지 못했던 새로운 것을 찾아낼 수 있을 것입니다.

우리는 플레이 더 챌린지에서 도전 이야기를 하고 있는데요, 구글에 물어봤어요. 도전이라고 했더니 도전 골든벨, 도전 슈퍼모델 등이 나옵니다. 영어로 challenge를 썼더니 challenge, challenger 등의 스포츠 관련된 단어도 나와요. ‘아이스 버킷 챌린지’ 때 챌린지의 단어 검색량이 늘었었죠. 얻을 수 있는 정보가 많지는 않아요. 북미 위주에요. 네이버에서도 찾아봤어요. 무한도전, 도전 골든벨 등 다양한 프로그램이 나옵니다.

‘지금 보고 있는 직업 중 47%는 없어진다’고 옥스포드 오스본 교수가 말했죠. 그러면 어떤 직업을 선택해야 할까요? 직업의 단어 숫자를 보면 정치인이 제일 많이 나옵니다. 작가> 과학자> 배우> 예술가> 수학자 순으로 나옵니다.

최진석 교수님의 글을 인용하면서 끝내볼게요. 여러분들은 훨씬 강하고 자유롭습니다. 강하고 아름다운 자신을 소홀히 생각하지 마시고 멋대로 살아보는 도전 정신을 키워 보셨으면 좋겠습니다. 이 모든 분석은 저와 저의 대학원 학생들이 함께 한 것입니다. 수고한 모든 사람들을 위해 박수 쳐 주세요.

# # #

Q. 교수님에게 도전이란 무엇인가요?
A. 과학을 기피하는 학생들이 많은데 과학에 대한 관심이 있다면 꼭 도전해주셨으면 좋겠고,
제게 도전은 과학 멘토가 되어 우리나라 과학을 발전시키고 싶은 마음입니다.

조원영  jwycp@hanmail.net

▶ 기사제보 : pol@greened.kr(기사화될 경우 소정의 원고료를 드립니다)
▶ 녹색경제신문 '홈페이지' / '페이스북 친구추가'
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.