“마케팅 비용이 쏠리는 곳에 기회가 있다.”
2012년이 떠오른다. 빅데이터에 대한 특집 방송이 편성되고, 해외 사례가 물밀듯이 소개되고, 온갖 장미빛 청사진을 담은 기사들이 앞다퉈 쏟아지던 2012년. 그 열풍은 조금 사그라든 듯하지만 빅데이터는 아직 현재진행형이다.
개인적으로는 긍정적으로 평가하는 편이다. 실제 눈으로 확인할 수 있는 효과나 소위 ‘가성비’와는 별개로 어쨌든 사람들을 데이터에 주목하게 만들었고, 데이터의 활용 가치에 눈 뜨게 만들었으니까. 물론 순기능이 있으면 언제나 그렇듯이 역기능이 따라온다.
‘프리즘‘ 사태 등으로 확인된 빅브라더의 가능성과 함께 무분별한 마케팅으로 인한 맹신과 만능주의 확산이 바로 그것. 마케팅 비용이 쏠리는 곳에 거품이 형성된다고나 할까? 뭐 신기술의 필수 통과 의례 정도가 아닐까 한다. 거품이 초기 투자를 이끌어내는 긍정(?)적인 측면도 있고.
많은 이들이 빅데이터에 열광했으며 보안 업계의 관심 역시 매우 뜨거웠다. (사실 지금도 뜨겁다.) 그런데 최근 이세돌과 알파고의 바둑 대결 이후 그 관심이 인공지능으로 넘어가는 듯하다.
빅데이터 → 인공지능
고객 입장에서는 돈을 버는 것도 아닌 분야에 돈을 써야 하는 반면, 효과 측정은 어렵기만 한, 그래서 제품이 팔리기 어려운 시장 상황이다 보니 보안 업계는 사활을 걸고 새로운 위협, 새로운 기술 등의 이슈를 찾는다.
전에 ‘보안 제품의 한계‘란 글에서 이런 얘기를 한 적이 있다.
“대부분의 보안 제품이 비슷한 (자동화, 인공지능 느낌의) 컨셉이고 홍보 방식 역시 다 비슷하다.”
그동안 지속적으로 인공지능 컨셉을 밀어왔는데 드디어 진짜(?)가 나타났다. 물 들어올 때 노 저으랬다고, 이번 알파고 이슈는 마케팅 관점에서 정말 반가운 호재이자, 놓치기 아까운 기회임이 틀림없다.
“인공지능은 365일, 24시간 즉각적인 대응이 가능하다. 일반적으로 해킹 사태가 발생했을 때 사람은 이를 인지하고 대응책을 마련할 때까지 시간이 너무 오래 걸려 피해를 최소화하기에는 어려움이 따른다.”
과연 인공지능은 우리를 안전한 사이버 세상으로 안내해줄까? 일단 바둑은 경우의 수가 많을 뿐 실상 매뉴얼은 단순한 도메인에 속하는 일종의 보드 게임이다. 이어지는 돌을 많이 두면 이기는 것 아닌가? (저는 오목밖에 모릅니다…) 인공지능이 도전하기 적합한 분야라는 뜻이다.
정보보안은 어떨까? 사실 보안 분야는 초창기부터 한때는 인공지능 분야의 정점에 있었던 ‘전문가 시스템‘이 적용된 분야다. (요즘 이런 얘기하면 돌 맞는다고) 기존 인공지능 컨셉의 마케팅이 전혀 허무맹랑한 소리는 아니었던 것.
문제는 모든 공격 방법을 다 알고 있는 전문가는 없다는 것. (해커들이 너무 창의적으로 신통방통한 공격을 하기도 하고) 즉 보안 분야는 분야 전반에 통용되는 보편적 규칙을 찾기 힘들며, 결과적으로 예측이 어렵고 불확실성이 높아서 사람이 개입하는 비중이 클 수 밖에 없는 복잡한 도메인이라는 것. 인공지능이 도전하기엔 적합하지 않은 분야라는 뜻이다.
“보안 분야에 머신러닝을 적용하기 어려운 가장 큰 이유 중 하나는 어떤 것이 비정상행위이고, 어떤 것이 정상적인 행위인지를 결정하기 어렵다는 점이다.”
사람에게 쉬운 건 컴퓨터에게 어렵다
좀 뜬금없지만 ‘지혜의 심리학‘이란 책에 이런 구절이 나온다.
“컴퓨터의 목적은 연산과 저장, 인간이 지닌 지적 시스템의 목적은 이해와 평가다.”
국민첫사랑 수지 어떠냐는 질문을 컴퓨터와 사람에게 동시에 던지면 어떤 대답을 듣게 될까?
컴퓨터 : 눈이 두 개, 코는 하나, 입도 하나, 머리 길이는…
사람(남자) : 예쁘다.
컴퓨터는 데이터를 저장하고 연산할 뿐, 사람처럼 이해하고 추론을 통해 평가하지 못한다는 사실은 보안을 비롯해서 많은 분야의 인공지능 적용에 큰 벽이 가로놓여 있음을 의미한다.
특히 보안 분야는 오랫동안 ‘패턴매칭’을 기반으로 발전해왔으며, 특정 패턴의 존재 유무 또는 많고 적음이 아니라 해당 패턴의 맥락을 파악함으로써 정상과 비정상을 구분해왔다. 패턴에 대한 이해를 거쳐 옳고 그름에 대한 평가가 필요하다는 얘기. 컴퓨터는 언제쯤 데이터에 대한 이해와 평가가 가능해질까?
그렇다면 알파고는 뭘 어떻게 한 걸까? 서두에 링크한 글의 표현을 빌리자면 초창기 인공지능은 ‘A이면 B하라’는 rule-base 방식이었다고 한다. 바로 전문가 시스템을 얘기하며, 보안 분야의 ‘A 패턴이면 탐지, B 패턴이면 회피’ 식의 사실상 ‘패턴매칭’과 같다. 모든 경우의 수를 사람이 고려해야 하는 문제를 안고 있는 것까지 동일.
이후 인공지능은 통계적 추론 방식으로 발전했는데 단순히 통계로 분석하기 어려운 분야(이미지 알아 맞추기나 대화나 글의 주제 찾기 등)가 많아서 꽤 오랫동안 발전이 지지부진했다고 한다.
통계적 추론 기반의 인공지능이 발전하기 위해서는 데이터와 컴퓨팅 파워가 어마어마하게 필요하다고. 결국 구글이 빅데이터와 클라우드 컴퓨팅으로 해냈다. 알파고가 미리 저장된 대량의 기보 데이터를 학습함으로써 이세돌의 포석을 이길 가능성이 높은 확률을 통계적으로 연산해낸 것이다.
이번 알파고 이벤트로 구글의 주가 총액이 58조원 이상 늘었다고 한다. 빅데이터와 인공지능을 단순히 사용하고 있다 정도가 아니라, 두 분야의 융합을 통해 인간을 이겨보인 결과다. 더 나은 결과를 증명해 보이는 것. 이런 게 진정한 마케팅이 아닐까?
바야흐로 ‘단순한 도메인’이라면, 그리고 데이터량만 충분하다면 컴퓨터도 통계적 추론(과거에 이랬으니 앞으로도 이럴 거야)을 할 수 있는 세상이 왔다. 하지만 패턴의 맥락이 적대적인지 또는 우호적인지에 대한 평가를 해줄 알파고는 아직은 요원해 보인다.
이런 상황에서 그저 알파고 특수에 편승한 인공지능 마케팅은 어떤 결과를 가져올까? 기존에도 ‘알아서 다 해준다’는 마케팅을 해왔는데 설익은 기술적 완성도를 가지고 어떤 차별화된 결과물을 내놓을 수 있을까? 보안 제품에 대한 불신만 가중되는 건 아닐까?
물론 더 나은 제품에 대한 연구 노력은 이어져야 한다. 개인적으로 인공지능 관련 글을 읽다 보니 관건은 결국 빅데이터인 듯하다. 통계적 추론 기반의 인공지능이 발전할 수 있었던 배경, 알파고가 가능했던 배경에는 어마어마한 양의 데이터를 수집하고 처리할 수 있는 빅데이터가 있었던 것.
“머신러닝은 기본적으로 빅데이터 수준의 방대한 양의 데이터를 입력했을 때 그곳에서 어떤 특징을 뽑아내 의미를 부여하는 작업을 수행한다.”
전에 ‘보안관제와 빅데이터의 접목‘이란 글에서 알려진 공격을 방어하는 패턴매칭과는 별개로 알려지지 않은 공격, 즉 이상징후 분석 분야에 빅데이터를 활용해야 한다는 얘기를 했었다.
모든 공격 방법을 알아내는 건 불가능하기 때문에 빅데이터를 이용해서 정상과 비정상의 (패턴이 아닌) 상태에 대한 수치화를 통해 통계적으로 구분 기준을 찾아야 한다는 뜻이다. 이때 패턴매칭 기반의 알려진 공격 방어가 병행되어야 함은 두 말 하면 잔소리.
이왕 저을 노, 잘 젓자
보안 분야에 빅데이터 바람이 분지 꽤 됐지만 아직까지는 내부정보 감사 등 제한적인 분야에만 활용되고 있는 것이 현실이다.
개인적으로는 스몰 데이터부터 경험을 쌓을 필요가 있다고 보지만, 이왕 바람이 불어버린 거 잘 해봤으면 싶다. 게다가 빅데이터는 나름 기술적 성숙도가 무르익은 상태에서 부각됐기 때문에 경영진의 의지와 지원만 끊기지 않는다면 성과를 만들어낼 가능성도 높다.
지속적으로 거품을 걷어내고 활용 분야를 확대해 나간다면, 그리고 데이터와 경험이 쌓인다면 언젠가는 인공지능으로 발전할 날도 오겠지. 그날이 오면 보안 알파고는 ‘51% 확률로 이상징후 발견’, 뭐 이런 메시지를 뿌려줄 테고. (그러니 우선 빅데이터라도 좀 잘해보자.)
그런 날이 오려면 시스템과 특히 인력 인프라에 대한 지원이 필수이고, 그 인프라가 경보를 처리하고 분석하는 데 총력을 기울이게끔 해야 한다. 그래야 데이터와 경험이 쌓인다. 총력을 기울여야만 하는 일이 있다면 다른 일을 해서는 안 되는 것 아닐까?
“경보만 처리하고 분석하는 데에 사실 보안팀이 총력을 기울여야 될 정도라, 다른 일을 할 수가 없다.” (그러나 현실은 다른 일도 해야 한다.)
원문: 케세라세라