머신러닝, 퀀트에 인공지능을 심다
인공지능이란 사람의 손을 거치지 않고 판단을 내리며 실행에 옮기는 프로그램을 말한다. 퀀트들은 컴퓨터가 등장한 초창기부터 이런 인공지능을 이용해 자동으로 증권의 가격을 계산하고 예측하며 거래했다. 가장 큰 장점은 감정기복 없이 주어진 로직과 데이터에 의해서만 거래한다는 점이다. 물론 단점도 있었다. 위기 상황에서 유연하게 대처하지 못했고 인간이 끊임없이 알고리즘을 업데이트 시켜주어야만 현재 시장에 맞게 적응할 수 있었다.
그러다 2000년대 후반부터 급격히 재조명된 인공지능 기술이 있다. 바로 머신러닝 기술이다. 머신러닝은 기존의 통계적 모델링 방법과 다른 방식의 접근법이다. 기존의 규칙 기반 통계 모델링 방법은 먼저 인간의 가설을 세운 다음 이를 통계적으로 검증해서 예측 모델을 만드는 방법이었다. 예를 들어 기존 데이터를 보고 펩시와 코카콜라 주가 사이에 관계가 있다고 가정한 뒤 데이터를 통해 검증한 것이다.
그러나 머신러닝 방법은 거꾸로 데이터셋을 끊임없이 알고리즘에 집어넣어 학습시킨 다음 거기에서 패턴을 찾는 모델링 방법이다. 이는 거대한 데이터를 처리하는 데도 강력한 방법이었고 사람이 쉽게 찾을 수 없는 패턴이나 간단하게 정의하기 어려운 규칙을 찾아낼 획기적인 기술이었다.
금융계, 특히 퀀트 분야는 사실 이런 분야의 선구자였다. 1990년대부터 음성 인식과 암호 해독 머신러닝 기술을 변행해 금융시장의 패턴을 찾는 데 이용되었다. 이외에도 수많은 트레이딩 회사가 2000년대 후반부터 가격, 거래량, 시간 등 각종 시장 데이터를 입력해서 시장의 움직임을 학습시키고 이 모델을 이용해서 거래하려고 했다.
데이터 편향성 그 한계
초창기 머신러닝 모델을 이용한 퀀트 알고리즘은 한계가 있었다. 크게 두 가지 문제가 있었는데 하나는 데이터 편향성 문제이다. 통계적 모델링과 비슷한 문제점인데 애초에 신경망으로 학습한 데이터가 과거 데이터이다 보니 과거 데이터에 맞춰서 학습한 모델을 가지고 미래를 예측하려는 것이다. 이는 과거에 일어나지 않았거나 과거에 지나치게 잘 맞았던 패턴에 의존하는 경향이 있다.
인공 신경망 학습은 ‘분류(Classification)’에 특화된 알고리즘이다. 각 패턴마다 매수를 해야 할지 매도를 해야 할지 분류해야 하는데 음성 인식이나 스팸처럼 답이 확실한 지도학습인 경우에는 이를 확실하게 학습시킬 수 있지만 매 순간 매수냐 매도냐 최선의 선택을 해야 하는 트레이딩의 특성상 신경망으로 완벽한 예측 모델을 만드는 데는 한계가 있었다.
또한 인공 신경망으로 학습된 결과 자체가 어떤 경제적, 논리적 인과 관계를 가지고 판단하는지는 알 수 없다는 치명적인 단점이 있었다. 신경망에 데이터를 입력해서 학습시키면 수많은 뉴런과 가중치의 조합이 나오는데 이것만 이용해서는 어떤 규칙을 가지고 판단하는지 알 수 없다.
스팸 필터를 하거나 얼굴 인식을 하는 경우에는 신경망이 어떤 로직을 통해서 인식했는지 알지 못해도 충분히 활용이 가능했다. 인간이 친구의 얼굴을 인식할 때에도 ‘이 사람은 눈이 크고 인중이 넓기 때문에 내 친구인 철수이다’라고 생각하면서 인식하지 않기 때문이다. 그러나 트레이딩은 다르다. 직접적인 투자를 하기 때문에 어떤 인과관계를 통해서 이런 패턴으로 판단하고 투자하는지 알지 못하면 커다란 사태로 이어질 수도 있다.
적용 방식의 진화: 직접투자에서 어드바이저로
머신러닝을 이용해 트레이딩 전략을 만드는 시도는 잠시 좌절되었다. 그러나 다양한 분야에서 머신러닝의 활용도는 무궁무진했기 때문에 퀀트들은 전략 자체를 머신러닝에 의존하기보다 데이터를 가공하거나 새로운 보조 지표를 얻는 것으로 활용했다.
가장 많이 활용하기 시작한 부분은 자연 언어 처리 부분이다. 머신러닝의 발달로 컴퓨터가 인간이 적은 문장이나 글을 읽고 뉘앙스를 잡아내거나 내용을 해석할 수 있게 되었다. 이를 이용해 소셜 네트워크 서비스의 방대한 글들의 흐름을 알 수 있게 되었고 실시간 뉴스의 정보나 애널리스트들의 평가를 실시간으로 수치화해서 읽어들일 수 있게 된 것이다.
퀀트 펀드들이 머신러닝을 이용한 소셜 네트워크 데이터 기반 트레이딩 알고리즘을 이용한다는 뉴스가 나왔다. 직접적인 알고리즘 공개는 없었지만 금융사에서 자연 언어 처리 및 소셜 네트워크 서비스 전문가를 채용하는 공고들이 하나둘씩 등장하고 있다. T3라는 회사는 트럼프의 트위터를 읽어서 매매하는 알고리즘을 소개한 적도 있다.
블룸버그 뉴스나 방송 아나운서의 목소리를 인식해 뉘앙스를 캐치한 다음 부정적인 뉴스와 긍정적이 뉴스를 구분하고 어느 정도 수준의 긍정적인 뉴스인지 가중치를 더한 뒤 거래하는 알고리즘도 등장했다. 이 모든 것은 신경망 머신러닝 알고리즘을 주로 이용한 방식이다.
이런 인공지능은 찰나의 패턴을 잡는 초단타매매보다는 장기 투자를 하는 헤지펀드나 자산관리 업체에 더 많은 영향을 주었다. 자산관리 업체들은 인공지능이 각 투자자에 맞게 펀드를 설계해주고 자산 분배를 해주는 ‘로보 어드바이저’를 도입하기 시작했다.
로보 어드바이저는 퀀트 트레이더처럼 무조건적인 수익을 내는 방향이 아니라 자산의 효율적인 분배로 각 사람에 맞게 상품을 조합하는 조언의 역할을 하는 것이므로 판단 알고리즘 자체를 자세히 알지 못하더라도 크게 위험하지 않다. 펀드매니저가 상품을 조합하고 각 사람에 맞는 투자 상품을 추천해주는 일 자체가 자동화 되고 있는 것이다.
머신러닝과 인공지능이 만능인 것은 아니다. 입력 데이터를 기반으로 학습하기 때문에 데이터가 부족하거나 잘못 가공된 데이터를 입력하면 엉뚱한 알고리즘이 만들어지고 이는 거대한 손실로 이어진다. 데이터의 처리가 미흡하거나 오류가 많으면 사실과 전혀 다른 판단을 하는 인공지능이 만들어지고 데이터 과학자의 다양한 심리 편향이 인공지능 안에 녹아들게 된다.
게다가 앞으로는 단순한 숫자 데이터 이외에도 텍스트, 이미지, 음성, 동영상 등 비정형 데이터나 날씨, 위성 사진과 같은 다차원 데이터도 분석을 시도할 것이다. 이런 부분의 전문가가 곧 수익률 좋은 알고리즘을 만드는 원천이 되는 시대가 올 것이다.
한발 늦은 대한민국
안타깝게도 퀀트나 데이터 과학에 대한 국내의 인식은 참담한 수준이다. 매매에 컴퓨터가 개입되는 것을 규제로 강하게 막았던 역사에 단일화된 거래소로 알고리즘 트레이딩이 발전할 겨를이 없었고 퀀트는 대부분 파생상품 설계를 위한 퀀트가 주류를 이루었다.
이마저도 최근에 도입된 것이고 2007년 한국일보의 기사를 보면 당시 파생상품을 설계할 수 있는 퀀트도 전무했다고 한다. 2007년이면 이미 미국에서는 초단타매매 시대로 넘어간 지 오랜데 말이다. 게다가 국내 상장 기업 자체가 다양한 편이 아니기 때문에 파생상품 또한 다양하게 존재하기 어려웠다. 이런 상황에서 방대하며 비용만 차지하는 거대한 금융 데이터를 기록하거나 가공하려던 시도가 적었던 것은 어찌 보면 당연하다.
최근 일어나는 수많은 핀테크 붐과 인공지능 혁명 속에서 빅데이터와 머신러닝을 외치고 있지만, 해외에 비해 데이터를 모으고 체계를 잡을 시간이 부족했기 때문에 데이터 과학자나 시스템 모두 부족한 상황이다. 데이터가 제대로 없는 상황에서 퀀트나 데이터 과학자가 활동할 수 있는 환경이 이루어질 리가 만무하다.
국내에서 이런 부분에 투자를 하기 위해서는 인공지능과 퀀트에 대한 기술만을 외치기보다는 본질적인 부분에 집중해야 한다. 즉 데이터에 대한 효율적인 관리와 체계를 우선적으로 잡을 것을 권하는 바이다.