2011년 미국의 유명 퀴즈 방송인 ‘제퍼디!(Jeopardy!)’에 출연해 74번 연속 승리에 빛나는 ‘켄 제닝스’와 가장 많은 우승 상금을 획득한 ‘브레드 러터’를 상대로 압승을 거두며 인공지능(Artificial Intelligence, A.I.)이 인간을 능가할 것이라는 가능성을 보여준 IBM의 ‘왓슨(Watson)’.
왓슨은 IBM이 만든 인공지능 또는 그 인공지능이 탑재된 슈퍼컴퓨터를 뜻한다. 명칭은 초대 IBM의 경영자였던 토머스 존 왓슨 시니어(Thomas John Watson Sr., 1874.2.17.~1956.6.19.)의 이름에서 따왔다. 자연 언어 형식으로 된 질문들에 답할 수 있는 시스템이며, 인간 수준의 이해력과 정의 분석력을 갖추는 것을 목표로 개발 중인 소프트웨어이다.
화려한 등장과 더불어 IBM은 왓슨을 통해 다양한 분야에 진출하게 되었으며, 특히 금융, 쇼핑, 법률 분야에 진출했으며 미국 매사추세츠주 캐임브리지 켄달스퀘어에 ‘왓슨 헬스 그룹’을 설립, 왓슨을 암 연구 센터 등에서 논문 분석 등의 실험에 응용되기 시작했다.
보통 과학자가 하루에 5개씩 38년이 걸릴 분량에 해당하는 7만 개의 논문을 한 달 만에 분석하고 항암 유전자에 미치는 단백질을 6개를 찾아내는 등의 성과를 보이며 주목을 받았고, 미국의 ‘MD 앤더슨 암 센터’ 역시 ‘왓슨’을 도입하기도 했다.
2016년에는 도쿄대 의과학연구소에서 ‘급성골수성백혈병’으로 진단받은 60대 환자의 유전자 데이터를 분석, ‘2차성 백혈병’이라는 또 다른 질환에 가깝다며 기존에 투여하던 항암제를 변경할 것을 제시하는 등, 의료 진단 분야에서의 AI가 머지않아 진단의를 대체할 날이 올지도 모른다는 가능성을 보여주기도 했다.
국내의 경우 2016년 가천대학교 길병원이 왓슨의 암 진단 소프트웨어인 왓슨 포 온콜로지(Watson for Oncology)를 도입했고, 2017년 부산대학교 병원이 암 환자의 종양세포 및 유전자 염기서열을 분석해 환자 개개인 맞춤형 치료법을 제시할 수 있는 왓슨 포 게노믹스(Watson for Genomics)를 도입했으며, 이후 대구 카톨릭 대학교 병원, 계명대학교 동산병원, 건양대병원, 조선대병원, 전남대병원, 그리고 중앙보훈병원 등이 도입했다.
하향식 AI의 단점 고스란히 드러나
인공지능의 개발에는 크게 두 가지의 접근 방식이 존재한다. 첫 번째 상향식(Bottom-Up Method)이라 불리는 방식의 경우 인간의 뇌의 신경망과 화학 작용을 분석해 뇌의 전자 모델을 개발할 수 있다면 인공지능을 탄생시킬 수 있다고 보는 개념이다. 현재로서는 상향식 인공지능이라고 하는 것은 단순한 개념에 그치며, 실제 사례는 존재하지 않는 공상과학의 영역에 불과하다.
두 번째는 하향식(Top-Down Method)이라 불리는 방식인데, 프로그램에 지식과 경험을 쌓게 해 반복적인 학습을 통해 최종적으로 지성에 도달한다는 개념을 의미한다. 왓슨이나 구글 딥러닝 등을 포함한, 대부분 우리가 아는 인공지능의 개발은 이 하향식을 택한다.
하향식의 장점은 충분한 자료와 데이터만 있으면 단기간 내에 어느 정도 역할을 수행하는 소프트웨어로 개발이 가능하다는 것. 그러나 동시에 학습하지 않았거나 처음부터 프로그래밍 된 기능을 벗어나는 것에는 적절한 반응 및 처리가 불가능하다는 단점이 존재한다. 즉 편의상 AI라고 부르기는 하지만 실제로는 ‘지능’이라고 부르기에는 상당한 어폐가 존재한다는 것이다.
전형적인 하향식 AI에 속하는 왓슨 또한 하향식 개발이 지닌 문제점을 고스란히 드러낸다. 2017년 12월 가천대학교 길병원이 왓슨의 도입 1주년을 기념하며 주최한 심포지엄에서 발표한 ‘의료진과 왓슨의 의견 일치율’은 56% 수준으로, 당초의 기대보다 훨씬 못 미치는 수준에 머무는 것으로 나타났다.
2015년에 왓슨 포 온콜로지를 도입한, 인도 최대 규모의 암센터를 보유한 마니팔 병원(Manipal Hospital) 또한 SABCS(San Antonio Breast Cancer Symposium) 2016 및 ESMO(European Society for Medical Oncology) 아시아 2016 콩그레스에서 1,000명의 암 환자들에 대한 ‘왓슨’의 진단 결과를 발표했다.
그런데 ‘직장암’과 ‘비전이성 유방암’에 대해서는 의사들의 소견에 상당히 근접하거나 일치하는 경향을 보인 반면 ‘전이성 유방암’은 46%, ‘HER2 음성 유방암’은 35%만 일치했고 ‘폐암’에 대해서는 17.8%에 그쳐 실망스러운 결과에 그쳤다. 의사들의 소견과 상당히 높은 일치율을 보여준 사례들조차 종양전문의에 의한 보정이 먼저 이루어진 후에 얻은 결과였다.
왓슨의 진단 능력이 당초 기대한 것과 달리 실망스럽다는 의견은 비단 MD 앤더슨이나 국내 도입 병원들의 사례만이 아니다. 지난 8월에 독일 언론지인 《슈피겔(Spiegel)》의 보도에 따르면 왓슨을 도입한 독일의 기센대학(Justus-Liebig-Universität Gießen)과 필립-마르부르크대학(Philipps-Universität Marburg) 부속병원 또한 왓슨의 성능이 기대에 못 미치는 정도가 아니라 신뢰할 수 없다는 성명을 발표했다고 한다.
필립-마르부르크대학 부속병원의 운영을 책임지는 뢴클리니쿰 AG(Rhön-Klinikum AG)의 최고경영자인 슈테판 홀칭거(Stephan Holzinger) 씨는 《슈피겔》과의 인터뷰에서 ‘왓슨은 전문적인 의학적 이해를 탑재하지 않은 듯하다’는 코멘트를 남기기도 했다. 결국 필립-마르부르크대학 부속병원 또한 MD 앤더슨의 사례와 마찬가지로 IBM과의 파트너 협업 관계를 청산했다. 그러나 IBM은 여전히 ‘다수의 대학병원들과 협업해본 결과 매우 만족스러운 결과를 얻었다’고 선전한다.
언어 인식 부분에서도 문제점 보여
필립-마르부르크대학병원의 경우 왓슨을 사용하는 동안 언어의 인식에도 문제점이 드러났다고 한다. 왓슨은 환자의 질병을 진단할 시 의사가 환자로부터 얻은 정보를 정리한 문서나 차트, 소견서, 혹은 검사 결과 등을 스캔해 질병의 원인으로 의심되는 정보를 얻는 방식을 취한다. 그런데 의사의 소견서에 적힌 개인적인 표현이나 혹은 요약된 정보를 이해하지 못했다고 한다.
가령 의사가 소견서에 ‘~일 가능성을 배제할 수 없다’라는 식의 표현을 넣으면 이를 인식하지 못하고 정확한 판단을 내리지 못한다는 이야기. 또한 임상에서 의사들은 환자의 상태에 대해 지극히 간략화한 진단 결과를 작성하는 경향이 강하다. ‘HR 75, SR, known BAV’라고 적으면 ‘평상시 이 환자의 심박 수는 75이며 이엽성 대동맥판막 있음’이라는 뜻이 되는데 왓슨의 경우 이런 약어를 소프트웨어 구성 단계에서 일일이 입력해놓지 않으면 의사의 진단 소견 자체를 인식하지 못한다는 것이다.
상기의 사례에서도 알 수 있지만 아직 AI 소프트웨어가 의료 진단 영역에서 의사를 대체하기에는 요원해 보인다. 특히 왓슨은 기본적으로 영미권, 특히 미국의 환자 데이터를 기반으로 한 시스템으로 구성이 되어 아시아권 국가들에 적용하기에는 아직 무리가 있다는 지적도 나온다.
유방암이나 위암 등의 경우 한국은 서구 국가들과는 다른 양상을 보이는 경우가 많다. 위암 환자의 경우 한국은 서구와 달리 발병율이 상당히 높고 수술 방법이나 치료 기법도 다른 편이다. 그런데 왓슨의 경우 기존의 프로그래밍 된 자료만으로 분석하는 경향이 높다는 것이다. 따라서 한국의 실정에 맞게 데이터를 재구축해 현지화가 이루어진 왓슨 온콜로지 포 코리아(Watson Oncology for Korea) 같은 형태로 발전하지 않는 이상, 아직 진단용 소프트웨어로 사용하기에는 무리가 있어 보인다.
원문: 김찬우의 페이스북