보이스 퍼스트 디바이스 시대의 사용자 경험

※본 글은 <보이스 챗봇시대의 사용자 경험> 강연의 일부를 발췌하여 정리한 것입니다.

보이스-퍼스트 디바이스 시대

“아리야”, “헤이 구글”, “알렉사”, “빅스비”, “시리” 등 인공지능 비서를 부르는 장면을 우리 주변에서 심심치 않게 볼 수 있게 되었다. 보이스-퍼스트디바이스의 대표 격인 아마존 에코(Amazon Echo)는 영미권에서만 1100만대 이상 판매되었으며, 삼성전자의 신규 플래그쉽 스마트폰에도 빅스비(Bixby)가 주요한 핵심 기능으로 소개되는 등 인공지능 비서 기술이 빠르게 대중화되고 있다.

초기 스마트폰 앱 생태계가 앱스토어를 통해 성장한 것처럼, 아마존에코의 애플리케이션 ‘스킬’도 개발자 생태계를 통해 1만여 개를 넘어서고 있다. 미래 기술예측 기관인 BI Intelligence 는 2020년까지 아마존 플랫폼을 이용한 수익이 약 12조 원에 이를 것으로 전망하고 있다.

보이스-퍼스트 디바이스의 현재

인공지능 스피커는 수요자와 공급자의 관점에서 모두 큰 매력을 가지고 있다. 해당 기술의 수요자인 일반인들의 경우, 스마트뮤직 플레이어라는 킬러 애플리케이션이 존재하고 있어 구매 요인이 비교적 친근하고, 하드웨어의 특성상 스마트폰처럼 고가 부품이 필요하지 않아 부담 없는 가격으로 구매할 수 있는 장점을 가진다.

공급자 관점에서는 사용자의 물리적 환경에 접근 가능한 서비스 플랫폼로써의 잠재적인 가치가 높다고 할 수 있다. 특히, 웨어러블, 스마트카, 가전 등 다양한 형태의 재화로 확장하여 사용자의 다양한 공간을 하나의 통합된 가상환경으로 구성할 수 있다는 점이 큰 매력이라 할 수 있다.

특히, 일반 사용자의 65%가 더 이상 스마트폰에 새로운 앱을 깔지 않고 있고, 모바일 앱의 CPI가 이미 $3.4를 훌쩍 넘어서고 있는 점을 고려한다면 인공지능 스피커 플랫폼은 새롭게 등장한 기회의 장이라 할 수 있다.

그렇다면 이러한 인공지능 스피커는 현재 어떻게 활용되고 있을까? Creative Strategies에서 최근 공개한 자료에 따르면 아마존 에코는 주방(Kitchen), 거실(Living room), 가족실(Family room), 그리고 침실(Bed room) 순으로 배치되어 사용되고 있다.

한 가지 흥미로운 것은, 아마존 에코가 스마트홈의 가장 대표적인 공용 공간인 거실보다 주방에서 더 많이 활용되고 있다는 점이다. 주방은 설거지와 요리 등 기본적으로 핸즈프리 (Hands-free) 인터랙션이 필요한 멀티태스킹 환경이기 때문에 보이스 디바이스의 장점이 극명하게 드러나는 공간이다.

반대로 거실 공간은 TV가 주요 미디어로써 활용이 되는 공간이기 때문에 추가 디바이스의 활용에 있어서 사용에 제약이 존재한다. 이러한 이유로 현재는 주방과 같은 멀티 테스킹(Multi-tasking) 환경에서 가장 활용도가 높은 기기라 할 수 있다.

현재 스마트 스피커의 사용 시나리오는 어떤 형태일까? 아마존에코의 사용 시나리오 (Statista, 2016) 통계에 따르면 사용자들은 뮤직 플레이, 스마트 조명 컨트롤, 시간 세팅 순으로 에코를 활용하고 있었다. 이러한 자료에서도 알 수 있듯이, 스피커 재화의 본질적 사용 시나리오인 뮤직 플레이(음악 듣기)는 일반인들의 구매유인을 촉진하는 핵심 기능이자 지속적으로 활용되는 현재의 킬러 애플리케이션이라고 할 수 있다.

하지만 다양성의 관점에서 에코의 활용도는 아직 일차원에 머무르고 있다고 할 수 있다. 스마트 스피커가 더욱 빠르게 대중화되기 위해서는 음악 듣기 기능뿐 아니라 사용자를 락인(lock-in) 시킬 수 있는 다양한 형태의 킬러 애플리케이션이 필요해 보인다.

보이스-퍼스트 디바이스의 사용자 경험

기본적으로 음성 채널은 시각, 촉각 채널과는 다른 강점을 가지고 있다.

첫째, 음성은 그 자체가 생체정보이므로 보이스 프린트(Voice print)를 함의하고 있다. 따라서 사용자 인식과 명령 수행을 동시에 할 수 있다는 장점이 있다.
둘째, 핸즈 및 아이 프리 인터렉션(Hands and eyes free)이 가능하다. 이러한 특성은 차량이나 부엌 등과 같은 멀티 태스킹을 요하는 환경에서 장점을 가질 수 있다.
셋째, 구두를 통한 정보 전달에는 사용자의 감정이 포함될 수 있다. 즉, 같은 명령이라 하더라도 감정에 따른 차등적 수행이 가능하다.

물론, 단점도 존재한다.

첫째, 음성은 기본적으로 공개된 채널(Public channel)이므로 정보가 모두 노출된다는 문제가 있다.
둘째, 사용자가 해당 음성 채널에 집중을 하는 경우에도 외부의 다른 음성 채널 (예를 들어 청각 노이즈)로 인해 정보를 전달받지 못할 수 있다.
셋째, 음성 채널은 일시적(Transient) 특성을 가지기 때문에 인식과 전달에 문제가 생긴 경우 계속 반복해서 전달해야 하는 단점이 있다.

이처럼 보이스-퍼스트 디바이스는 그 채널의 특성상 기존 디바이스의 상호작용 문법(Interaction Vacabulary)과는 다르게 구성되어야 한다.

과거 디바이스와 보이스-퍼스트 디바이스의 인터렉션 문법(Vocabulary)

과거 데스크탑 GUI 환경에서 가장 대중적으로 사용된 마우스 인터페이스(Thanks, Douglas!)는 클릭(Click), 무브(Move), 그리고 스크롤(Scroll)과 같은 요소로 문법이 구성되어 있다. 현재 가장 대중적으로 사용되는 터치스크린은 터치(Touch)와 릴리즈(Release)의 요소를 기초로 문법이 구성하고 있다. 한편, 보이스 퍼스트 디바이스는 기본적으로 음성을 이용한 깨우기(Initiate), 대화(communicate), 그리고 종료(terminate)의 3가지 문법을 기본으로 하고 있다.

중요한 것은, 과거 환경에서 통용된 입출력 문법과 인터렉션이 인공지능 스피커 환경에서는 아직 명확하게 정립되지 않았다는 것이다. 예를 들어, 터치스크린에서는 리스트 정보의 끝에 다다른 경우 (e.g., 전화번호부의 마지막에 다다른 경우) 사용자 플리킹이 제대로 인식되지 않아서 움직이지 않는 것인지, 더 이상 추가 정보가 없어서 움직이지 않는 것인지를 실세계의 물리적 운동을 통해 자연스럽게 표현한다. (아이폰의 바운스백 또는 안드로이드의 번짐효과). 하지만 인공지능 스피커 환경에서는 이러한 인터렉션이 아직 정립되어 있지 않다.

예컨데, 내가 질문을 한 경우에 질문이 전달되지 않아 답을 못하는 것인지, 정보가 충분치 않은 것인지, 권한이 없는 것인지를 표현할 수 있는 자연스럽고 통상적인 방법이 아직 정립되지 않았다.

예를 들어, 초기 버전의 구글 홈의 경우 대화 인식이 제대로 되지 않았을 때 아무런 피드백을 주지 않게 디자인 되었는데, 당시 많은 사용자들이 가끔 가상의 대화 상대에게 무시를 당한 것 같다고 후기를 남겼다. (다행이 구글 홈은 업데이트 되면서 좀 더 친절해졌고, 이제는 이런 행동을 하지 않는다) 이처럼, 보이스-퍼스트 디바이스는 그 환경적 특성을 고려하여 사용자 경험이 디자인 되어야 한다. 이러한 배경에서 몇 가지 중요한 피드백 요소만을 정리하면 아래와 같다.

음성을 통한 피드백

인공지능 스피커의 기본 채널은 음성이고, 구두 대화를 기본으로 하기 때문에 가상비서가 만들어내는 음성의 나이, 성별, 성격 등이 사용자 경험에 중요한 역할을 한다. 대부분의 가상 비서가 여성 목소리로 이루어진 것을 두고 많은 논란이 만들어 지기도 한 것처럼, 비서의 기본 음성을 어떻게 디자인할 것인지에 대한 고민이 필요하다.

이것은 마치 GUI 환경에서의 룩앤필(look and feel)을 어떻게 디자인하는 것과 비슷한 것이라 할 수 있다. 추가적으로, 청각 채널을 통한 피드백은 반드시 언어를 통한 형태가 아닐 수 있다. 예를 들어, 함축된 청각 정보(cue) 인 이어콘(earcon) 등을 활용할 수 있다. (딩동댕 또는 띵 하는 소리).

시각적 피드백

인공지능 스피커는 기본적으로 음성채널을 이용하여 상호작용을 하지만 시각 채널을 통해 좀더 풍부한 상호작용을 도모할수 있다.

실제 아마존 에코는 12개의 LED로 이루어진 링의 색과 움직임 변화를 통해 다양한 비주얼 피드백을 만들어 낸다. 예를 들어, 사용자가 음성으로 대화를 시도할 때에는 사용자를 향해 푸른색 LED를 비추어 음성을 듣고 있다는 시각적 피드백을 전달하고, 주어진 명령을 인식하기 위한 프로세싱 단계에서는푸른색 띠를 회전시키는 시각적 피드백을 디스플레이 한다.

참고로, 이러한 회전 운동은GUI 환경에서 흔히 쓰인 원형 프로그레스 바(Progressbar) 의 형태를 따르고 있다고 할 수 있다. 이러한 시각 피드백은 비록 낮은 해상도로 표현 되지만, 사용자에게는 높은 경험적 만족감을 전달 할 수 있다.

물리적 움직임을 통한 피드백

보이스-퍼스트 디바이스 중에서는 물리적 움직임속성을 가진 디바이스도 존재한다.

예를 들어, 지보(Jibo)의 경우 고정된 위치에서 음성 정보와 더불어 물리적 움직임 속성을 통해 감정을 전달한다. 움직임 속성도 보이스-퍼스트 디바이스의 중요한 디스플레이로 활용할 수 있다. 물리적 움직임을 통한 인터렉션은 HRI(Human Robot Interaction) 분야에서 오래도록 연구되고 있는 분야이기도 하다.

인공지능 스피커의 한계

인공지능 스피커가 대중화 되어 우리 삶에 중요한 역할로 자리잡기 위해서는 다양한 문제점이 개선, 보완되어야 한다. 현 시점에서 인공지능 스피커가 가진 한계점은 어떤 것들이 있을까? 이를 간단하게 정리해보면 아래와 같다.

킬러 애플리케이션(killer application)

앞서 언급한 것처럼, 현재는 음악듣기 외에 사용자가 지속적으로 사용할 만한 킬러 애플리케이션이 부족한 실정이다. 요리 레시피 공유, 유아도서 읽어주기, 언어 학습, 음성형 게임 콘텐츠 등 풍부한 애플리케이션과 사용 시나리오가 만들어 져야 한다.

성능(Performance)

최근 구글 I/O의 발표자료에 따르면 음성 인식(Speech Recognition)의 단어 에러률은 약 4.9%로, 놀라운 수준이라 할 수 있다. 자연어 처리/이해(NLP/NLU) 기술도 오랜 연구를 통해 다양한 방법론이 개발되어 활용되고 있다. 하지만 이러한 기술에 있어서 한계가 존재하는 것은 분명하다.

특히, 보이스형 챗봇은 음성이 기본 상호작용 채널이기 때문에 음성 이해의 정확도가 사용자 입장에서 불편함이 없는 수준이 되어야 한다. 아마존 에코의 경우 TV 앵커의 음성을 주인의 명령으로 잘못 인식하여 특정 제품을 주문해서 많은 논란이 만들어지기도 했는데, 이러한 문제가 발생하지 않도록 사용자의 음성을 구별하여 인식하는 기술도 필요하다고 할 수 있다.

가격(Price)

인공지능 스피커의 대중화를 위해서는 가격을 좀더 낮출 필요가 있다. 현재의 가격장벽이 크게 높은 것은 아니지만, 좀더 빠른 대중화를 위해서는 통신사와의 협업을 통해 가격을 낮추거나 무료로 공급할 수 있어야 한다.

프라이버시(Privacy)

인공지능 스피커의 시장 안착을 위해서는 계속적으로 논란이 되고 있는 프라이버시 이슈를 해결해야 한다. 보이스-퍼스트 디바이스의 경우 초기화 명령을 인식하기 위해 항상 주변의 음성정보를 취득하여야 하는데, 이러한 이유에서 충분히 사회적 거부감이 생길 수가 있다. 또한 해킹 등에도 완벽하게 안전할 수가 없다. 따라서 이러한 프라이버시 이슈를 최소화 하기 위한 방법과 사회적 논의가 필요하다.

환경 특이점(Environmental Singularity)

실제 스마트 스피커의 사용 시나리오에서 두번째 빈도를 차지하는 것이 스마트 전구와 같은 사물인터넷 디바이스를 컨트롤 하는 신(Scene)이다. 하지만, 아직 대중적으로 사물인터넷 환경이 충분히 갖춰지지 않았다. 따라서 인공지능 스피커를 구입하더라도 현재는 반쪽의 기능만 활용할 수 밖에 없는 실정이다.

인공지능 스피커는 기본적으로 수많은 사물인터넷기기들과 연결되어 이들을 통합하는 메타 인터페이스(Meta interface)로써의 역할을 하게 될 확률이 높다. 누적된 음성 상호작용데이터를 기반으로 다른 기기보다 성능적 우월함을 가질 수 있고, 이 상황에서 공개된 규약에 따라 다른기기로 명령을 전달하는 권력형 허브로써의 역할을 기대할 수 있다. 따라서 실제 사물인터넷 환경이 충분히 구축 되고 보편화 되었을 때 스마트 스피커 본연의 가치도 함께 높아질 것이라 할 수 있다.

인공지능 스피커의 미래

그렇다면 인공지능 스피커는 앞으로 어떤 방향으로 진화할까? 스마트폰처럼 반드시 필요한 디바이스가 될까? 아니면 단순히 보조적인 디바이스로 역할을 하게 될 것인가? 시간이 지나도 현재와 같은 스피커의 형태일까? 아니면 새로운 형태의 디바이스가 될 것인가? 인공지능 비서의 발전 방향을 다양한 관점에서 지극히 주관적으로 나열 해보면 다음과 같다.

주변 공간으로 증강된 음성비서 – 언제 어디서나

올해 CES에서 언급된 “알렉사는 어디에나존재한다 (Alexa is Anywhere)” 는 개념처럼, 음성비서는 스피커 형태의 기기뿐만 아니라 우리 주변의 다양한 환경에 증강될 확률이 높다. 냉장고, 세탁기, 청소기와 같은 가전부터, 목걸이, 이어폰, 안경과 같은 웨어러블 디바이스, 빠르게 변화하고 있는 스마트카 등 다양한 환경에서 활용될 것으로 예상된다.

알렉사의 경우 이러한 비전을 SDK를 통해 추구하고 있지만, 궁극적으로 인공지능 비서가 운영체제(Operating system)화 될 가능성도 있다. 심금을 울렸던 영화, 허(Her)의 경우에도 인공지능 비서가 일종의 운영체제 형태로 언급이 되었는데, 음성 커뮤니케이션이 대중화 됨에 따라 음성비서가 운영체제로써의 역할로 확장될 수 있음을 시사한다고 할 수 있다.

에이전트의 에이전트 – 인공 집단지성의 탄생

인공지능 비서는 특정 공간에서 하나로만 구성되는것이 아니라 복수로 존재하게 될 확률이 높으므로, 에이전트들의 협업 체계가 중요한 요소가 될 수 있다. 예를 들어, 특정 음식 주문을 위해서 휴대폰의 빅스비와 냉장고의알렉사가 협업하여 업무를 수행할 수 있게 되는 것이다.

이러한 환경에서는 에이전트의 우선순위, 권한, 사용에 따른 비용 체계 등이 구성될 필요가 있다. 일종의 인공지능의 집단지성 체계를 통해 사용자는 언제 어디서나 원하는 정보와 명령을 통합된 서비스를 통해 수행할수 있게 되는 것이다. 실제 다양한 형태로 파편화 되어 있는 챗봇을 관리하고 연결하는 메타봇의 필요성이 최근 실무에서 논의되고 있다.

사용자 문맥(User context) 기반 – 적극성을 띄는 인공지능의 등장

현재의 인공지능 스피커는 사용자의 문맥(Context) 정보를 서비스에 활용하고 있지 못한 상황이지만, 궁극적으로는 사용자의 문맥을 입체적으로 이해하고 그에 따라 해당 상황에 적절한 서비스를 제공해야 한다.

실제, 음성 채널의 정보 대역폭(Bandwidth)이 시각 채널의 그것에 비해 부족하고 발성을 통해 야기되는 사용자 피로도(Fatigue)가 결코 낮은 수준이 아니기 때문에 사용자가 수동적으로 모든 정보를 입력하는 형태는 바람직하지 않다.

따라서, 인공지능 비서가 사용자 문맥을 기반으로 합리적인 선택지를 제안하거나 결과에 대한 승인만을 요청하는 형태가 바람직하다고 할 수 있다. 예를 들어, 사용자가 음성명령을 통해 피자를 주문하는 경우, 피자의 종류, 음료의 종류, 수량, 목적지 주소, 결제정보 등의 세세한 정보가 필요한데, 이러한 것을 매번 음성으로 전달하는 것은 바람직하지 않다.

따라서 인공지능 비서가 사용자의 광범위한 상황정보 (과거의 음식 주문정보, 주문당일 점심식사 여부, 다이어트 여부, 일주일 간의 몸무게변화 추이, 개인 계좌 잔액 상태, 어젯밤 수면의 질) 의 다차원적 해석을 통해 적절한 음식을 추천하는 것이 보이스-퍼스트디바이스의 바람직한 사용 시나리오라 할 수 있다.

이러한 배경에서, 사용자의 상황을 인지하기 위해 활용할 수 있는 빅데이터는 큰 의미를 가진다고 할 수 있다. 예를 들어, 웨어러블(wearable)의 센서 기술이 고도화 되고 대중화 되면서 생체정보 (맥박, 혈압, 혈당, 등) 를 활용할 수 있게 될 것이고, 이를 통해 한층 더 고차원적인 서비스를 설계할 수 있게 되는 것이다.

음식 주문서비스를 예로 들어보자. 과거에는 사용자가 음식점에 직접 전화를 해서 음식을 주문 했다면, 스마트폰의 발명 이후에는 내 주변 맛집과 평가정보를 기반으로 메뉴를 추천 받고 손가락을 통해 음식을 주문할수 있게 되었다.

그리고 다가올 시대에는, 인공지능 비서가사용자의 컨텍스트를 기반으로 적절한 타이밍에 적절한 메뉴를 선도적으로 추천할 수 있게 되는 것이다. 예를 들어, 토요일 오전에 영화를 보면서 피자를 시켜먹는 유저가 있다면, 토요일오전 영화를 킬 때 피자주문을 요청 받을 수 있는 것이다.

이처럼, 웨어러블과 사물인터넷 기술을 통해 축적된 높은 해상도의 사용자 상황(context) 정보들을 인공지능 기술을 이용하여 다차원적으로 해석하고, 이를 통해 개입(intervene)과 실행(execution)에 가까운 적극성을 확보할 수 있는 서비스를 메타 서비스(meta service)라 한다.

즉, 메타 서비스는 다양한 물리적, 비물리적 환경에서 얻어낸 사용자의입체적인 데이터와 신뢰도 있는 인공지능 기술을 통해 단순 추천(recommendation)을 넘어서는 적극적인 서비스를 의미한다.

메타 서비스와 관련하여 흥미로운 특허를 하나 살펴보자. 아마존의 예측 배송 (US8,615,473) 특허를 참조하면, 아마존 서버는 사용자의 마우스 움직임, 특정 페이지에 머무른 시간, 과거 주문 정보 등을 조합하여 특정도서가 출판 되었을 때 특정 사용자가 구매할 확률을 계산할 수 있고, 이러한 구매 확률에 기반하여 사용자가 물건을 구매하기 이전에 우선적으로 해당 사용자와 가장 가까운 물류센터로 배송하는 것을 주요 골자로 하고 있다.

즉, 이러한 적극성을 가진 메타서비스를 통해 사용자는 원하는 물건을 단 몇 분만에 배송 받을 수 있게 되는 것이다. 흥미롭지 않은가? 이러한 메타 서비스 환경에서는 사용자가 얻게되는 가치가 개인정보를 공유함으로써 잃게되는 손실의 절대값보다 더 높을 수 있기 때문에 (혹은 그렇게 생각하게 될지도 모르기 때문에) 자발적 개인정보 공유가 당연시 될지도 모르는 일이다.

물리화된 비트 – 로봇으로의 진화

인공지능 스피커는 로봇으로 진화하는 디바이스의 첫 번째 형태라고 생각한다. 사실, 현재 시장에 출시된 인공지능 스피커의 형태에서 물리적 움직임 속성만 부여되면 로봇이라 할 수 있고, 지보(Jibo)나 메이필드(Mayfield) 등은 이미 로봇의 형태를 가지고 있다.

얼마전 출시된 아마존 룩(Amazon Look)과 에코쇼(Echo show) 의 경우처럼, 인공지능 비서는 다양한 형태의 물리적 인터페이스로 확장되고, 그 마지막은 (그리고 그 다음의 무엇을 위한 중간 과정은) 우리가 흔히 생각하는 로봇의 형태가 되지 않을까 한다.

원문: 황성재 PhD의 브런치

보이스 퍼스트 디바이스 시대의 사용자 경험