MWC 행사 덕택에 짧게라도 생각을 정리할만한 글꺼리가 자꾸 생긴다. 긴 글 때문에 복잡해진 머리를 식힐 겸 또 정리해 보자.


Voice UI 디자인에 대해서 고민하면서, 내 멋대로 다음과 같은 표를 그려본 적이 있다. (이게 정확히 맞는지 모르겠지만, 뭐 기억하기엔 이렇다.) 지금도 크게 다르지 않지만, Voice UI와 관련된 다른 비슷한 개념들 간에 영역을 좀 정해보자는 의도였다.

Scope
Auditory UI



Speech UI
Sound UI



Voice UI




Target
Language Paralanguage Audio
Verbal Non-verbal
(아놔. 오랫동안 HTML에서 손을 뗐더니 표 하나 그리는데 이게 왠 뻘짓이냐. ㄷㄷ)

위 표를 들고 다니면서 자주 언급했던 부분은 '언어 language'만을 대상으로 하는 Speech UI와 '준언어 paralanguage'까지도 대상으로 하는 Voice UI를 구분함으로써 VUI에서 고려해 할 점은 이런저런 것까지를 포함한다... 뭐 그런 거 였다. 물론 준언어에 몸짓이 포함되고, Non-Verbal Audio(NVA)도 물론 대상으로 들어가고 어쩌고 하는 문제가 많은 영역구분이지만, 그래도 '왜 내가 이걸 다른 용어가 아닌 VUI라고 부르나'를 설명하는 데에는 나름 유용했다.

이 구분을 만들고 나면 자연스럽게 음성인식(voice recog.)과 발화인식(speech recog.) 사이에도 구분이 들어가게 되는데, 거기서 거기처럼 보이는 이 둘 사이의 차이점을 안다는 것은 더 많은 범위의 음성 입출력을 고려할 수 있게 해준다.


Microsoft Recite - Instruction

이번에 MWC에 나온 Microsoft Recite도 그런 사례로 삼게 되지 않을까 싶다. 우선 데모 동영상을 보면 (앞의 것이 설명은 잘 되어 있고, 실제 상황은 뒤의 동영상이다.) 다음과 같은데, 간단히 설명하자면 왼쪽 버튼을 눌러서 음성메모를 녹음하고, 오른쪽 버튼을 눌러서 그 메모를 음성으로 검색하는 것이다.





공식 웹사이트를 가보면 어느 정도 설명이 있지만, 결국 이건 일반적으로 말하는 음성인식(음성에서 특징점을 찾아서, 인식대상 문자열을 발화할 때의 일반적인 특징점과 비교함으로써, 가장 잘 맞는 문자열을 찾아내는 것)에서 '문자'에 대한 부분을 들어낸 기능이다. 결국 녹음된 음성의 특징점과 입력된 음성의 특징점만을 비교해서, 그 음성이 무슨 내용(문자열)인지와 상관없이 그냥 잘 맞는 내용을 제시하는 거랄까.

이런 방식은 이미 대량의 음성정보(라디오 뉴스 등)의 archive에서 특정 내용을 검색해 내려는 프로젝트에서도 사용되기도 했었으니(미국 워싱톤 근처 어디랑 관련이 있었는데 검색어가 떠오르질 않는다 -_ㅜ 그냥 치매일 뿐) 완전히 새로운 개념은 아니다. 문자열에 따른 특징점을 일반화/DB화 과정이 없으니 같은 사람이 같은 어조로 같은 단어를 말했을 경우에는 적확률이 꽤 높다는 장점이나, 같은 단어라고 해도 다른 사람이 말한 내용은 검색이 잘 안 된다는 단점은 이미 잘 알려져 있기도 하다.

그런데 위 동영상을 보면, 음성과 음성의 특장점을 그냥 일대일로 맞춘 것이 아니라, 검색 음성명령의 특정한 부분 - "What is...?" 라든가 - 은 잘라내고 나머지 부분만으로 matching을 수행하고 있는 걸 볼 수 있다. 이전까지의 voice matching/search가 단순히 특징점 비교였고, 구글의 음성검색이 음성을 문자로 바꿔서 검색하는 거 였다면, 이건 그 중간쯤의 안전한 지역을 선택했다고나 할까. 검색어를 골라내는 것은 음성인식(Speech-to-Text)의 기술을 이용하고, 정작 검색은 적확률이 높은 voice matching을 사용하고 있다.

이 Microsoft Recite는 Voice UI를 디자인할 때 무엇을 고민해야 하고, 어떻게 해결해야 하는지를 보여준 또 하나의 사례라고 생각한다. 비록 휴대기기 안에서만 사용할 수 있다거나 음성메모의 활용성이라든가 하는 단기적인 취약점이 보이긴 하지만, 상정한 범위 안에서 강력한 힘을 발휘하는 게 오히려 HTI의 나아갈 길이라는 점에서는 꽤 의미가 있어 보인다.
신고
Posted by Stan1ey

Car that Sees.

2009.01.13 09:53

이 블로그에서 (아마도) 다루고 있는 이런저런 기술들을 도입하는 첫번째 플랫폼으로, 배터리 걱정도 기구부 걱정도 적으면서도 여전히 개인 최적화가 가능한 자동차가 적합하리라는 얘기를 한 적이 있다. 그런 사례가 하나 더 생긴 듯 해서 그냥 간단히 적어보려고 한다. 요새 글이 너무 적기도 하고.

Vauxhall (Opel) Insignia

위 사진은 최근 열심히 광고하고 있는 Vauxhall (유럽 다른 국가에서는 Opel 브랜드)의 Insignia라는 자동차의 새로운 모델이다.



TV 광고에 영상인식을 통한 표지판 읽기(사실은 아주 규격화된 속도제한 표시를 중심으로 읽는 것 같으니, 방향표시 같은 건 못 읽을 듯)를 보여주길래, embedded computer가 많이 빨라졌나보네... 하면서 웹사이트에 들어가봤다.


우선은, 광고에 실린 '표지판 읽기' 기능.
Vision Recognition on Insignia
영상인식 기능은 룸미러 뒤에 있는 카메라를 통해서 진행되는데, 밤낮으로 된다고 하는 건 좀 신기하다. 밤에 적외선 영상을 쓸만한 조건은 안 되어 보이는데, 그냥 저런 표시판은 보통 난반사 재질에 그려져 있고 밤에는 전조등을 켜고 다닐테니 어쨋든 보일꺼라는 배짱일까? -_-a;; 게다가 이 모델의 웹사이트를 가보면 전조등이 유달리 좌우로 퍼져있는 모습으로 다시 디자인되어 있기도 하다. -_-+a;;;;;

어쨋든 이 표지판 읽기는 읽어진 표지판을 기억하는 기능을 포함하고 있기 때문에 (그냥 표지판이 지나간 후에도 표시를 지우지 않는 것 뿐이지만;;;) "지금 달리고 있는 도로가 제한속도가 몇이었지?"라는 생각이 들 때 표지판이 나오지 않아도 계기판에 가장 최근에 지나친 속도표지판이 떠 있으므로 편리하다고 하고 있다.


그런데, 그 외에도 '차선 읽기' 기능이 역시 영상인식을 통해 포함되어 있다.
Vision Recognition on Insignia
같은 카메라를 통해서 구현된 이 기능은 자동차의 속도가 40mph (대략 64km/h) 에 다다르면 동작하는데, 차선을 제대로 따라가고 있으면 녹색 등이, 차선을 벗어나고 있으면 붉은 등이 켜진다. 저 분명히 차선을 벗어나고 있는 모양의 아이콘에 녹색이라고 해도 일단 불이 켜지면 사용자는 차선을 벗어나고 있다고 느낄 것 같기는 하지만, 뭐 좋은 UI 기술에 항상 좋은 UI가 따라붙는 건 아니니 아쉽지만 어쩔 수 없겠다.
땅덩어리 넓어 오랜시간 뻥 뚫린 길을 운전해야 하는 나라에서는 비싼 차부터 차선을 따라서 자동으로 핸들을 움직여 주고 앞차와의 거리에 따라 속도를 조절해주는 크루즈 컨트롤 cruise control 기능이 붙은지 오래지만, 아마 이 모델에 포함된 '차선 벗어나면 경고' 기능은 그런 고급 기능이 가지고 있는 책임소재 문제 등을 고려한 적용으로 보인다. 일종의 scalable AI라고 생각되는 건 뭐 눈에 뭐만 보이는 격일까.



어쨋든, 마빡에 카메라 붙이고 (오오... 전두엽으로 퇴화되었다는 제3의 눈인 거냐!!!) 앞길을 보는 자동차가 나왔다.

얼마나 오래전에 나왔는지는 잘 모르겠으나 일단 지금 눈에 띄었으니 스크랩.

신고
Posted by Stan1ey

Conversation Works.

2008.07.17 05:52

Conversation Works. 이건 지금은 인터넷 한 구석에 숨어있는, 내가 1999년 말 혹은 2000년 초에 만들었던 홈페이지의 제목이다. 대화형 에이전트 conversational agent 와 대화 모델링 dialogue modeling 이라는 것을 어깨 너머로나마 접하고나서, 그리고 한창 음성인식/음성합성과 Microsoft Agent 를 이용한 대화형 사용자 인터페이스 작업을 하고 있던 참이라, 요거 참 새롭다 싶어서 당시 빠져있던 JavaScript로 구현해 본 거였다. ^^*

Conversation Works Homepage

[○] 엽기적인 광경을 좋아한다면...





이 홈페이지를 만들 때에도 물론 그랬고, 지금까지도 '인간의 대화'라는 것은 내가 끼고 사는 가장 큰 화두 중의 하나다.

태초(?)에 GUI가 있었을 때에는 "대화창 dialog pop-up"이 나와 과연 삭제를 할 것인가 말 것인가 하는 철학적인 질문에 대해 아주 단편적인 - Yes or No - 답변을 강요하던 시절도 있었지만, 이제는 음성인식이나 합성 기술의 발달로 인해 인간의 말을 문자로 바꾸고 문자를 말로 바꿀 수 있게 됐고, 자연어 처리 기술(NLP; natual language processing)이 발달함에 따라 문자로 입력된 말(단어, 문장, 문단, ...)의 구조와 약간의 의미를 알 수 있게 되었다. 즉 기계와 음성으로 대화를 한다는 것이 아주 불가능하지는 않게 된 거다.

하지만 그건 사실 위 홈페이지를 만들었던 1999년에도 10년째 가능했던 기술이고, 그 기술적 수준이 또다시 10년간 많이 발전했음에도 불구하고 상용화를 목표로 한다면 아직 멀고도 먼 갈 길이 남아있는 기술이다. (이 말은 1~2년 내로 '비겁한 변명'이 될 소지가 크다 ;ㅁ; )
HAL from <2001: A Space Odyssey>
1968년 영화 <2001: A Space Odyssey>에서 시작된, 인간과 기계가 방대한 상식과 주제를 가지고 자유로운 음성대화를 한다는 것은 40년이 지난 지금도 연구실에서 제한된 목적과 방법으로 이루어지는 데모의 수준에 그치고 있다. 물론 몇가지 음성대화형 시스템이 상용화되고 있기는 하지만, 이것들은 대체로 태초의 dialog box 에서 보여준 UI와 크게 다르지 않게 느껴질 정도로 단순하고 제한된 (음성) 입출력만을 가능케 하고 있다. 현재로선 기술의 발전이 더디거나 한 것이 아니라, 그야말로 방대하고 변화무쌍한 다양성을 갖는 인간의 음성과 언어를 처리하기 위한 높은 사양의 컴퓨팅 환경이 나타나기를 기다리고 있는 것에 가깝다고 한다. 어쩌면 앞서 말한 음성대화형 시스템들이 제한한 범위 하에서라도 등장하기 시작한다는 것이 그 희망적인 전조일지도 모르겠다.


그런데, 사실 인간과 시스템이 의사소통하는 방법에는 버튼을 클릭하는 것과 음성으로 대화하는 것 사이에도 수많은 대안들이 있다. 이를테면 음성이 아닌 '문자'로 대화하는 방법이 있을 수 있으며, 시스템은 꼭 엄청나게 똑똑할 필요 없이 '사람들'이 그 역할의 일부를 대신해도 된다. 최근에, 그런 사례가 몇가지 보여서 모아봤다. 미국의 사례는 David Pogue의 최근 NY Times 컬럼과 블로그(6월 5일자 및 7월 10일자)에서 얻은 정보를 추가했다.


(1) Google Voice Search (GOOG-411)
GOOG-411, Google's Voice (Phone Book) Search

구글 정도의 검색능력을 갖춘 곳에서 음성검색을 한다면, 우선은 등골이 서늘한 느낌이 든다. "이거 이럼 더 할 일이 없는 거 아닌가..."하고 말이다. 하지만 다행히도(?), 구글의 음성검색은 411 서비스, 즉 전화번호부 검색 서비스와 약간의 부가 서비스에 그치고 있다. 위의 웹페이지 이미지에 설명되어 있듯이, 이 서비스의 사용 시나리오는 다음 대화(Pogue 컬럼에서 인용)에 잘 나와있다.

Google: “GOOG411. What city and state?”
Caller: “New York, New York.”
Google: “New York, New York. What business name or category?”
Caller: “Empire State Building.”
Google: “Empire State Building! Searching. Top listing: Empire State Building on Fifth Avenue. I’ll connect you.”

즉, 지역 이름과 직종 분류를 거친 후에 나오는 결과 중에서 첫번째 아이템을 설명해주는 듯 하며, 결과가 여러 항목이 있을 경우라든가("다음, 다음, ..."), 음성인식 오류가 발생하는 경우에 대해서는 전혀 언급이 없다. 그래도 전화 연결 전에 "Details" 라고 명령해서 검색된 항목에 대한 자세한 정보 - 주소와 전화번호 - 를 확인할 수 있도록 한다던가, "Text message"라고 말해서 그 정보를 내 휴대폰에 SMS로 보낼 수 있는 기능이 있다던가 하는 것은 음성검색의 불안함 -_-;; 을 보완하는 훌륭한 부가 서비스라고 생각한다.

(사실 이 서비스에 대해서 가장 부러운 것은, Google에 voice researcher라는 사람이 일하고 있다는 거다. 물론 이 서비스 발표 후에 아무 업데이트가 없는 걸 보면 초큼 걱정도 되고 불안하기도 하고 그렇지만. ㅎㅎ )



(2) Yahoo oneSearch with Voice
Yahoo! oneSearch with Voice

Yahoo oneSearch Screen shot
모바일 기기에서 사용할 수 있도록 만들어진 Yahoo oneSearch는 인터넷에 접속된 휴대폰이나 PDA에서 검색어를 입력하면 작은 화면에서도 검색결과를 간편하게 확인할 수 있도록 설계된 서비스이다. (사실 2000년쯤에 이런 서비스의 구조와 운영에 대한 BM 특허를 준비한 적이 있었는데, 제대로 된 첨단기술이 들어가지 않는다는 이유로 ;ㅁ; 기각된 적이 있었다. 쩝... 이제 와서 보면 좀 아쉽게 됐다. ㅎ )

Yahoo! oneSearch with Voice - Task Flow
(그러고보니 인식을 시작하는 방식도 내 VUI 특허 중 하나와 동일하다 -_- )

이러한 oneSearch의 앞단에 서버 기반 음성인식기를 넣은 것이 "oneSearch with Voice"라는 서비스다. 서버 기반 음성인식이므로 네트워크 비용이나 컴퓨팅 노력은 많이 들지만, 휴대기기에 embed 되어 있는 버전보다 그만큼 월등한 인식범위와 성능을 가질 수 있다. David Pogue의 경험을 그대로 인용하자면 (난 이 사람의 사업적 중립성에 대해서는 안 믿기 때문에 -_- ), 음성인식이라는 기술이 태생적으로 절대 인식할 수 없는 경우, 즉 고유명사를 제외하고는 대부분 올바르게 음성 검색어를 인식하고 검색결과를 제시했다고 한다.

사실 이 경우는 대화라고 하기가 좀 그렇다. 사용자가 말하는 것은 딱이 사람에게 하듯이 제시하는 문장이 아니라 검색어 조합에 가깝고, 그에 대한 '응답'도 대화체가 아닌 검색결과를 나열화면이다. 하지만 사용자가 뭔가를 음성으로 요청할 수 있다는 것은, 여전히 이 시스템이 단순한 정보입출력 이상의 인터랙션을 취하고 있다고 생각하게 만든다.


(3) 심심이
Simsimi, dialogue learning 2.0

앞서서 간단하게 언급했던 대화 모델링의 기본은, 입력된 사용자의 대사에 적합한 응답을 시스템이 얼마나 잘 도출해 내느냐에 달려있다. 원칙적으로 하자면 상대방이 말한 말을 구문적으로는 물론 그 의미와 대화 맥락 상의 의도까지 이해한 후에, 일반적인 인간이 가지고 있는 방대한 사회적/자연과학적 상식과 해당 대화 주제에 대한 어느 정도의 지식을 바탕으로 응답을 도출하여 이를 올바른 문법적인 구조를 가진 문장으로 생성해내야 한다. ... 하지만 이건 이 길다란 문장 만큼이나 어려운 일이고, 실제로 최초의 성공적인 대화 시스템으로 꼽히는 MIT의 ELIZA는 물론 오늘날 매년 Turing Test에 도전하고 있는 대화 시스템들도, 그 주된 접근은 "상대방 대사의 대략의 구조에 대해서 미리 학습된 응답을 하는" 방식을 되도록 많이 모아서 사용하는 방식을 취한다. (인간은 그렇게 많은 대화경험을 언어적 구조를 파악함으로써 축약활용하지만, 컴퓨터는 그냥 엄청 방대한 DB를 운영함으로써 대신한다고 이해할 수 있겠다... 인간의 언어학습에 대한 이야기는 그냥 대충 넘어가기로 하고... ㅡ_ㅡ;; )

Teaching dialogue pairs to Simsimi
말이 다른 쪽으로 엄청 길어졌지만, (인터넷을 검색해보니) 2003년부터 그 흔적을 찾아볼 수 있는 "심심이"는 바로 이런 대사-응답 쌍의 학습을 인터넷을 통해서 공개적으로 수행하는 방식으로 많은 관심을 끌었다. 처음에는 MSN 메신저의 자동대화 시스템이었다가, 2006년 후부터는 휴대폰 문자메시지 SMS를 통한 사업모델을 찾아서 오늘날까지 이어오고 있다. 특히 "이모/삼촌들이 심심이에게 말을 가르쳐주세요"라는 컨셉은 참 서비스의 본질을 적절하게 녹인 마케팅 방법이었다고 생각한다.

당연히 서비스가 오픈되지마자 불거진 사용자들의 오용 - 음담패설이나 욕설을 심심이에게 "가르치거나" 하는 - 을 막기 위해서, 현재의 심심이 사이트는 잘못된 대사-응답 쌍을 판단하게 하는 "재판소" 시스템을 만들어, 대화 학습은 물론 그 moderation까지도 네티즌에 의해 이루어지도록 하고 있다. 게다가 최근 시작한 듯한 "대화하기 2-1" 이라는 게임스러운 서비스는 아무래도 ESP Game의 아이디어를 따온 듯 한데, 아무래도 회원가입이 안 되니 확인할 길이 없다. ^^;;

Dialogue Training Game for Simsimi
Image Tagging Game (ESP Game)


심심이는 작게 시작해서 참 끈질기게도 (ㅈㅅ) 명맥을 유지하고 있는 서비스인 동시에, 개인적으로는 매우 훌륭한 '공개적 대화시스템 구축 사례'라고 생각한다.


(4) ChaCha
ChaCha, Human-powered Search Engine
ChaCha at its BETA
원래 "human-powered search engine" 이라는 이름으로 베타서비스를 시작했던 "차차"라는 서비스는, 이제 모바일 서비스 중심으로 방향을 바꾼 것 같다. 검색을 전문으로 하는 많은 사람들을 연결해서 사용자가 원하는 답을 준다는 점은 처음의 취지와 같지만, 초창기 채팅을 통해서 원하는 검색 내용을 확인한 후 정확한 검색 결과 하나를 제시하겠다는 것과 달리 SMS 문자메시지로 받은 질문에 대한 검색결과를 SMS로 답해주는 방식으로 모바일 시장을 겨냥하고 있다. (물론 PC 앞에 앉아있는 사람들은 자신이 직접 검색하는 편이 더 직성이 풀릴테니까, 굳이 채팅을 하고 시간을 보내야 할 필요가 없겠다.)

How ChaCha Works... or Fails.
결국 이 서비스는 대화의 입출력도 인공지능도 사람이 대신하는 셈인데, 그러다보니 불성실한 응답자도 있는 모양이다. 운영사에서는 질문 하나에 답하는 데 20센트씩을 제공한다고 하는데, 대답의 만족도를 평가할 수 있는 (돈이 들지 않는) 방법이 주어지지 않는다면 장기적인 서비스는 곤란할 듯 하다.


(5) 엠톡
mTalk, Human-powered Dialogue Service

최근에 출퇴근 버스에 광고를 실으면서 내 관심의 대상이 된 "엠톡" 서비스는, 앞서 말한 ChaCha와 같은 개념의 서비스라고 할 수 있겠다. 광고의 내용만 보자면 "아무거나 물어보면 아무거나 대답해준다"는 컨셉은 그대로인 것 같지만, 사실 응답해주는 대상을 이렇게 헐벗은 젊은 여성으로 상정하고 있는 걸 보면 솔직히 성인전화방 대화 서비스의 사업확장으로 생각하고 있는 건 아닌지 심히 우려가 된다.
Print Ad of mTalk, in the Bus
Print Ad of mTalk, in the Bus


그게 이 "인공지능 대체 기술"의 한국적 사업모델이라면 어쩔 수 없겠지만, -_-;; 그래도 기왕이면 ChaCha의 그것처럼 네이버 지식인을 언제 어디서나 찾아서 요약해서 보내드립니다~라든가 하는 정보 서비스의 탈을 써주면 안 되겠니?


(6) Jott
Jott.com, a dictation service

이 영단어는 참 민망스런 발음 때문에 자주 쓰이지 않아서 다행이다 싶었는데, "Jott"이라는 서비스가 대놓고 시작하는 바람에 좀 자주 보게 될지도 모르겠다. ;ㅁ;

문자입력이 얼마나 어려운지는 몰라도, 이 서비스는 그걸 대신해줌으로써 인생을 쉽게 만들어준다는 게 모토인 듯 하다. 사용법에 대해서는 저어기 맨 위의 David Pogue의 컬럼에 붙은 동영상에서 잘 보여주고 있지만, 전화를 걸어 메모해 두고 싶은 내용이나 보내고 싶은 메시지를 말하면, 저쪽에서 그 내용을 누군가 받아적어서 텍스트 메시지나 이메일 등으로 보내준다는 컨셉이다. (아마 그 받아적는 누군가는 인도에나 필리핀에 앉아있을지도 모른다)

Jott: “Who do you want to Jott?”
Caller: “Myself.”
Jott: “Jott yourself.”
Caller: “Great idea for Act 2! Doing the laundry, Minna finds lipstick on her husband’s collar and sues the detergent company.”

Jott for iPhone -_-;;;
이 서비스는 특히 iPhone을 위한 전용 프로그램까지 제공하고 있는데, 이 경우엔 녹음 메시지를 데이터 통신망으로 보내고 받아 적어져서 돌아온 내용을 관리하는 기능까지 포함하고 있다.

직접 노트를 적거나 메시지를 쓰지 않고, 전화요금을 써가면서 다른 사람(기계나 시스템으로 치부한다 쳐도)에게 받아적게 한다는 것은 왠지 쉽게 이해가지 않는 사업모델이지만, 중세 유럽에서 편지나 책을 받아적는 직업이 존재했다거나 특별한 상황에서는 문자입력이 쉽지 않을 수 있다거나 하는 걸 생각해 보면 (아주 좁지만) 나름의 니즈는 있을 것 같기도 하다.


(7) ReQall
ReQall, dictating reminder service
이외에도  David Pogue의 컬럼에서는 "ReQall"이라는, "Jott"와 거의 동일하지만 알림 시간이 포함된 reminder 중심의 서비스도 언급되고 있다. 하지만 ReQall이나 Jott이나 대화라기보다는 일반적인 내용 전달과 받아적기 dictation 에 대한 것이므로 사실 내 관심사인 "대화"의 개념과는 다소 거리가 있다. 그러니 그냥 링크만 걸어놓고 통과. (아, 그런데 ReQall도 iPhone application을 제공한다! 이 방식인 사용자로 하여금 전화요금 부담을 덜 느끼게 한다고 생각하는 듯.)



... 언제나 그렇지만, 이렇게 모아놓고 정리하다보니 또 제풀에 지쳐버렸다. 그래서 급 마무리. ㅡ_ㅡ;;; 어차피 최근에 자꾸 눈에 밟히는 서비스가 자꾸 쌓여서, 한데 모아놓고 싶었을 뿐이다. (먼산 '-')y~oO
신고
Posted by Stan1ey

Exoskeleton for Sale

2008.07.03 21:41

외골격계 로봇 강화복...하면 내게 떠오르는 이미지는 이렇다.

Exoskeleton from Bubblegum Crisis
Exoskeleton from Iron Man

(왼쪽은 내가 강화복을 처음으로 - Starship Troopers보다 먼저 - 접한 애니메이션 Bubblegum Crisis ^^* , 오른쪽은 가장 최근의 영화 Iron Man이다.)

뭐 이런저런 SF 매니아로서의 소회는 접어두고, 이게 슬슬 실제로 팔리나보다. 몇년전 버클리 대학에서 BLEEX라는 미군용 강화복을 만든다며 크고 무겁고 뜨겁고 시끄러운 배낭을 맨 군인복장의 사진을 돌렸을 때는 참 돈이 많으니 별 걸 다 하는구나 싶었고, 얼마 후 일본의 츠쿠바 대학에서 HAL이라는 물건을 만든다며 쌀가마니나 여성관객을 번쩍번쩍 들어올리는 시범 동영상이 돌 때는 그냥 쇼를 한다고 생각했던 것 같다.

BLEEX from UC Berkeley
HAL from Cyberdyne


그런데, 오른쪽 강화복 HAL - Hybrid Assistive Limb - 이 일본 내 판매를 시작했다. 물론 시장에서 쌓아놓고 누구나 살 수 있는 가격으로 파는 건 아니지만, 실제로 판매를 담당하는 회사가 생기고 구매상담을 할 수 있는 웹페이지가 있다!

Screenshot of Cyberdyne Website

마치 소니에서 로봇 강아지 AIBO를 처음 팔기 시작했을 때의 느낌이다. 한편으로는 이 사람들이 미쳤나? 이게 시장성이 있나? 싶고, 한편으로는 UFO를 주웠나? 미래에서 온 거 아냐? 라는 생각도 든다. 어느 쪽이든 이 회사 - Cyberdyne - 는 역사 속에 외골격계 로봇 강화복을 최초로 상용화한 회사가 될테지만. (그나저나 회사 이름은 영화 <Terminator>에서 인류절멸을 추진?한 컴퓨터를 만든 회사의 이름이고, 상품의 이름은 영화 <2001: A Space Odyssey>에서 승무원을 모조리 살해하려 했던 우주선 컴퓨터의 이름이다. 도대체 뭘 생각하고 있는거야... ㅡ_ㅡ; )

위의 두 물건 다, 사실 별도의 사용자 인터페이스라고 할만한 것은 없다. 아니, 정확히 말하자면, '전통적인 의미의' 사용자 인터페이스는 없다고 해야 하겠다. "사용" 전에 세밀한 설정 등을 어딘가 붙어있을 무슨 버튼과 화면을 통해서 미리 해야 할지는 모르겠지만, 중요한 사용법은 그냥 "움직이고 싶은대로 움직이면" 나머지는 기계가 알아서 지원해주는... 그야말로 Intelligent UI의 궁극적인 모습을 보여주고 있는 것이다. 사실 내 팔다리를 움직이는 데에 하나하나의 움직임을 명시적으로 지시할 수는 없다고 하더라도, 저렇게 많은 관절들을 동시에 움직이는 데 [예비]동작을 통한 암묵적인 지시가 과연 안정적인 사용성을 제공할 수 있을까? 그것도 이 말 한마디 통하지 않는 - 굳이 분류하자면 - '로봇'을 대상으로 말이다.



VTAS: Visual Tracking Acquisition System
Cyberdyne사의 HAL처럼 근전도도를 이용한 명령방식이나, 전투기 조종사의 안구추적을 이용해서 목표를 조준하는 선택방식은 IUI의 사례 중에서도 아주 특별히 성공적인 사례다. (몸의 기울임으로 전진/후진/회전을 조정하는 방식은 반대로 명백한 실패사례다.) 성공 사례들의 공통적인 특징이라면 역시 주어진 분야에 특화된 극히 제한된 영역을 사용했다는 것이 되려나? 그 제한된 영역이 굳이 "틀려도 상관없는 기능"이라는 주장은 이제 "비겁한 변명"으로 치부될 수 있을 것 같다.

사실은 뭐 눈엔 뭐만 보인다는 좋은 예시일지도 모르겠지만... 아무래도 센서 기반의 암묵적 입력과 인공지능 기반의 인식 알고리듬이 결합된 앞으로의 HTI에서는, 인간과 기계 간의 기능 분배와 협업(Autonomy vs. Control)이 UI 디자인의 핵심이 될 것 같은 생각이 든다.

신고
Posted by Stan1ey
급고백. 나는 애니메이션 <공각기동대>에 나온 "다치코마"라는 로봇을 좀 과하게 좋아한다. -_-;; 사무실 책상에는 작은 피규어 인형이 숨어있고, 집에는 조립하다 만 프라모델도 있다. 한동안 PC 배경으로 다치코마를 깔아두기도 했고.

Tachikoma Welcoming

애니메이션을 본 사람이라면 공감하겠지만, 인간적인 상호작용과는 전혀 동떨어지게 생긴 이 로봇(들)은 독특한 장난스런 말투와 동작, 그리고 무엇보다도 더없이 인간적으로 만드는 그 호기심으로 인해 그야말로 사랑스러운 캐릭터라고 할 수 있다.

하지만 내가 다치코마를 좋아하는 건 거기에 더해서, <공각기동대>에서 다치코마가 맡고 있는 '캐릭터' 때문이다. 다치코마는 '대체로 인간'인 (세부 설명 생략;;) 특수부대 요원을 태우고 달리거나, 그들과 함께 작전에 투입되어 어려운 일(이를테면, 총알받이)을 도맡는다. 이들은 인간에 준하는 지능을 갖고 인간을 돕지만, 자신들이 로봇임을 알고 있고 부상이나 죽음에 대한 두려움이 불필요함을 안다. 하지만 시리즈가 거듭될수록 다치코마의 집단지능이 높아지고, 이들은 점차 사유라고 할 수 있는 수준의 대화를 하게 된다.

Tachikoma Discussing

"인간보다 뛰어난 인공지능이, 왜 인간에 의해 통제되어야 하는가?"
"전뇌를 가진 인간이 왜 여전히 비효율적인 언어를 사용하는가?"
"로봇에게 죽음은 아무 의미가 없는가?"
"남을 위해서 자발적으로 자신을 희생한다는 이유는 무엇인가?"

이런 '담론'들은 아주 조금만 과장하자면, 이미 우리 생활에 들어와있는 많은 자동화 기기와 Intelligent UI의 이슈인 Autonomy vs. Control 에서 다뤄져야 할 내용이다. 청소로봇의 사례까지 갈 것도 없이, 사람이 가까이 가면 열리는 자동문에서부터 이러한 이슈는 크고 작은 사용성 논쟁을 벌일 수 있는 소재가 된다. 실제로 <공각기동대>의 어떤 에피소드들은, 보다가 자꾸 HRI 이슈가 등장하는 바람에 몇번이나 되돌려 보곤 한다.


실은, 이 다치코마를 간단한 대화와 제스처가 가능한 정도로 만든 '프로토타입'이 공개되어서 이런저런 생각이 들어 한번 적어 보았다.



물론 위의 '더미'에는 별 관심이 없다. (판매용이 아니라고도 하고;;) 하지만 미래에 다치코마의 머리가 될 인공지능의 발달과, 그 훨씬 전단계인 오늘날의 상용화된 인공지능들 - 다양한 센서와, 단순하더라도 무언가를 판단하는 중첩된 if 문들 - 은 아무래도 굉장히 많은 숙제를 던져주려고 저 멀리서 성큼성큼 걸어오고 있는 게 분명하다. 이제는 발소리가 들릴 정도로 아주 가까우니까 말이다.

Tachikoma Exhausted

신고
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.