Voice Search in Korean

2010.06.20 01:46
지지난 주에 다음 커뮤니케이션에서 아이폰용 Daum 앱에 음성검색 기능을 포함시켰다기에 이게 웬일이냐..하고 있는데, 지난 주에는 구글 코리아에서도 모바일 음성검색의 한국어 버전이 안드로이드 앱으로 (아이폰용도 업데이트할 예정) 발표되고, NHN에서도 올해 안에 음성검색 모바일앱을 내놓겠다고 한다.

Daum Voice Search on iPhone AppGoogle Voice Search in Korean on Android App

누가 먼저 시작했는지는 모르겠지만, 이 일련의 음성검색 발표 러쉬에는 업계의 경쟁심리가 작용했을 것이다. 그렇지만 다음도 일찌감치 음성인식 앱을 준비하고 있음을 홍보한 적이 있고, 구글 음성검색이야 진작에 출시되어 있었던 만큼 준비들은 오래전부터 해왔을 테고, 그래선지 음성인식의 적확률에 대해서도 다음의 앱이나 구글의 앱이나 기대 이상이라는 반응이다. 특히 안드로이드 OS는 초창기부터 음성인식을 위한 고려가 포함되어 있을 정도였으니까.

일전에도 구글 음성검색의 두번째 언어가 중국어가 됐다는 소식을 전하면서 한국어는 몇번째로 구현이 될지 궁금해 한 적이 있는데, 결국 예상한 대로 프랑스어가 사용자가 상대적으로 많은 한국어보다 먼저 구현이 되었고, 한국어는 8번째로 구현된 언어라고 한다. 뭐 솔직히 생각보다는 빨리 구현해 줬다. -_-a;;

다음과 구글의 음성검색 기능에서 Voice UI를 비교해 보려고 했지만, 우리나라 앱을 설치할 수 있는 안드로이드 폰을 구할 방법이 없어서 통과. 그리고 나름대로의 방법으로 이미 이 둘을 비교한 기사는 이미 올라와 있다.

Speech Recognition Result 1, Daum Voice SearchSpeech Recognition Result 2, Daum Voice SearchSpeech Recognition Result 2, Daum Voice Search

아이폰용으로 우선 출시된 Daum 앱의 경우, 음성인식 결과는 기본 설정에서는 바로 검색결과를 보여주며, 그와 함께 "음성인식결과 더보기" 기능을 통해서 N-Best 결과를 추가로 볼 수 있게 되어 있다. 보다 일반적인 방식으로 음성인식 결과의 대안들을 먼저 보고나서 그 중에서 인터넷을 검색할 어휘를 선택하려면, "설정" 메뉴에서 "음성인식 결과보기" 옵션을 켜면 위의 오른쪽 그림과 같이 다섯가지 대안결과가 팝업창으로 나타나고 원하는 결과가 없을 경우 바로 재시도할 수 있다.

음성인식의 오인식 확률을 생각하면 보다 전통적인 후자의 방식이 기본으로 제공돼야 한다고 해야 하겠다. 배경잡음이 없는 상태에서의 인식률은 상당한 편일지 몰라도, 인식이 잘 되던 구절을 몇가지 소음환경(화이트 노이즈, 배경음성 등)에서 똑같이 시도했을 때에는 여전히 인식이 거의 되지 않았고, 그런 상황에서 바로 음성입력을 다시 할 수 있도록 해주는 것은 중요한 기능이기 때문이다. 하지만 사실 그러면 또 음성인식의 가장 큰 문제를 부각시키는 모양새가 될테니 어쩔 수 없다고 할까.



이래저래 다루기 쉽지 않은 음성인식 서비스를 출시하려니 고심이 많았다는 건 그렇다고 해도, 역시 Voice UI 관점에선 아쉬운 점이 눈에 띄지 않을 수 없다.

No Network Error in Daum Voice Search
우선 두 회사 모두 모바일 기기에서는 입력된 음성 데이터에서 비교를 위한 특징만을 찾아 보내고 음성인식 기능 자체는 고성능/대용량/실시간 서버에 맡기는, 분산 인식 방식을 채용하고 있다. 일전에 구글의 음성인식을 써봤을 때도, 또 이번 다음 앱의 경우에도 인터넷 연결이 안 될 경우엔 기능 자체가 실행되지 않는다. 비록 사용에 제한이 따르고 경우에 따라 통신요금까지 부과되는 형식이긴 하지만, 음성인식의 성능을 위해서는 어쩔 수 없는 선택이라고 생각한다. 그렇지만 분산인식을 선택한 경우에는 또 그 나름의 장점이 있을 수 있는데, 그걸 제대로 살리고 있는지는 잘 모르겠다.

Input Too Loud Error in Daum Voice Search
Daum 음성검색을 사용해 보다가 발견한 왼쪽 오류창은, 음성입력이 너무 클 경우 서버에 데이터를 보내기 이전에 나오는 장면이다. 이렇게 전처리 과정이 모바일 모듈 안에 있다면, 사실 할 수 있는 일이 좀 더 많을 것이다. 잘못된 음성인식 결과를 단순히 출력하거나 실제로는 별 의미 없는 "검색어를 말할 때 정확히 발음하여 주세요" 같은 안내문을 보여주기 보다, 음성 명령어 구간을 판정하는 EPD 작업 후에 배경소음과 음성명령어를 비교해서 "조용한 곳에서 인식이 더 잘 됩니다"라든가, "주변 사람들의 이야기하지 않을 때 더 잘 됩니다"라든가, "조금 더 큰 소리로 말씀해 주세요" 등의 안내문을 '상황에 맞게' 보여줄 수 있기 때문이다.

실제로 이런 방식을 적용했을 때, 이런 오류가 비록 정확하게 선택될 수는 없더라도 어느 정도 임의로 출력했을 경우 최종 인식률과 사용자의 만족도에는 큰 차이가 있었다. 인간과 같이 말을 알아들으면서도 사실은 스위치만큼이나 멍청해 보이는 장치가 아니라, 음성인식이라는 범주 안에서는 어느 정도 의사소통이 되는 상대방으로 인정받게 되는 것이다. 음성인식이라고 하면 그 인식엔진 안에서 일어나는 UI 디자인과 관련없는 일로서만 여기게 되지만, Voice UI 설계의 관점에서 주변 데이터에도 좀더 관심을 갖고 해당 기능을 사용하는 정황을 좀더 고민했다면 좋지 않았을까 하는 아쉬움이 든다.


또 하나 언급해둘 만한 것은, 음성인식 기능을 여전히 다른 GUI기반 기능과 동떨어진, 그냥 장식적인 feature로만 생각하고 있는 것 같다는 점이다. 음성인식은 제대로 동작할 경우, 키보드 입력을 대체하거나 최소한 보완할 수 있는 도구이다. 위에 링크한 기사들에서도 하나같이 비슷한 이야기들은 하고 있지만, 사실 판에 박힌 음성인식기술의 홍보문구 이상도 이하도 아니다. 그 관점을 실제로 UI 디자인에 적용한다면 어떻게 될까.



이를테면, 위 HTC의 Voice UI에서처럼 키보드와 음성인식을 대등하게 다루고, 키보드 입력을 하려다가 음성인식을 하거나, 음성인식이 실패할 경우 바로 키보드를 통해 보완할 수 있도록 하면 될 것이다. 아이폰이나 안드로이드나 앱에서 OS의 기본 키보드 위에 버튼을 추가할 수 있게 되어 있는데, 이미 좋은 선례가 있음에도 불구하고 이러한 관점을 살리지 못한 부분은 아쉬운 일이다.

... 그나저나 위 동영상에서는 단순히 검색어 몇 음절을 인식하는 수준이 아니라 받아쓰기 dictation 수준의 음성인식 기술을 보여주고 있는데, 이 놀라운(!) 기술수준의 차이에 대해서는 일단 넘어가기로 하자. UFO라도 주웠나보지 뭐.



뭐 어쨋든 간에, 몇차례의 뼈저린 실패에도 불구하고 슬금슬금 다시 고개를 들기 시작한 음성인식 기술이 이번에는 제법 주목을 받고 있다. 이 기회에 제대로 된 Voice UI 디자인에 대한 관심도 좀 생겼으면 좋겠는데, 적어도 결과물만으로 판단하기에는 아직 쉽지 않은 모양. 하지만 언제나 그렇듯이 또 이러다가 눈 깜박하는 순간에 주류가 되어 당연시되거나, 아니면 흔적도 없이 사라져 버리겠지.

외유 중인 인간은 굿이나 보고 떡이나 먹기로 하겠다. 이기는 편 우리 편! =8-P
저작자 표시 비영리 변경 금지
신고
Posted by Stan1ey

Emotional AI

2009.08.08 01:55
처음 회사생활을 시작해서 건드렸던 게 MS Agent 2.0 엔진을 이용한 대화형 에이전트를 만드는 거 였다. Visual Basic Script와 JavaScript를 혼합해서 인터넷 익스플로러와 넷스케이프에 연동하고 다른 프로그램에 연동하고 해 가면서, 주어진 과제 - 실제로는 완전하게 동작하지 않는 "사람과 대화하는 컴퓨터"를 그럴 듯 하는 게 구현하는 것 - 를 어떻게든 해보려고 노력했다. 그때는 그렇게 10년동안 연구하면 그 '그럴 듯한' 시스템이 실제로 만들어질 줄 알았지만, 10년이 지난 지금도 그 시스템을 만들려면 비슷한 수준의 인공지능과, 비슷한 수준의 구라를 조합해야 할 게다.

Microsoft Agent: James the Butler
당시 사용했던 MS Agent 모델 James

어쨋든 당시에는 거의 이론적인 수준으로만 존재했던 대화모델을 어떻게든 실재하는 것처럼 만들기 위해서 처음에는 이런저런 대사DB를 고심했지만, 결국 무슨 말을 하면 무슨 응답을 한다는 하나하나의 대응쌍(adjacent pair)이 밝혀지고 나면 전체 대화모델이 얼마나 방대한지와 상관없이 그 시스템은 뻔한 '바보'가 되어 버렸다. 지능의 수준은 그 지식의 정도가 아니라, 입출력의 패턴에 따라서 판정되었던 것이다. 인간이라면 대화 속의 미묘한 맥락이나 상대방 혹은 주변의 눈치를 살피며 그때그때 다르게 응답하겠지만, 당장 컴퓨터는 입력된 그런 입력이 제한되어 있는 것이다.

그래서 장난을 친 것이, 그냥 출력되는 대사를 여러가지 준비해서 그 중 아무거나 임의로 출력하도록 하되, 소극적으로 같은 내용을 다른 말로 바꾼 것뿐만 아니라 아예 다양한 내용으로 말을 만들었다. 이를테면 당시 사용했던 음성인식 엔진은 음성인식에 실패했을 때 그게 소음 때문인지 화자의 발성 때문인지를 확인할 수 없었는데, 오류 메시지는 "잘 안 들리네요. 주위 분들 조금만 조용히 해 주시겠습니까"와 "조금 더 또박또박 말씀해 주세요"를 몇가지 다른 말로 바꾸어 내보낸 것이다.

... 물론 이건 대화모델이나 음성인식을 연구하던 분들에 비하면 말 그대로 장난에 불과했지만, 그에 대한 사람들의 반응은 개인적으로 무척 인상에 남았다. 모두 합쳐봐야 예닐곱개 정도의 메시지를 임의로 뿌린 것 같은데, 사람들은 그걸 들으면서 이전보다 훨씬 더 자연스러운 대화가 가능해졌다고 느끼는 것이다.

한편으로는 그냥 재미있는 기억이기도 했지만, 비슷한 시기에 만들었던 대화형 홈페이지와 맞물려서 '과연 인공지능이라는 게 만들 필요가 있을까? 그냥 그럴싸하게 대꾸하면 사람이 낚여서 인공지능으로 여기는 거 아닐까?' 라는 고민을 하게 만들었던 기억이다.



얼마전 게임 관련 잡지인 <Develop>을 뒤적이다가, 전에 언급한 Project Natal 관련기사에서 재미있는 대목을 찾았다. Milo라는 야심(?) 넘치는(말그대로!) 프로젝트를 소개했던 Lionhead Studio 담당자와의 인터뷰다. 이 인터뷰에서는 뒷부분에 소위 "Emotional AI"라는 개념을 소개하고 있는데, 저 위에 폰카로 찍은 인용구 부분이 간단한 정리라고 하겠다.

Emotional AI: interview from Develop Magazine

다른 게임들과 비교해서 크게 차이가 나는지는 모르겠지만, 인터뷰 내용에 따르면 이제까지 Lionhead에서 만든 게임에 들어간 AI는 조금씩 발전을 거듭해 왔고, 그 결정판이 Milo에 들어갈 예정이라고 한다. 거기에 들어간 AI가 바로 "emotional AI"인데, 그 내용이 위와 같은 것이다.

"Emotional AI isn't real AI - you couldn't write a paper about it. It's how you use weak learning to make people think something is going on there."

관련해서 검색해 보니 이번 뿐만 아니라 몇번이나 언급한 개념인 모양이고, 다른 회사에서도 미들웨어를 개발한다고 나서기도 했다. 대놓고 사용자를 현혹시키기 위한 프로그램을 개발하고, 게다가 이름을 붙여 홍보까지 하다니... 게임 업계란 가끔 UI 쟁이에게 도의적인 갈등을 느끼게 한다. 특히 실제로 AI를 연구한 분들이 본다면 경을 칠 노릇이지만, 사실 인공지능 학계 내부적으로도 "안 되는 분야"라고 인정하고 있는 분위기에서 이런 식으로라도 실용화를 향한 명맥을 유지할 수 있다면 오히려 다행일지도.

그나저나 저 Emotional AI라는 분야, 그냥 뻔한 변수들의 조합에 랜덤함수만 열심히 넣은 게 아니었으면 좋겠는데. 실제로 Milo가 나와준다면 - 비록 내 허접한 영어발음은 못 알아듣더라도 - 얼마나 끝내주겠냐는 말이다.
신고
Posted by Stan1ey
얼마전에 올라온 것 같은 이 MS Office 2010 홍보 동영상을 이제서야 보게 됐다.



비교적 열성과 전문성이 보이는 홈페이지 내용에 비해서, 이 동영상은 마치 고등학생들이 만든 프로젝트 영상 같달까... 어중간한 프로의식에 일단 흉내는 냈지만 도통 공감이 가지 않는 재치있는(?) 내용들이 거슬린다. 게다가 실제로 의미있는 장면이나 대사는 없고, 그냥 헐리웃 영화 예고편에 대해서 순수하게 풍자하고자 만든 영상이라면 오히려 수긍이 가겠다.


... 사실대로 말하자면, 내 입장에서는 내용이 아주 없지도 않았다.

Rest In Peace, Clippy (1997-2004)
Rest In Peace, Clippy (1997-2004)

비록 실패했지만, 개인적으로 대화형 Human Interface Agent를 적용한 Social UI의 의미있는 시도로 기억하고 있는 Clippy가 주인공(?)의 죽어버린 친구로 나온다. 여기에 따라붙는 대사는 "이제는 그만 잊고 보내줘야해!"라는, 무려 '아픈 과거를 가진 캐릭터' 패턴. 아놔. ㅡ"ㅡ

이건 뭐 한두번도 아니고, 뭔가 울궈먹을 일이 있을 때마다 부관참시하고 있으니 좀비가 되어서 살아나고 싶어도 무서워서 그냥 누워있을 듯.

이러다가 나중에 대화모델링이나 음성인식이나 준자연어 분야의 연구가 갑자기 발전해서 다시 에이전트를 하게 되면 면목 없어서 어쩌려고들 이러는지 모르겠다. 진짜 그쪽은 결국 다다르게 되어 있다니깐.
신고
Posted by Stan1ey

한 광고회사에서 며칠 전 "호모나랜스"라는 단어를 들고 나왔나보다. 매번 정기적으로 나오는 마케팅 '연구' 보고서에서는 늘상 뭔가 fancy한 용어를 만들어 내기에 이번에도 뭔가 가지고 왔나보다...할 수도 있지만, 아무래도 관심이 있는 스토리텔링과 연결되는 듯 해서 한번 찾아보니, 호모나랜스 Homo Narrans 라는 단어는 광고회사에서 만들어낸 단어가 아니었다.

한 블로거의 글에서 얻을 수 있었던 유용한 정보들에 따르면, 이 단어는 1984년 Walter Fisher라는 학자에 의해서 정의된 듯 하다.

Homo Narrans
n. story telling human beings, from Walter Fisher(1984). According to him, all communication is a form of storytelling.

흠... 예전에 <The case for the narrative brain>이라는 논문을 읽은 후에 늘 당연하게 생각해왔던, "인간은 늘상 이야기의 창조와 해석을 통해 사고한다"는 논리에 원전이 있었던 모양이다. 내 경우엔 이걸 소위 "시각언어의 내러티브 visual narrative"로 확장했었고, 요새는 그 (시각적이든 그렇지 않든) 이야기 구조를 통한 '재미'라는 것에 관심을 가지고 있는 셈인데, 최근(1999년)에도 이에 대한 John D. Niles의 저서 <Homo Narrans>가 출판되는 등 명맥을 유지해오는 것 같다.



이 '이야기'(혹은, 뭐 굳이 구분하듯이 '이야기하기')라는 것은... 활발하고 적극적으로 정보를 주고 받는 사용자 인터페이스와 분명한 관계가 있다. 아무래도 원래 이걸 주장한 광고회사의 의도는 아니었던 듯 하지만, 어쨌든 덕택에 이 두 가지 분야 - 문학과 UI - 를 관련지워 주는 논문들에 한가지 고리가 더 생긴 듯 하다.

특히 John Niles의 저서는 Abbe Don이 UI와 narrative를 처음(?) 연결지을 때 언급했던 구술 oral narrative 에 대해서 있는데, 이걸 보면 역시 narrative / storytelling을 언급하려면 컴퓨터 상의 개체인 conversational agent가 필요한 건가 싶기도 하고, contextual design이라는 주제가 뜬 이후에는 또 그쪽으로 기우는 듯한 모습을 보이기도 한다.

... 열정과 시간이 좀 남아있다면 이런 기회가 다시 한번 관련 주제들을 파보는 계기가 되겠지만, 이제 이런 주제는 그저 취미생활일 뿐이니 아쉽다.

[O] 그러니 이쯤에서 Reading List나 업데이트하고 마무리하자.


신고
Posted by Stan1ey

Conversation Works.

2008.07.17 05:52

Conversation Works. 이건 지금은 인터넷 한 구석에 숨어있는, 내가 1999년 말 혹은 2000년 초에 만들었던 홈페이지의 제목이다. 대화형 에이전트 conversational agent 와 대화 모델링 dialogue modeling 이라는 것을 어깨 너머로나마 접하고나서, 그리고 한창 음성인식/음성합성과 Microsoft Agent 를 이용한 대화형 사용자 인터페이스 작업을 하고 있던 참이라, 요거 참 새롭다 싶어서 당시 빠져있던 JavaScript로 구현해 본 거였다. ^^*

Conversation Works Homepage

[○] 엽기적인 광경을 좋아한다면...





이 홈페이지를 만들 때에도 물론 그랬고, 지금까지도 '인간의 대화'라는 것은 내가 끼고 사는 가장 큰 화두 중의 하나다.

태초(?)에 GUI가 있었을 때에는 "대화창 dialog pop-up"이 나와 과연 삭제를 할 것인가 말 것인가 하는 철학적인 질문에 대해 아주 단편적인 - Yes or No - 답변을 강요하던 시절도 있었지만, 이제는 음성인식이나 합성 기술의 발달로 인해 인간의 말을 문자로 바꾸고 문자를 말로 바꿀 수 있게 됐고, 자연어 처리 기술(NLP; natual language processing)이 발달함에 따라 문자로 입력된 말(단어, 문장, 문단, ...)의 구조와 약간의 의미를 알 수 있게 되었다. 즉 기계와 음성으로 대화를 한다는 것이 아주 불가능하지는 않게 된 거다.

하지만 그건 사실 위 홈페이지를 만들었던 1999년에도 10년째 가능했던 기술이고, 그 기술적 수준이 또다시 10년간 많이 발전했음에도 불구하고 상용화를 목표로 한다면 아직 멀고도 먼 갈 길이 남아있는 기술이다. (이 말은 1~2년 내로 '비겁한 변명'이 될 소지가 크다 ;ㅁ; )
HAL from <2001: A Space Odyssey>
1968년 영화 <2001: A Space Odyssey>에서 시작된, 인간과 기계가 방대한 상식과 주제를 가지고 자유로운 음성대화를 한다는 것은 40년이 지난 지금도 연구실에서 제한된 목적과 방법으로 이루어지는 데모의 수준에 그치고 있다. 물론 몇가지 음성대화형 시스템이 상용화되고 있기는 하지만, 이것들은 대체로 태초의 dialog box 에서 보여준 UI와 크게 다르지 않게 느껴질 정도로 단순하고 제한된 (음성) 입출력만을 가능케 하고 있다. 현재로선 기술의 발전이 더디거나 한 것이 아니라, 그야말로 방대하고 변화무쌍한 다양성을 갖는 인간의 음성과 언어를 처리하기 위한 높은 사양의 컴퓨팅 환경이 나타나기를 기다리고 있는 것에 가깝다고 한다. 어쩌면 앞서 말한 음성대화형 시스템들이 제한한 범위 하에서라도 등장하기 시작한다는 것이 그 희망적인 전조일지도 모르겠다.


그런데, 사실 인간과 시스템이 의사소통하는 방법에는 버튼을 클릭하는 것과 음성으로 대화하는 것 사이에도 수많은 대안들이 있다. 이를테면 음성이 아닌 '문자'로 대화하는 방법이 있을 수 있으며, 시스템은 꼭 엄청나게 똑똑할 필요 없이 '사람들'이 그 역할의 일부를 대신해도 된다. 최근에, 그런 사례가 몇가지 보여서 모아봤다. 미국의 사례는 David Pogue의 최근 NY Times 컬럼과 블로그(6월 5일자 및 7월 10일자)에서 얻은 정보를 추가했다.


(1) Google Voice Search (GOOG-411)
GOOG-411, Google's Voice (Phone Book) Search

구글 정도의 검색능력을 갖춘 곳에서 음성검색을 한다면, 우선은 등골이 서늘한 느낌이 든다. "이거 이럼 더 할 일이 없는 거 아닌가..."하고 말이다. 하지만 다행히도(?), 구글의 음성검색은 411 서비스, 즉 전화번호부 검색 서비스와 약간의 부가 서비스에 그치고 있다. 위의 웹페이지 이미지에 설명되어 있듯이, 이 서비스의 사용 시나리오는 다음 대화(Pogue 컬럼에서 인용)에 잘 나와있다.

Google: “GOOG411. What city and state?”
Caller: “New York, New York.”
Google: “New York, New York. What business name or category?”
Caller: “Empire State Building.”
Google: “Empire State Building! Searching. Top listing: Empire State Building on Fifth Avenue. I’ll connect you.”

즉, 지역 이름과 직종 분류를 거친 후에 나오는 결과 중에서 첫번째 아이템을 설명해주는 듯 하며, 결과가 여러 항목이 있을 경우라든가("다음, 다음, ..."), 음성인식 오류가 발생하는 경우에 대해서는 전혀 언급이 없다. 그래도 전화 연결 전에 "Details" 라고 명령해서 검색된 항목에 대한 자세한 정보 - 주소와 전화번호 - 를 확인할 수 있도록 한다던가, "Text message"라고 말해서 그 정보를 내 휴대폰에 SMS로 보낼 수 있는 기능이 있다던가 하는 것은 음성검색의 불안함 -_-;; 을 보완하는 훌륭한 부가 서비스라고 생각한다.

(사실 이 서비스에 대해서 가장 부러운 것은, Google에 voice researcher라는 사람이 일하고 있다는 거다. 물론 이 서비스 발표 후에 아무 업데이트가 없는 걸 보면 초큼 걱정도 되고 불안하기도 하고 그렇지만. ㅎㅎ )



(2) Yahoo oneSearch with Voice
Yahoo! oneSearch with Voice

Yahoo oneSearch Screen shot
모바일 기기에서 사용할 수 있도록 만들어진 Yahoo oneSearch는 인터넷에 접속된 휴대폰이나 PDA에서 검색어를 입력하면 작은 화면에서도 검색결과를 간편하게 확인할 수 있도록 설계된 서비스이다. (사실 2000년쯤에 이런 서비스의 구조와 운영에 대한 BM 특허를 준비한 적이 있었는데, 제대로 된 첨단기술이 들어가지 않는다는 이유로 ;ㅁ; 기각된 적이 있었다. 쩝... 이제 와서 보면 좀 아쉽게 됐다. ㅎ )

Yahoo! oneSearch with Voice - Task Flow
(그러고보니 인식을 시작하는 방식도 내 VUI 특허 중 하나와 동일하다 -_- )

이러한 oneSearch의 앞단에 서버 기반 음성인식기를 넣은 것이 "oneSearch with Voice"라는 서비스다. 서버 기반 음성인식이므로 네트워크 비용이나 컴퓨팅 노력은 많이 들지만, 휴대기기에 embed 되어 있는 버전보다 그만큼 월등한 인식범위와 성능을 가질 수 있다. David Pogue의 경험을 그대로 인용하자면 (난 이 사람의 사업적 중립성에 대해서는 안 믿기 때문에 -_- ), 음성인식이라는 기술이 태생적으로 절대 인식할 수 없는 경우, 즉 고유명사를 제외하고는 대부분 올바르게 음성 검색어를 인식하고 검색결과를 제시했다고 한다.

사실 이 경우는 대화라고 하기가 좀 그렇다. 사용자가 말하는 것은 딱이 사람에게 하듯이 제시하는 문장이 아니라 검색어 조합에 가깝고, 그에 대한 '응답'도 대화체가 아닌 검색결과를 나열화면이다. 하지만 사용자가 뭔가를 음성으로 요청할 수 있다는 것은, 여전히 이 시스템이 단순한 정보입출력 이상의 인터랙션을 취하고 있다고 생각하게 만든다.


(3) 심심이
Simsimi, dialogue learning 2.0

앞서서 간단하게 언급했던 대화 모델링의 기본은, 입력된 사용자의 대사에 적합한 응답을 시스템이 얼마나 잘 도출해 내느냐에 달려있다. 원칙적으로 하자면 상대방이 말한 말을 구문적으로는 물론 그 의미와 대화 맥락 상의 의도까지 이해한 후에, 일반적인 인간이 가지고 있는 방대한 사회적/자연과학적 상식과 해당 대화 주제에 대한 어느 정도의 지식을 바탕으로 응답을 도출하여 이를 올바른 문법적인 구조를 가진 문장으로 생성해내야 한다. ... 하지만 이건 이 길다란 문장 만큼이나 어려운 일이고, 실제로 최초의 성공적인 대화 시스템으로 꼽히는 MIT의 ELIZA는 물론 오늘날 매년 Turing Test에 도전하고 있는 대화 시스템들도, 그 주된 접근은 "상대방 대사의 대략의 구조에 대해서 미리 학습된 응답을 하는" 방식을 되도록 많이 모아서 사용하는 방식을 취한다. (인간은 그렇게 많은 대화경험을 언어적 구조를 파악함으로써 축약활용하지만, 컴퓨터는 그냥 엄청 방대한 DB를 운영함으로써 대신한다고 이해할 수 있겠다... 인간의 언어학습에 대한 이야기는 그냥 대충 넘어가기로 하고... ㅡ_ㅡ;; )

Teaching dialogue pairs to Simsimi
말이 다른 쪽으로 엄청 길어졌지만, (인터넷을 검색해보니) 2003년부터 그 흔적을 찾아볼 수 있는 "심심이"는 바로 이런 대사-응답 쌍의 학습을 인터넷을 통해서 공개적으로 수행하는 방식으로 많은 관심을 끌었다. 처음에는 MSN 메신저의 자동대화 시스템이었다가, 2006년 후부터는 휴대폰 문자메시지 SMS를 통한 사업모델을 찾아서 오늘날까지 이어오고 있다. 특히 "이모/삼촌들이 심심이에게 말을 가르쳐주세요"라는 컨셉은 참 서비스의 본질을 적절하게 녹인 마케팅 방법이었다고 생각한다.

당연히 서비스가 오픈되지마자 불거진 사용자들의 오용 - 음담패설이나 욕설을 심심이에게 "가르치거나" 하는 - 을 막기 위해서, 현재의 심심이 사이트는 잘못된 대사-응답 쌍을 판단하게 하는 "재판소" 시스템을 만들어, 대화 학습은 물론 그 moderation까지도 네티즌에 의해 이루어지도록 하고 있다. 게다가 최근 시작한 듯한 "대화하기 2-1" 이라는 게임스러운 서비스는 아무래도 ESP Game의 아이디어를 따온 듯 한데, 아무래도 회원가입이 안 되니 확인할 길이 없다. ^^;;

Dialogue Training Game for Simsimi
Image Tagging Game (ESP Game)


심심이는 작게 시작해서 참 끈질기게도 (ㅈㅅ) 명맥을 유지하고 있는 서비스인 동시에, 개인적으로는 매우 훌륭한 '공개적 대화시스템 구축 사례'라고 생각한다.


(4) ChaCha
ChaCha, Human-powered Search Engine
ChaCha at its BETA
원래 "human-powered search engine" 이라는 이름으로 베타서비스를 시작했던 "차차"라는 서비스는, 이제 모바일 서비스 중심으로 방향을 바꾼 것 같다. 검색을 전문으로 하는 많은 사람들을 연결해서 사용자가 원하는 답을 준다는 점은 처음의 취지와 같지만, 초창기 채팅을 통해서 원하는 검색 내용을 확인한 후 정확한 검색 결과 하나를 제시하겠다는 것과 달리 SMS 문자메시지로 받은 질문에 대한 검색결과를 SMS로 답해주는 방식으로 모바일 시장을 겨냥하고 있다. (물론 PC 앞에 앉아있는 사람들은 자신이 직접 검색하는 편이 더 직성이 풀릴테니까, 굳이 채팅을 하고 시간을 보내야 할 필요가 없겠다.)

How ChaCha Works... or Fails.
결국 이 서비스는 대화의 입출력도 인공지능도 사람이 대신하는 셈인데, 그러다보니 불성실한 응답자도 있는 모양이다. 운영사에서는 질문 하나에 답하는 데 20센트씩을 제공한다고 하는데, 대답의 만족도를 평가할 수 있는 (돈이 들지 않는) 방법이 주어지지 않는다면 장기적인 서비스는 곤란할 듯 하다.


(5) 엠톡
mTalk, Human-powered Dialogue Service

최근에 출퇴근 버스에 광고를 실으면서 내 관심의 대상이 된 "엠톡" 서비스는, 앞서 말한 ChaCha와 같은 개념의 서비스라고 할 수 있겠다. 광고의 내용만 보자면 "아무거나 물어보면 아무거나 대답해준다"는 컨셉은 그대로인 것 같지만, 사실 응답해주는 대상을 이렇게 헐벗은 젊은 여성으로 상정하고 있는 걸 보면 솔직히 성인전화방 대화 서비스의 사업확장으로 생각하고 있는 건 아닌지 심히 우려가 된다.
Print Ad of mTalk, in the Bus
Print Ad of mTalk, in the Bus


그게 이 "인공지능 대체 기술"의 한국적 사업모델이라면 어쩔 수 없겠지만, -_-;; 그래도 기왕이면 ChaCha의 그것처럼 네이버 지식인을 언제 어디서나 찾아서 요약해서 보내드립니다~라든가 하는 정보 서비스의 탈을 써주면 안 되겠니?


(6) Jott
Jott.com, a dictation service

이 영단어는 참 민망스런 발음 때문에 자주 쓰이지 않아서 다행이다 싶었는데, "Jott"이라는 서비스가 대놓고 시작하는 바람에 좀 자주 보게 될지도 모르겠다. ;ㅁ;

문자입력이 얼마나 어려운지는 몰라도, 이 서비스는 그걸 대신해줌으로써 인생을 쉽게 만들어준다는 게 모토인 듯 하다. 사용법에 대해서는 저어기 맨 위의 David Pogue의 컬럼에 붙은 동영상에서 잘 보여주고 있지만, 전화를 걸어 메모해 두고 싶은 내용이나 보내고 싶은 메시지를 말하면, 저쪽에서 그 내용을 누군가 받아적어서 텍스트 메시지나 이메일 등으로 보내준다는 컨셉이다. (아마 그 받아적는 누군가는 인도에나 필리핀에 앉아있을지도 모른다)

Jott: “Who do you want to Jott?”
Caller: “Myself.”
Jott: “Jott yourself.”
Caller: “Great idea for Act 2! Doing the laundry, Minna finds lipstick on her husband’s collar and sues the detergent company.”

Jott for iPhone -_-;;;
이 서비스는 특히 iPhone을 위한 전용 프로그램까지 제공하고 있는데, 이 경우엔 녹음 메시지를 데이터 통신망으로 보내고 받아 적어져서 돌아온 내용을 관리하는 기능까지 포함하고 있다.

직접 노트를 적거나 메시지를 쓰지 않고, 전화요금을 써가면서 다른 사람(기계나 시스템으로 치부한다 쳐도)에게 받아적게 한다는 것은 왠지 쉽게 이해가지 않는 사업모델이지만, 중세 유럽에서 편지나 책을 받아적는 직업이 존재했다거나 특별한 상황에서는 문자입력이 쉽지 않을 수 있다거나 하는 걸 생각해 보면 (아주 좁지만) 나름의 니즈는 있을 것 같기도 하다.


(7) ReQall
ReQall, dictating reminder service
이외에도  David Pogue의 컬럼에서는 "ReQall"이라는, "Jott"와 거의 동일하지만 알림 시간이 포함된 reminder 중심의 서비스도 언급되고 있다. 하지만 ReQall이나 Jott이나 대화라기보다는 일반적인 내용 전달과 받아적기 dictation 에 대한 것이므로 사실 내 관심사인 "대화"의 개념과는 다소 거리가 있다. 그러니 그냥 링크만 걸어놓고 통과. (아, 그런데 ReQall도 iPhone application을 제공한다! 이 방식인 사용자로 하여금 전화요금 부담을 덜 느끼게 한다고 생각하는 듯.)



... 언제나 그렇지만, 이렇게 모아놓고 정리하다보니 또 제풀에 지쳐버렸다. 그래서 급 마무리. ㅡ_ㅡ;;; 어차피 최근에 자꾸 눈에 밟히는 서비스가 자꾸 쌓여서, 한데 모아놓고 싶었을 뿐이다. (먼산 '-')y~oO
신고
Posted by Stan1ey

GUI 위주의 UI를 하다가 Voice UI를 접하게 되면, 가장 친숙하게 다가오는 게 바로 persona라는 개념이다. VUI의 다른 측면들은 대부분 음성대화에 대한 분석과 조합에 대한 것이고, 입출력 기술의 제약조건과 그에 따르는 생소한 설계 지침이나 tip들은 아무래도 시각적인 것이 없어서 거리감이 느껴지게 마련이다.

그에 비해서 이 persona라는 것은 그 구축 방법에서부터 어떤 사람의 모습을 상정하기 때문에 뭔가 사진이라도 하나 띄워놓을 수 있고, 기존의 UI 디자인에서도 Persona 구축을 통한 사용자 상(像)의 공감대 형성이 하나의 방법론으로서 인기가 있기 때문에 언뜻 "아, 이건 아는 거야!" 라고 접근할 수 있는 거다. (상품기획이나 UI.. 혹은 다른 종류의 디자인을 위한 Persona 방법론은 Alan Cooper에 의해 주창되었지만, 그 내용에 대한 상세한 설명은 <The Persona Lifecycle>이라는 책에 더 잘 기술되어 있다.)

하지만 일반적인 UI 디자인에서 말하는 persona가 잠재적인 사용자의 대표상을 뜻하는 것과 완전히 반대로, VUI 디자인에서의 persona는 시스템의 '목소리'를 내는 시스템의 대표상을 뜻한다. VUI 식으로 말해서 persona 디자인은, 설계자가 서비스에 부여하고 싶은 사회적인 이미지 - 종종 선입견을 포함한 - 혹은 사용자들의 사용 맥락에 적합한 분위기 등을 고려해서 이루어진다. 동시에 사용자가 해당 서비스에 대해서 가지고 있는 이미지, 즉 mental model과의 차이를 되도록 줄이거나, 적절한 소개를 거쳐 보다 시스템 설계의 의도에 맞는 것으로 유도하는 것도 중요한 설계 요소의 하나이다. (VUI 디자인에서의 Persona에 대해서는 VUI에 대한 최초의 균형 잡힌 책인 <Voice User Interface Design>을 참조할 것)

Example of VUI Persona

Example of VUI Persona: by Michael Cohen (SpeechTEK, 2004)


재미있는 것은, 위 문단에서 "persona"라는 단어를 그냥 "UI"라고 바꾸면, 기존의 UI 디자인의 개념과 여러가지 측면이 중첩된다는 거다. 아마도 그런 이유 때문에 - 일단 기존 UI와 VUI에서 단어의 정의가 다르다는 걸 이해하고 나면 - VUI의 persona가 접근하기 쉬운 것이라고 생각한다. Persona 구축이 VUI에서 중요하기는 하지만, 전체적으로 볼 때 그것은 VUI에 대한 모호한 컨셉을 잡는 것에 불과하고 이를 구체화하는 실질적인 설계 작업은 여전히 뛰어넘어야 할 장벽이 있는 것은 유념해 둘 만하다.

참고로...
사용자 삽입 이미지
UI, 아니, HTI 업계에 처음으로 "persona"라는 단어를 소개한 것도 사실은 공감대 형성도구로서의 방법론으로서가 아니라, conver-sational agent 의 실험적 사례로서였다. 얼마전에 불평을 늘어놓았던 Microsoft Agent의 기원이 된 "Persona Project"가 그 주인공인데, 그건 뭐 담에 또 기가 뻗치면 한번 정리해봐야 겠다. 어쨌든 이제까지 UI/HTI에 세 번에 걸쳐 불어왔던 persona 개념은 그때 그때 다르긴 했지만, 그 각각의 개념들이 UI 디자인에 미친 영향은 이래저래 적지 않았던 것 같다.



오케이. 그럼 이제 본론으로 들어가자. (또냐!!!)

휴대폰에 들어간 음성 기능은 주로 음성인식에 대한 것이어서, 사용자에게는 '어디 있는지도 모르지만, 찾아도 눌릴지 안 눌릴지 모르는 버튼의 대용품' 정도로 다가왔다. VUI라든가 기계와의 대화라든가 하는 거창한 비전이 아닌 단순한(?) 음성입력 기능이었던 것이다. 그에 비해서 네비게이션은 구태의연한 버튼과 터치스크린 입력을 사용했지만, 음성합성(가장 기본적인 수준의) 중심으로 정보를 제공하기 때문에 사용자에게는 '끊임없이 말을 거는', 좀더 VUI의 모습에 가까운 모습으로 각인되어 왔다. 내 말을 알아듣는 기계보다, 뭔가 자신의 말을 하는 기계가 더 기특하고 인간다워 보이는 것일까.

우리나라의 네비게이션은 여기에 여러가지 목소리(남성/여성/아기/... 그리고 몇 명의 인기 연예인들)를 포함시키는 방식으로 VUI의 'persona'를 다양하게 반영시켰다. 대부분의 너무 개성이 강한 목소리에 쉽게 질리긴 했지만, 사람들은 각자 나름의 방식으로 그 변화무쌍한 수다쟁이를 좋아하고 있다.

앞에서 VUI 디자인에 있어서 persona를 구축하는 게 중요하다고 말했던 것과는 반대의 이야기다. 물론 "튜닝의 끝은 순정이다"는 말처럼 결국 많은 사용자들이 기본 음성을 사용하는 걸 보면, 그 기본 음성의 persona 만큼은 중요하다고 말할 수도 있겠다. 이랬다가 저랬다가... 정말 persona를 잘 구축하는 게 VUI에 있어서 중요할까? 아니면 그냥 여러가지 persona (=목소리)를 제공해서 선택하게 하는 게 좋은 방향일까?


유럽의 신생 업체에서, 기존 네비게이션에 자신의 (혹은 친구/가족/연인의) 목소리를 녹음해서 넣을 수 있는 서비스를 시작했다고 한다. 별도의 회사에서 이런 서비스를 한다는 사업 모델에 대해선 다소 의구심이 들지만, 뭐 어쨋든 흥미로운 시도인 것은 사실이다. 특히 자신의 목소리를 웹에서 녹음해서 누군가의 네비게이션으로 선물할 수 있다는 건데, 그런 친구나 가족의 목소리가 연예인의 목소리보다 더 듣기가 좋거나... 최소한 쉽게 질리지는 않을런지 모르겠다. 미국에서 본 네비게이션에도 2~3가지 목소리가 제공되고 있었지만 연예인 목소리 같은 건 없었는데, (헐리웃 스타의 몸값을 생각해보면 뭐 ㅡ_ㅡ;; ) 또 이런 식의 customization 방법을 제공하는 것도 나름 재미있다 싶다.

VUI 블로그에서는 이 서비스를 소개하면서, "Forget about Persona!"라고까지 하고 있다. 한편 일리있는 일갈이기는 하지만, 처음 말했듯이 persona가 GUI의 시각적 컨셉과 같은 위치에 있다면, 이 말은 곧 UI를 설계하는 데 있어서 상위의 개념적인 방향을 잡는 것은 오히려 사용자에게 맡기고, 사용자가 원하는 그 컨셉이 제대로 움직이도록 체계를 잡는 것만 남는다는 소리가 된다. 좀 억지스럽긴 하지만.

오랫동안 슬금슬금 바뀌고 있는 디자이너의 역할과 더불어서, 이런 서비스가 개시되었다는 것, 그리고 VUI에 열정을 가진 사람이 그 방향타를 놓는 거에 거부감을 가질 수 없게 되었다는 것이 VUI 뿐만 아니라 디지털 서비스 모든 분야에 걸친 일반적 의미의 UI 전체 흐름과도 무관하지 않은 것 같아 주절주절 적어 보았다.

신고
Posted by Stan1ey

이번 CES 2008 행사는 왠지 큰 UI 이슈 없이 지나가는 것 같다. 전례없이 크고 얇은 디스플레이 장치가 등장하기도 하고, 온갖 규약의 온갖 네트워크 장비가 등장해서 Ubicomp 세상을 비로서 당당하게 열어젖히고 있기는 하지만, 딱이 UI라고 할 수 있는 건 그다지... 자주 가는 웹사이트들에서 파악하기로는, 일전에도 언급했던 Motorola E8공식 발표되었다는 것 정도가 그나마 관심이 있달까.

[○] 참고 동영상: MotoROKR E8


그러다가, 며칠 전 있었던 Bill Gates의 기조연설이 Microsoft에서 은퇴하는 그의 마지막 기조연설이었고, 그걸 나름 기념하기 위해서 아주 재미있는 동영상이 하나 소개된 걸 알게 됐다.



ㅋㅋㅋ... 재미있는 동영상이다. 이제까지는 좀처럼 스스로를 우스개꺼리로 삼지 않던 빌 게이츠답지 않은, 구석구석 장난끼가 가득한 동영상이다. (물론 잡스가 만들었다면 더 지능적으로 재미있었겠고, 이렇게 보란듯이 화려한 캐스팅을 하지는 않았겠지만;;;) 그런데 이 웃기는 동영상에, 아주 잠깐 눈물이 핑 도는 순간이 있었다. ... 조금 과장하자면. ㅡ_ㅡ;;

빌 게이츠가 늘 창조적인 자세를 강조했다는 것을 반어적으로 비아냥 거리는 인터뷰 내용이다:
   "[7:00] Oh, absolutely. Microsoft Bob? His idea, all his."
젠장. 이건 두고두고 욕 먹는구나. -_-;;;

Microsoft Bob이라는, 1995년 영국에서만 발매되었다가 순식간에 사라져버린 소프트웨어를 아는 사람은 그다지 많지 않을 거다. UI 수준에서 (사실은 중간에 삽입된 shell 개념이었지만) 대화형 에이전트(conversational agent; 사실은 클릭과 검색으로 이루어진 대화였지만)를 구현한 최초의 상용화 사례이고, Microsoft의 대표적인 실패 사례이며, 무엇보다 그 이후에 의인화된 에이전트 캐릭터를 이용한 Social UI (CSCW와의 선긋기는 다음 기회에) 연구를 완전히 고사시켜 버린 계기가 되었다.

Home Screen of Microsoft Bob

Microsoft Bob (1995)


언젠가 조사했던 바로는 빌 게이츠보다는 그 부인의 아이디어와 사업이었다고 들었지만, 뭐 그거야 이런 상황에서 좀 뒤집어 쓸 수도 있는 문제니까 넘어가기로 하고, 그동안 실패했던 그 수많은 아이템 - Windows ME 라든가 - 중에서 가장 대표적인 '삑사리 창의성'의 사례가 잘 알려지지도 않은 MS Bob이라니 정말 Social UI를 두번 죽이는 짓이다. 에흉. MS Bob을 아는 사람들은 그 다음부터는 절대 대화형 에이전트나 의인화된 에이전트 캐릭터를 UI에 적용하는 것에 대해서 "사례를 들어" 반대하기 시작했으니까.
Microsoft Office Assistant - Clippy

물론 Bob 이후에도 Microsoft 제품에는 Office Assistant 라든가 (속칭 Clippy로 알려진) 하는 꾸준한(?) Social UI 시도가 있었지만, 불행히도 꼬박꼬박 실패하고 욕까지 챙겨먹는 성실함을 보여왔다. 그런 시도 하나하나가 죄다 나쁜 사례가 되어서 오히려 '나름대로 UI에 관심 있는 사람들'에게는 어떤 확신같은 걸 심어주게 됐고.

심지어...

1998년 어느 소프트웨어 개발자 회의에서 Clippy를 공개적으로 처형시키는 행사가 있기도 했고,

2001년 발매된 MS Office XP는 eX-Paperclip 이라는 '일련의' 플래쉬 동영상 광고 (1, 2, 3)를 별도의 웹사이트에 올려 office assistant가 없음을 대대적으로 홍보하기도 했으며,

심지어 2007년 MS Office 2007의 발매 후에는 Clippy를 흔적마저 없애버린 Office 2007가 얼마나 좋은가에 대한 인터뷰가 이루어지기도 했다.



... 이건 마치 '공공의 적'과 같은 취급이라고 하겠다. MS Bob과 Clippy는 오늘날 우리가 보는 Robot에 대한 vision과 같이 누구나 생각하고 꿈꾸고 있는 vision을 선도적으로 구현한 사례이고, 그에 대한 credit은 충분히 받아야 한다고 생각한다. 이 앞서나간 대화형 에이전트의 공공연한 실패는 그 개념이 잘못 되었다기보다 당시의 기술(검색, 언어처리, 연산/기억장치의 역량 등)에 기인했다고 볼 수도 있을텐데, '나름대로 UI에 관심 있는 사람들'과 가끔은 UI 전문가들조차도 대화형 에이전트는 실패라고 말하는 것을 종종 듣게 된다.

그렇다면, 대화형 에이전트(S/W)보다 훨씬 더 기술적으로 구현이 어려운 로봇(H/W)의 실패사례가 매년 수십건씩 등장하고 있는 지금, 왜 로봇은 UI적으로 실패사례가 될 것이라고 말하지 않는가? 로봇은 Clippy가 가지고 있었던 모든 나쁜 습성을 가지고 있고, 게다가 물리적인 공간을 차지하고 움직여대는 통에 그 정도는 훨씬 심각할 게 분명하다. 게다가 그 다양한 사용맥락 하에서 수많은 사용 상의 변수에 모두 대응할 수 없을테니, 오판단이나 오작동이 S/W보다 많을 거라는 건 뻔한 일 아닌가. "대세"가 그렇기 때문이라는 것 외에 어떤 설명으로 이 로봇에의 열정(?)을 설명할 수 있는지 궁금할 따름이다.

참고로 나도 사실은 로봇이 가져올 세상의 변화와, UI 전문가로서 Robot UI 혹은 HRI가 열어줄 새로운 시각에 관심과 애정을 가지고 있는 사람이다. 아마도 로봇은, 당분간은, 여러번 실패하고 몇가지 작은 성공을 거두어 새로운 세상을 열지도 모른다. 하지만 적어도 대화형 에이전트가 겪었던 것처럼 아는 자들의 '대세'에 휩쓸려 혐오스러운 실패사례로 몰아붙여져 다시는 기회를 갖게되지 않는 사태는 없기를 바란다.


그리고 이왕이면, 대화형 에이전트를 연구하는 사람들 중에서 앞서 간 사람들이 미처 생각하지 못한 대화형 에이전트의 올바른 짝을 찾는 사람이 있어 이제는 정말 죽어버렸다고 말할 수 있는 Social UI 연구를 다시 볼 수 있도록 해준다면 그건 정말 더할 나위가 없겠다.

신고
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.