Voice Search in Korean

2010.06.20 01:46
지지난 주에 다음 커뮤니케이션에서 아이폰용 Daum 앱에 음성검색 기능을 포함시켰다기에 이게 웬일이냐..하고 있는데, 지난 주에는 구글 코리아에서도 모바일 음성검색의 한국어 버전이 안드로이드 앱으로 (아이폰용도 업데이트할 예정) 발표되고, NHN에서도 올해 안에 음성검색 모바일앱을 내놓겠다고 한다.

Daum Voice Search on iPhone AppGoogle Voice Search in Korean on Android App

누가 먼저 시작했는지는 모르겠지만, 이 일련의 음성검색 발표 러쉬에는 업계의 경쟁심리가 작용했을 것이다. 그렇지만 다음도 일찌감치 음성인식 앱을 준비하고 있음을 홍보한 적이 있고, 구글 음성검색이야 진작에 출시되어 있었던 만큼 준비들은 오래전부터 해왔을 테고, 그래선지 음성인식의 적확률에 대해서도 다음의 앱이나 구글의 앱이나 기대 이상이라는 반응이다. 특히 안드로이드 OS는 초창기부터 음성인식을 위한 고려가 포함되어 있을 정도였으니까.

일전에도 구글 음성검색의 두번째 언어가 중국어가 됐다는 소식을 전하면서 한국어는 몇번째로 구현이 될지 궁금해 한 적이 있는데, 결국 예상한 대로 프랑스어가 사용자가 상대적으로 많은 한국어보다 먼저 구현이 되었고, 한국어는 8번째로 구현된 언어라고 한다. 뭐 솔직히 생각보다는 빨리 구현해 줬다. -_-a;;

다음과 구글의 음성검색 기능에서 Voice UI를 비교해 보려고 했지만, 우리나라 앱을 설치할 수 있는 안드로이드 폰을 구할 방법이 없어서 통과. 그리고 나름대로의 방법으로 이미 이 둘을 비교한 기사는 이미 올라와 있다.

Speech Recognition Result 1, Daum Voice SearchSpeech Recognition Result 2, Daum Voice SearchSpeech Recognition Result 2, Daum Voice Search

아이폰용으로 우선 출시된 Daum 앱의 경우, 음성인식 결과는 기본 설정에서는 바로 검색결과를 보여주며, 그와 함께 "음성인식결과 더보기" 기능을 통해서 N-Best 결과를 추가로 볼 수 있게 되어 있다. 보다 일반적인 방식으로 음성인식 결과의 대안들을 먼저 보고나서 그 중에서 인터넷을 검색할 어휘를 선택하려면, "설정" 메뉴에서 "음성인식 결과보기" 옵션을 켜면 위의 오른쪽 그림과 같이 다섯가지 대안결과가 팝업창으로 나타나고 원하는 결과가 없을 경우 바로 재시도할 수 있다.

음성인식의 오인식 확률을 생각하면 보다 전통적인 후자의 방식이 기본으로 제공돼야 한다고 해야 하겠다. 배경잡음이 없는 상태에서의 인식률은 상당한 편일지 몰라도, 인식이 잘 되던 구절을 몇가지 소음환경(화이트 노이즈, 배경음성 등)에서 똑같이 시도했을 때에는 여전히 인식이 거의 되지 않았고, 그런 상황에서 바로 음성입력을 다시 할 수 있도록 해주는 것은 중요한 기능이기 때문이다. 하지만 사실 그러면 또 음성인식의 가장 큰 문제를 부각시키는 모양새가 될테니 어쩔 수 없다고 할까.



이래저래 다루기 쉽지 않은 음성인식 서비스를 출시하려니 고심이 많았다는 건 그렇다고 해도, 역시 Voice UI 관점에선 아쉬운 점이 눈에 띄지 않을 수 없다.

No Network Error in Daum Voice Search
우선 두 회사 모두 모바일 기기에서는 입력된 음성 데이터에서 비교를 위한 특징만을 찾아 보내고 음성인식 기능 자체는 고성능/대용량/실시간 서버에 맡기는, 분산 인식 방식을 채용하고 있다. 일전에 구글의 음성인식을 써봤을 때도, 또 이번 다음 앱의 경우에도 인터넷 연결이 안 될 경우엔 기능 자체가 실행되지 않는다. 비록 사용에 제한이 따르고 경우에 따라 통신요금까지 부과되는 형식이긴 하지만, 음성인식의 성능을 위해서는 어쩔 수 없는 선택이라고 생각한다. 그렇지만 분산인식을 선택한 경우에는 또 그 나름의 장점이 있을 수 있는데, 그걸 제대로 살리고 있는지는 잘 모르겠다.

Input Too Loud Error in Daum Voice Search
Daum 음성검색을 사용해 보다가 발견한 왼쪽 오류창은, 음성입력이 너무 클 경우 서버에 데이터를 보내기 이전에 나오는 장면이다. 이렇게 전처리 과정이 모바일 모듈 안에 있다면, 사실 할 수 있는 일이 좀 더 많을 것이다. 잘못된 음성인식 결과를 단순히 출력하거나 실제로는 별 의미 없는 "검색어를 말할 때 정확히 발음하여 주세요" 같은 안내문을 보여주기 보다, 음성 명령어 구간을 판정하는 EPD 작업 후에 배경소음과 음성명령어를 비교해서 "조용한 곳에서 인식이 더 잘 됩니다"라든가, "주변 사람들의 이야기하지 않을 때 더 잘 됩니다"라든가, "조금 더 큰 소리로 말씀해 주세요" 등의 안내문을 '상황에 맞게' 보여줄 수 있기 때문이다.

실제로 이런 방식을 적용했을 때, 이런 오류가 비록 정확하게 선택될 수는 없더라도 어느 정도 임의로 출력했을 경우 최종 인식률과 사용자의 만족도에는 큰 차이가 있었다. 인간과 같이 말을 알아들으면서도 사실은 스위치만큼이나 멍청해 보이는 장치가 아니라, 음성인식이라는 범주 안에서는 어느 정도 의사소통이 되는 상대방으로 인정받게 되는 것이다. 음성인식이라고 하면 그 인식엔진 안에서 일어나는 UI 디자인과 관련없는 일로서만 여기게 되지만, Voice UI 설계의 관점에서 주변 데이터에도 좀더 관심을 갖고 해당 기능을 사용하는 정황을 좀더 고민했다면 좋지 않았을까 하는 아쉬움이 든다.


또 하나 언급해둘 만한 것은, 음성인식 기능을 여전히 다른 GUI기반 기능과 동떨어진, 그냥 장식적인 feature로만 생각하고 있는 것 같다는 점이다. 음성인식은 제대로 동작할 경우, 키보드 입력을 대체하거나 최소한 보완할 수 있는 도구이다. 위에 링크한 기사들에서도 하나같이 비슷한 이야기들은 하고 있지만, 사실 판에 박힌 음성인식기술의 홍보문구 이상도 이하도 아니다. 그 관점을 실제로 UI 디자인에 적용한다면 어떻게 될까.



이를테면, 위 HTC의 Voice UI에서처럼 키보드와 음성인식을 대등하게 다루고, 키보드 입력을 하려다가 음성인식을 하거나, 음성인식이 실패할 경우 바로 키보드를 통해 보완할 수 있도록 하면 될 것이다. 아이폰이나 안드로이드나 앱에서 OS의 기본 키보드 위에 버튼을 추가할 수 있게 되어 있는데, 이미 좋은 선례가 있음에도 불구하고 이러한 관점을 살리지 못한 부분은 아쉬운 일이다.

... 그나저나 위 동영상에서는 단순히 검색어 몇 음절을 인식하는 수준이 아니라 받아쓰기 dictation 수준의 음성인식 기술을 보여주고 있는데, 이 놀라운(!) 기술수준의 차이에 대해서는 일단 넘어가기로 하자. UFO라도 주웠나보지 뭐.



뭐 어쨋든 간에, 몇차례의 뼈저린 실패에도 불구하고 슬금슬금 다시 고개를 들기 시작한 음성인식 기술이 이번에는 제법 주목을 받고 있다. 이 기회에 제대로 된 Voice UI 디자인에 대한 관심도 좀 생겼으면 좋겠는데, 적어도 결과물만으로 판단하기에는 아직 쉽지 않은 모양. 하지만 언제나 그렇듯이 또 이러다가 눈 깜박하는 순간에 주류가 되어 당연시되거나, 아니면 흔적도 없이 사라져 버리겠지.

외유 중인 인간은 굿이나 보고 떡이나 먹기로 하겠다. 이기는 편 우리 편! =8-P
저작자 표시 비영리 변경 금지
신고
Posted by Stan1ey
이 프로젝트가 드디어 iPhone App으로 출시가 되었다. 무료.



여기에 대해서 뭐라뭐라 글을 쓰기엔, 내가 요새 좀 지쳤다. 아니 굳이 그렇지 않더라도, 십년도 더 된 일이니 이제 와서 키보드를 두드리기가 민망하다고 하는 게 올바른 고백이겠다. :$

Siri VPD Website

그러니 그냥 동영상이나 하나 더 올리고 마무리.



보란듯이 잘 됐으면 좋겠다. 현실적으로 문제가 없지 않겠지만, 그래도 이젠 슬슬 꿈꾼 보람이 있어야 하지 않을까.

나도 한 우물 열심히 파면서 살아야 하는데, 어느새 여기까지 와 버린 건가... ;d
신고
Posted by Stan1ey

Emotional AI

2009.08.08 01:55
처음 회사생활을 시작해서 건드렸던 게 MS Agent 2.0 엔진을 이용한 대화형 에이전트를 만드는 거 였다. Visual Basic Script와 JavaScript를 혼합해서 인터넷 익스플로러와 넷스케이프에 연동하고 다른 프로그램에 연동하고 해 가면서, 주어진 과제 - 실제로는 완전하게 동작하지 않는 "사람과 대화하는 컴퓨터"를 그럴 듯 하는 게 구현하는 것 - 를 어떻게든 해보려고 노력했다. 그때는 그렇게 10년동안 연구하면 그 '그럴 듯한' 시스템이 실제로 만들어질 줄 알았지만, 10년이 지난 지금도 그 시스템을 만들려면 비슷한 수준의 인공지능과, 비슷한 수준의 구라를 조합해야 할 게다.

Microsoft Agent: James the Butler
당시 사용했던 MS Agent 모델 James

어쨋든 당시에는 거의 이론적인 수준으로만 존재했던 대화모델을 어떻게든 실재하는 것처럼 만들기 위해서 처음에는 이런저런 대사DB를 고심했지만, 결국 무슨 말을 하면 무슨 응답을 한다는 하나하나의 대응쌍(adjacent pair)이 밝혀지고 나면 전체 대화모델이 얼마나 방대한지와 상관없이 그 시스템은 뻔한 '바보'가 되어 버렸다. 지능의 수준은 그 지식의 정도가 아니라, 입출력의 패턴에 따라서 판정되었던 것이다. 인간이라면 대화 속의 미묘한 맥락이나 상대방 혹은 주변의 눈치를 살피며 그때그때 다르게 응답하겠지만, 당장 컴퓨터는 입력된 그런 입력이 제한되어 있는 것이다.

그래서 장난을 친 것이, 그냥 출력되는 대사를 여러가지 준비해서 그 중 아무거나 임의로 출력하도록 하되, 소극적으로 같은 내용을 다른 말로 바꾼 것뿐만 아니라 아예 다양한 내용으로 말을 만들었다. 이를테면 당시 사용했던 음성인식 엔진은 음성인식에 실패했을 때 그게 소음 때문인지 화자의 발성 때문인지를 확인할 수 없었는데, 오류 메시지는 "잘 안 들리네요. 주위 분들 조금만 조용히 해 주시겠습니까"와 "조금 더 또박또박 말씀해 주세요"를 몇가지 다른 말로 바꾸어 내보낸 것이다.

... 물론 이건 대화모델이나 음성인식을 연구하던 분들에 비하면 말 그대로 장난에 불과했지만, 그에 대한 사람들의 반응은 개인적으로 무척 인상에 남았다. 모두 합쳐봐야 예닐곱개 정도의 메시지를 임의로 뿌린 것 같은데, 사람들은 그걸 들으면서 이전보다 훨씬 더 자연스러운 대화가 가능해졌다고 느끼는 것이다.

한편으로는 그냥 재미있는 기억이기도 했지만, 비슷한 시기에 만들었던 대화형 홈페이지와 맞물려서 '과연 인공지능이라는 게 만들 필요가 있을까? 그냥 그럴싸하게 대꾸하면 사람이 낚여서 인공지능으로 여기는 거 아닐까?' 라는 고민을 하게 만들었던 기억이다.



얼마전 게임 관련 잡지인 <Develop>을 뒤적이다가, 전에 언급한 Project Natal 관련기사에서 재미있는 대목을 찾았다. Milo라는 야심(?) 넘치는(말그대로!) 프로젝트를 소개했던 Lionhead Studio 담당자와의 인터뷰다. 이 인터뷰에서는 뒷부분에 소위 "Emotional AI"라는 개념을 소개하고 있는데, 저 위에 폰카로 찍은 인용구 부분이 간단한 정리라고 하겠다.

Emotional AI: interview from Develop Magazine

다른 게임들과 비교해서 크게 차이가 나는지는 모르겠지만, 인터뷰 내용에 따르면 이제까지 Lionhead에서 만든 게임에 들어간 AI는 조금씩 발전을 거듭해 왔고, 그 결정판이 Milo에 들어갈 예정이라고 한다. 거기에 들어간 AI가 바로 "emotional AI"인데, 그 내용이 위와 같은 것이다.

"Emotional AI isn't real AI - you couldn't write a paper about it. It's how you use weak learning to make people think something is going on there."

관련해서 검색해 보니 이번 뿐만 아니라 몇번이나 언급한 개념인 모양이고, 다른 회사에서도 미들웨어를 개발한다고 나서기도 했다. 대놓고 사용자를 현혹시키기 위한 프로그램을 개발하고, 게다가 이름을 붙여 홍보까지 하다니... 게임 업계란 가끔 UI 쟁이에게 도의적인 갈등을 느끼게 한다. 특히 실제로 AI를 연구한 분들이 본다면 경을 칠 노릇이지만, 사실 인공지능 학계 내부적으로도 "안 되는 분야"라고 인정하고 있는 분위기에서 이런 식으로라도 실용화를 향한 명맥을 유지할 수 있다면 오히려 다행일지도.

그나저나 저 Emotional AI라는 분야, 그냥 뻔한 변수들의 조합에 랜덤함수만 열심히 넣은 게 아니었으면 좋겠는데. 실제로 Milo가 나와준다면 - 비록 내 허접한 영어발음은 못 알아듣더라도 - 얼마나 끝내주겠냐는 말이다.
신고
Posted by Stan1ey
얼마전에 올라온 것 같은 이 MS Office 2010 홍보 동영상을 이제서야 보게 됐다.



비교적 열성과 전문성이 보이는 홈페이지 내용에 비해서, 이 동영상은 마치 고등학생들이 만든 프로젝트 영상 같달까... 어중간한 프로의식에 일단 흉내는 냈지만 도통 공감이 가지 않는 재치있는(?) 내용들이 거슬린다. 게다가 실제로 의미있는 장면이나 대사는 없고, 그냥 헐리웃 영화 예고편에 대해서 순수하게 풍자하고자 만든 영상이라면 오히려 수긍이 가겠다.


... 사실대로 말하자면, 내 입장에서는 내용이 아주 없지도 않았다.

Rest In Peace, Clippy (1997-2004)
Rest In Peace, Clippy (1997-2004)

비록 실패했지만, 개인적으로 대화형 Human Interface Agent를 적용한 Social UI의 의미있는 시도로 기억하고 있는 Clippy가 주인공(?)의 죽어버린 친구로 나온다. 여기에 따라붙는 대사는 "이제는 그만 잊고 보내줘야해!"라는, 무려 '아픈 과거를 가진 캐릭터' 패턴. 아놔. ㅡ"ㅡ

이건 뭐 한두번도 아니고, 뭔가 울궈먹을 일이 있을 때마다 부관참시하고 있으니 좀비가 되어서 살아나고 싶어도 무서워서 그냥 누워있을 듯.

이러다가 나중에 대화모델링이나 음성인식이나 준자연어 분야의 연구가 갑자기 발전해서 다시 에이전트를 하게 되면 면목 없어서 어쩌려고들 이러는지 모르겠다. 진짜 그쪽은 결국 다다르게 되어 있다니깐.
신고
Posted by Stan1ey
Project NATAL - Sensor Module
미국에서는 E3가 한창이다. 그거 준비한다고 우리 회사에서도 몇명 고생한 것 같고 (UX팀은 그런 신나는 일에서는 아무래도 거리가 있다). E3의 press conference에서 Microsoft가 일전에 인수한 3DV Systems의 2.5D 동작인식 카메라를 넣은 시스템을 "Project NATAL"이라는 이름으로 발표했다. 그런데, 이게 단지 동작인식 뿐만 아니라, 얼굴을 통한 사용자 인증과 음성인식까지 넣어서 "컨트롤러가 필요없음"을 강조하고 있다.



... 이게 이렇게 잘 될 것 같으면 그동안 수많은 영상인식 연구원들이 왜 그 고생을 했게. ㅡ_ㅡ;;;;; 기가 막히게 잘 되는 음성인식은 오히려 그렇다 치고, 장애물이 있어서 카메라에서 보이지 않는데도 동작인식이 되는 모습 같은 건 모델이 된 꼬마가 불쌍할 지경이다.

아니나 다를까, 실제 구동되는 동영상은 이거다.



이런이런. 망신도 이런 망신이 없지 말입니다. *-_-*

뭐, 기술은 분명히 개선의 여지가 있는 것 같고, HTI를 어떻게 설계하느냐에 따라 게임에 훌륭하게 적용될 가능성도 높은 기술인 건 사실이다. 그렇지만 그 수많은 화려한 영상인식 기술데모에도 불구하고 Sony EyeToy가 "특정영역에서 손을 흔들고 있으면 선택됩니다" 라든가 "미친듯이 움직이면 그 움직이는 정도가 플레이에 반영됩니다" 따위의 유치한 방식 밖에 쓰지 못한 데에는 다 이유가 있다는 거다.

Sony EyeToy Gestural Interaction: SelectionSony EyeToy Gestural Interaction: Activity

2.5D 동작인식은 분명 여기에 깊이 정보를 더한다는 장점이 있지만, 여전히 영상인식이 가지고 있는 단점 - 시야각이라든가, 시야각 내의 장애물이라든가, 신호처리에 걸리는 속도라든가, 물체인지의 오류 가능성 등등 - 은 그대로 지니고 있다. 오히려 이론적으로는, 처리해야 할 정보가 늘어나면서 인식 오류의 가능성은 기하급수적으로 높아지게 된다. 위 두번째 동영상에서 보여주는 모습이 바로 그런 현상에 대한 증거가 아닐까.

그리고 무엇보다도 아무 것도 쥐지 않은 빈 손으로 저렇게 손짓발짓하는 것이 플레이어에게 얼마나 허망할지도 큰 문제가 될 것이다. 이미 손에 쥘 컨트롤러를 가지고 있는 Nintendo Wii의 경우에도 그 즉물성(?)을 더하기 위해서 단순한 플라스틱 껍데기에 지나지 않지만 골프채, 테니스채, 운전대, 거기에 총 모양의 모형까지 더하고 있는 걸 봐도 알 수 있지 않을까? 나중에 추가적인 물건을 더할 수도 있겠지만, 그렇다면 "YOU are the controller"라고 장담했던 게 우스워질게다.

말은 이렇게 하지만... 그래도 마이크로소프트의 자본력과 연구원들, 그리고 꿈만 같은 동작인식과 음성인식의 조합인 multimodal interaction이다. 첫번째 동영상에서 게임 캐릭터와의 대화가 그만큼 자연스럽게 가능하리라 생각하진 않지만, 투자가 없던 이 분야에 저만한 회사가 공공연하게 뛰어든다니 그래도 조금은 기대해 보는 것도 나쁘지 않을 것 같다.

--- 이하 다음 날 추가 ---

Lionhead에서도 이 기술을 이용해서 Project Milo라는 것을 발표했다. ... 이건 한 술 더 떠서 인공지능 에이전트까지 추가. 비슷한 데모를 만들어봤던 2001년과 현재 사이에 UFO를 주운 게 아니라면, 이것도 솔직히 조금 실눈을 뜨고 보게 된다. =_= 저만큼 자유도를 주고 나면, 그 다음에 그 뒷감당을 어떻게 하려고...



뭐 일단 캐릭터는 완성된 모양이고(화면은 줄창 3D 모델링 소프트웨어 -_-;; ), 대부분의 시간은 데모 시나리오의 애니메이션에 시간을 썼을 듯. 이제는 인공지능 부분을 개발해야 할텐데, 대화 설계를 무지 잘 해야 할 거다...
신고
Posted by Stan1ey
뭐 이렇게 내 관심사에 딱 맞는 물건이 나온다냐. -_-a;;

Bot Colony Website 090325

이 게임 - Bot Colony - 은 로봇 에이전트를 통해서 게임을 하면서, 그 로봇과 "제한없는 자연어 대화"가 가능하다고 한다. ... 솔직히 100% 믿지는 않지만, 가능한 대화내용보다 대화DB를 벗어날 때의 오류상황에 대해서 더욱 공을 들였다면 뭐 아주 허풍은 아닐 수 있겠다. 특히 요새 게임이야 DVD(4GB가 넘는)를 여러장 사용하기도 할 정도로 용량이 크니까, 음성인식 엔진도 상당한 수준의 것을 사용할 수 있지 않을까나. 출력은 합성음보다는 녹음된 게 품질도 용량도 나을테고.



아직 웹사이트에는 이 게임에서 음성대화가 어떤 조작/대화 기능을 제공하고 그게 게임내용과는 어떻게 연결되는지를 알려주지 않는다. YouTube에 올려놓은 예고편(?)도 그냥 분위기만 잡고 있고 정작 게임은 어떻게 되는 건지... 한번 눈여겨 볼만한 게임인 것 같다. 음성만이 할 수 있는 조작이 나와서 전혀 새로운 재미를 제공하는 게임이 되어 준다면 개인적으로 희망적인 일이 될 것 같은데 말이지...

... 아주.
신고
Posted by Stan1ey

Is VUI Born Evil?

2008.11.22 12:30
도시바에서 새로 나오는 프로젝터에서, 메뉴를 읽어주는 기능을 넣는다고 한다. 좀 생뚱맞기는 하지만, 가끔 화면이 나오지 않는 순간이 있다거나 메뉴가 상하좌우 뒤바뀌어 있는 경우에는 조금 유용할지도 모르겠다. "전구 좀 갈라니까!" 라는 오류메시지도 화면에 출력하는 것보다 주목을 끌 수 있을지도.

Toshiba X200U Projector with VUI

그런데 이 제품의 Voice UI 기능 탑재를 전하는 포털의 자세는 정말 악마의 재래를 전하는 듯 하다. 아직 음성이 어떤 순간에 어떤 어조로 쓰일지가 전혀 알려지지 않은 상황인데, 음성이 들어간다는 것만으로도 MS Office Assistant였던 Clippy와 비교당하고 있는 거다. 게다가 사실 Clippy는 음성UI가 아니다! 화면을 가리고 서서 당당히(?) 대화를 요구한 게 무엇보다 거슬리는 점이었던 건데, 오히려 화면이 아닌 음성을 사용하겠다는 데 이 부당한 처사는 무엇인지 원. ㅠ_ㅠ
신고
Posted by Stan1ey
요새 TV에서 종종 나오는, 좀 우스운 자동차 광고가 있다.



바로 영국 자동차 회사인 Vauxhall에서 판매하는 Corsa라는 이름의 자동차인데, 그냥 봉제인형을 이용했구나...하고 그냥 "C'mon!" 이라는 대목만 무의식적으로 따라하면서 보던 광고다.

그런데, 얼마전 시내의 쇼핑몰에 갔다가, 이런저런 잡동사니를 파는 (대표상품은 각종 축하 카드였던 듯) 가게에서 이런 장면을 봤다.

C'MON Dolls - As Seen on TV, in Vauxhall Ads.

얼래? 흠... 아마 이 인형들이 원래 있던 캐릭터인가 보네... 하고 (속으로 '디자인 취향 참...' 하면서) 지나치려다가, 저 "As Seen on TV"라는 문구가 좀 맘에 걸렸다. 그래서 바로 또 웹서핑 삼매경. ... 요새 좀 심심한 듯.



역시나 인터넷의 누군가가 위키피디아에 잘 정리해 놓은 저 C'MON! 에 대한 이야기관련 홍보자료를 중심으로 간략하게만 정리하자면 이렇다.

C'Mons는 원래 독일의 디자이너 artist(링크주의: 노골적인 성적 표현)가 MTV 광고 캠페인을 위해서 만들어낸 가상의 인형 락 밴드로, 밴드를 설명하는 '가상의' 웹페이지인 C'MON!pedia에 그 배경과 멤버에 대한 설명 - 결국 설정자료 - 을 볼 수 있다. MTV의 공식 웹사이트에는 이 밴드에 대한 온갖 자료가 들어있는데, 열혈 팬들의 인터뷰, 숨겨진 과거와 인기를 얻게 된 배경은 물론 난잡한 -_- 사생활에 대한 폭로까지 포함되어 있다. 이 밴드는 모두 4곡을 음반으로 취입한 듯 한데, "C'mon", "C'mon C'mon", "C'mon C'mon C'mon", 그리고 "C'mon 4"다. ㅡ_ㅡa;;; 그리고 이 곡들은 모두 단순한 가사 - "C'mon!" - 의 반복으로 이루어져 있다. 이 캐릭터들이 젊은이들에게 큰 인기를 끌면서 2006년 영국의 Vauxhall 사에서 신차 "Corsa"를 홍보하기 위한 수단으로 C'mons 밴드를 이용하게 되었다는 것이다. Vauxhall 에서 만든 것으로 보이는 C'mons의 공식 웹사이트도 있으며, 이후 다른 유럽에서도 Corsa를 홍보할 때에는 같은 캐릭터를 사용하는 듯 하다.

C'monPediaC'mon WebsiteC'mon Website

그리고, 내가 봤듯이, 이렇게 캐릭터 상품으로 나와서 팔리고 있는 거다. 자동차 광고를 하라고 내보냈더니 오히려 스스로를 팔고 있는 형국이랄까. ㅡ_ㅡa;;



문화적인 차이가 가장 극명한 것이 대중문화라고 생각하는데, 정말 위에 링크한 웹사이트들의 내용들은 소위 '스타'들을 둘러싼 대중매체와 팬들의 반응을 제대로 비꼬고 있어서, 이런 식의 마케팅 전략이 먹힌다는 것이 황당할 지경이다. 술마시고 길거리에서 스파게티를 토한 모습이라든가, 스트립 클럽에서 옷 벗고 춤 추는 사진이라든가 하는 것은 스타들에게는 큰 흉이고, 특히 이미지를 중시하는 광고 모델에게는 절대로 없어야 하는 결점일 거다. 실제로 이혼을 했다는 이유로 아파트 광고에서 '계약에 따라' 퇴출 당하는 것도 우리나라에선 당연하게 여겨지고 있는 형편이니까. 그런데 사실 C'mons의 다섯 개 캐릭터들은, 하나하나가 그런 사고뭉치들로 그려지고 있으면서도 "사실은 인형"이라는 이유로 오히려 팬이 생기고 광고에 데뷰한다는 현상은 참 흥미롭다. 대중문화 시스템에 대해서 보는 시각이 뭔가 다르다고나 할까.

예전의 글에서 배우는 캐릭터性만을 제공하는 존재로 남고, 실제 연기나 노래는 모두 컴퓨터(CG, TTS)가 하게 될 것이라고 한 적이 있는데, 이 사례를 보니 사실 그렇게 되면 인간 캐릭터의 단점 - 사생활이 난잡하다던가, 뭔가 어처구니 없는 실수를 했다던가 - 을 죄없는 가상 캐릭터가 뒤집어써야 하는 거 아닌가도 싶다. 이렇게 만들어진 캐릭터가 그 '인간적'인 단점에도 불구하고 인기를 끌 수 있다면, 차라리 상업적인 관점에서는 기왕 가상 캐릭터를 쓰는 거 언제 사고칠지 모르는 실제의 캐릭터를 쓰느니 100% 가상의 캐릭터를 만드는 게 훨씬 낫겠다 싶다.

그렇다고 그 캐릭터들에게 100% 프로그램된 행동만을 넣어두는 것도 상품성(?)이 떨어질테고, 결국은 <마크로스 플러스>에 등장했던 100% 가상캐릭터 '샤론 애플'이나 <S1m0ne>에서의 여주인공이 미래 엔터테인먼트의 정답이자 어쩔 수 없는 결말인 건가... 조금 실망인데.

Sharon Apple from Macross PlusSharon Apple from Macross PlusSharon Apple from Macross Plus
Simone from S1m0ne - PosterSimone from S1m0neSimone from S1m0ne
신고
Posted by Stan1ey
이 블로그 최초의, 해외 특파원 소식이다. -_-;;;

출장 와서 동료들과 함께 아침을 먹으면서 (1인당 하나씩 시키기엔 양이 너무 많았다 -_-a ) 영국 TV를 보는데, 재미있는 걸 발견해서 이야깃꺼리가 됐다. BBC UK TV 와 Channel 4+1, E4+1 채널 중 몇 군데에서 청각장애인을 위한 수화를 뉴스나 드라마, 심지어 쇼프로에 이르기까지 제공해 주는데, 우리나라처럼 화면 한쪽에 동그란 영역을 따로 설정한 게 아니라 수화 narrator가 화면에 포함되어 있는 형태인 것이다. 게다가 특이한 것은, 대사가 없을 경우에도 배꼽에 손을 얹고 정면을 바라보고 있는 '차례' 자세가 아니라 아래와 같이 "같이 TV를 보는" 자세를 취하고 있는 게 이채롭다.

Watching TV Show ALONG WITH Sign Language Narrator

위와 같이 시청자와 같이 TV를 보다가, 대사가 나오면 아래와 같이 수화로 대사와 내용을 - 수화는 모르지만, 대사의 양과 수화의 양을 비교해 보면 가끔은 내용을 요약하기도 하는 것 같다 - 전달해 준다.

Sign Language Narrator of BBC, UK

그런데, 더욱 재미있는 건, 우리나라의 수화자(이 narrator를 뭐라고 하는지 모르겠다)처럼 시종일관 무표정한 표정으로 전달하는 게 아니라, 매우 다양한 표정을 함께 '연기'하면서 실감 있게 극을 전달하고 있다는 거다.

Nice Face Acting Screen Shot of Sign Language Narrator

이런 표정 연기는 드라마에만 국한되는 게 아니라, TV show는 물론 뉴스를 전달할 때에도 슬픈 소식에는 슬픈 표정과 추가적인 감정표현을, 좋은 소식에는 좋은 표정을 더해기 때문에 단지 시선을 공유하는 게 아닌 실제로 해당 방송 컨텐트를 함께 보고 있다는 느낌을 주고 있었다. 같이 TV를 보던 사람들이 말했듯이 "이건 마치 (수화를 쓰는) '변사'잖아!" 라는 것이 매우 적합한 묘사인 듯 하다.


Robot을 Hardware Agent라고 부르며 Software Agent와의 공통점을 찾던 시절에, 로봇이나 on-screen agent의 시선 처리는 중요한 디자인 요소 중 하나였다. 특히 로봇은 3차원에 있기 때문에 시선이 더욱 중요했는데, 동시에 3차원이기 때문에 시선처리의 자유도가 사용성에 반하는 경우 - 로봇이 뒤돌아 있으면, 사용자는 로봇이 어딜 보는지 알 수 없다 - 도 발생하기 때문에 여러가지 방식의 실험연구가 보고되기도 했다.

그 중 약간은 유연한 연구에서는, Agent의 시선처리를 사용자와 직접 대화를 할 경우 적절한 눈맞춤 eye contact 을 갖거나(mutual gaze), Agent가 사용자와 같은 사물이나 방향을 함께 봄(shared looking)으로써 함께 대화를 하고 있다는 감각을 주기 위해서 활용하고 있다. 위의 수화자가 화면에 등장하는 방식이나 그 시선처리와 표정연기는 모두 그 연구에서와 같이 그 경험을 Agent가 사용자와 공유하고 공감하고 있다는 것을 강조함으로써 UI가 컨텐트와 분리된 것이 아니라 하나로 융합된 경험이 되어 있다는 생각이 들었다.

UI와 컨텐트가 융합되어 하나의 완성된 경험을 이룬다는 것은, 멀티미디어 정보기기의 개념이 처음 나왔을 때 H/W와 S/W가 하나의 컨셉 하에 디자인되어야 한다는 것과 궤를 같이 하는 것 같다. 게임 <Call of Duty>가 보여준 것 - Storytelling에 있어서 autonomy와 control의 다양한 혼합 비중 - 도 좋은 모델이 되겠지만, Agent가 등장할 경우 그 역할모델이 무엇이어야 할지에 대한 것도 하나의 재미있는 연구 주제가 될 것 같다.

(외국에서 현장 르포 한번 올려보고 싶어서 주절 거리긴 했지만, 이거 주제도 없고~ 재미도 없고~ 교훈도 없고~ ㅋㅋ 나 뭐한 거니...)
신고
Posted by Stan1ey

... 그럴 가능성이 보인다. Voice UI는 다른 GUI나 특히 Web UI와 달리 개인이 직접 입출력 기능을 구현할 수 있는 방법이 없다는 점 때문에 많이 개발되지도 확산되지도 않고 있었는데, 얼마 전에 Tellme에서 iPhone용 SDK를 개발하고 있다는 뉴스가 떴다. iPhone의 경우엔 마이크/스피커 달려있고, Wifi나 다른 데이터 통신도 되고, 무엇보다 많은 개인 개발자들이 이미 온갖 application을 만들어서 대부분 어둠의 경로로, 일부는 iTunes를 통해서 유료 혹은 무료로 배포하고 있는 상황이니만큼 이 SDK가 미칠 영향은 적지 않을 것이다.

이미 iPhone (혹은 iPod Touch)에 달려있는 수많은 센서들을 기발한 방법으로 사용한 많은 사례들이 나오고 있는데, 여기에 음성입출력 기능을 포함시키면 또 어떤 활용이 가능할까? (닌텐도 DS에서 마이크를 이용해서 어떤 기특한 짓을 했는지 생각해봐라!)

일단 기본적인 어플리케이션은 전에 Voice Signal이 보여준 것과 다르지 않겠다.

하지만... 이를테면 (내가 좋아라 하는) 음성대화가 가능한 에이전트 Human Interface Agent (HIA)가 들어간다면, 그 놈은 하루 중의 시간에 따라 눕혔을 때와 들고 있을 때의 반응이 달라질 수 있을꺼다. 심지어 주변 환경에 밝으면 눈부시다고 할 수도 있을테고, iPhone이라면 부르르 떨어서 싫다는 표현을 할 수도 있다! 흔들면 어지러워할테고, 스피커에 손바닥을 가까이 대면 움츠러 들거나 뜀뛰기를 할 수도 있겠다. 무엇보다 iPhone/iPod의 수많은 기능들 - 각종 PIMS application은 물론 인터넷 브라우저, 지도 상에서 내 위치 찾기를 포함한다!! - 과 동조하면서 이런 기능을 할 수 있을 것이다.

iGoldfish - possible agent on iPhone/iPod Touch

이미 화면 상에 에이전트를 띄우는 것은 장난스런 개발자에 의해서 다양하게 개발되어 있다. (사실 파일 시스템에서 보안에 이르기까지 구조가 훤히 드러난 UNIX 기기인만큼 안 되는 게 뭐 있으랴)


[○] 이런 것도 있다. (주의: 야하다)

문제는 누군가 수고스러운 과정을 거쳐 온갖 센서 입력와 데이터베이스 분석을 하나의 서비스로 엮어야 한다는 것 뿐이다. 이 대목에서는 그저 crowdsourcing (혹은 open source) 의 힘을 믿는 수밖에.

이럴 땐 정말 프로그래밍 공부 제대로 안 한게 한스럽다니까. =_=

신고
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.