Project NATAL - Sensor Module
미국에서는 E3가 한창이다. 그거 준비한다고 우리 회사에서도 몇명 고생한 것 같고 (UX팀은 그런 신나는 일에서는 아무래도 거리가 있다). E3의 press conference에서 Microsoft가 일전에 인수한 3DV Systems의 2.5D 동작인식 카메라를 넣은 시스템을 "Project NATAL"이라는 이름으로 발표했다. 그런데, 이게 단지 동작인식 뿐만 아니라, 얼굴을 통한 사용자 인증과 음성인식까지 넣어서 "컨트롤러가 필요없음"을 강조하고 있다.



... 이게 이렇게 잘 될 것 같으면 그동안 수많은 영상인식 연구원들이 왜 그 고생을 했게. ㅡ_ㅡ;;;;; 기가 막히게 잘 되는 음성인식은 오히려 그렇다 치고, 장애물이 있어서 카메라에서 보이지 않는데도 동작인식이 되는 모습 같은 건 모델이 된 꼬마가 불쌍할 지경이다.

아니나 다를까, 실제 구동되는 동영상은 이거다.



이런이런. 망신도 이런 망신이 없지 말입니다. *-_-*

뭐, 기술은 분명히 개선의 여지가 있는 것 같고, HTI를 어떻게 설계하느냐에 따라 게임에 훌륭하게 적용될 가능성도 높은 기술인 건 사실이다. 그렇지만 그 수많은 화려한 영상인식 기술데모에도 불구하고 Sony EyeToy가 "특정영역에서 손을 흔들고 있으면 선택됩니다" 라든가 "미친듯이 움직이면 그 움직이는 정도가 플레이에 반영됩니다" 따위의 유치한 방식 밖에 쓰지 못한 데에는 다 이유가 있다는 거다.

Sony EyeToy Gestural Interaction: SelectionSony EyeToy Gestural Interaction: Activity

2.5D 동작인식은 분명 여기에 깊이 정보를 더한다는 장점이 있지만, 여전히 영상인식이 가지고 있는 단점 - 시야각이라든가, 시야각 내의 장애물이라든가, 신호처리에 걸리는 속도라든가, 물체인지의 오류 가능성 등등 - 은 그대로 지니고 있다. 오히려 이론적으로는, 처리해야 할 정보가 늘어나면서 인식 오류의 가능성은 기하급수적으로 높아지게 된다. 위 두번째 동영상에서 보여주는 모습이 바로 그런 현상에 대한 증거가 아닐까.

그리고 무엇보다도 아무 것도 쥐지 않은 빈 손으로 저렇게 손짓발짓하는 것이 플레이어에게 얼마나 허망할지도 큰 문제가 될 것이다. 이미 손에 쥘 컨트롤러를 가지고 있는 Nintendo Wii의 경우에도 그 즉물성(?)을 더하기 위해서 단순한 플라스틱 껍데기에 지나지 않지만 골프채, 테니스채, 운전대, 거기에 총 모양의 모형까지 더하고 있는 걸 봐도 알 수 있지 않을까? 나중에 추가적인 물건을 더할 수도 있겠지만, 그렇다면 "YOU are the controller"라고 장담했던 게 우스워질게다.

말은 이렇게 하지만... 그래도 마이크로소프트의 자본력과 연구원들, 그리고 꿈만 같은 동작인식과 음성인식의 조합인 multimodal interaction이다. 첫번째 동영상에서 게임 캐릭터와의 대화가 그만큼 자연스럽게 가능하리라 생각하진 않지만, 투자가 없던 이 분야에 저만한 회사가 공공연하게 뛰어든다니 그래도 조금은 기대해 보는 것도 나쁘지 않을 것 같다.

--- 이하 다음 날 추가 ---

Lionhead에서도 이 기술을 이용해서 Project Milo라는 것을 발표했다. ... 이건 한 술 더 떠서 인공지능 에이전트까지 추가. 비슷한 데모를 만들어봤던 2001년과 현재 사이에 UFO를 주운 게 아니라면, 이것도 솔직히 조금 실눈을 뜨고 보게 된다. =_= 저만큼 자유도를 주고 나면, 그 다음에 그 뒷감당을 어떻게 하려고...



뭐 일단 캐릭터는 완성된 모양이고(화면은 줄창 3D 모델링 소프트웨어 -_-;; ), 대부분의 시간은 데모 시나리오의 애니메이션에 시간을 썼을 듯. 이제는 인공지능 부분을 개발해야 할텐데, 대화 설계를 무지 잘 해야 할 거다...
신고
Creative Commons License
Posted by Stan1ey
종종 인용하곤 하는 VUI Design 블로그의 새 글을 보고, 역시 직접 일을 하지 않으면 멀어질 수 밖에 없구나...라는 생각이 들었다. 어느샌가 제목과 같은 Voice UI Design 단체가 생겨서, 2007년부터 직업으로서의 Voice UI Design이라든가 조직에서의 역할, career path 등을 논의하고 있었던 것이다. 게다가 (조금은 구호에 그칠 듯하지만) 무려 "MULTIMODAL EXPERIENCE DESIGN" 이라는 것도 다루겠노라고 하고 있다. 아직은 그냥 관련업체의 담당자 소모임 같은 느낌이지만, 그래도 이렇게 시작하는구나 하는 생각이 들게 하는 모습.

AVIxD website at 2009

웹사이트는 보다시피 인터넷의 발전을 거슬러 올라간듯한 모양새인데, 그럼에도 불구하고 Publication과 Reference 페이지는 가볼만한 가치가 있다.

Publication에는 2007년의 워크샵 내용들이 정리되어 올라와있고, 2008년의 내용은 아직 -_- 올리지 않은 걸 보니 아직 운영은 많이 미숙한 모양. 그래도 한번씩 읽어볼만한, VUI를 해본 사람이라면 공감할 내용들이 의외로 많은 '동지들'에 의해서 논의되었음을 알 수 있다.

Reference에 올라온 책들은 대부분 이 블로그의 아마존 배너(저기.. 관심 좀... ㅋㅋㅋ)에도 올려놓은 책들인데, 아직 몇권 없는 책이므로 모두가 VUI 분야의 필독서라고 생각한다.

아직은 정말 미미한 모습인데, 앞으로는 좀 창대해지려나 모르겠다.


현재 업무와는 별 상관이 없으니 뉴욕까지 날아갈 수 있을리는 만무하고, 난 그저 이 웹사이트가 갱신되기만 기다려야 할 듯. 혹시 이 블로그 보시는 분 중에 가서 PDF 파일 좀 공유해주실 분 없을까나... *_*a;;
신고
Creative Commons License
Posted by Stan1ey

몇시간 전에 끝난 맥월드 키노트는 솔직히 실망이었다. 루머로 돌았던 것들은 (심지어 iPhone nano는 내노라하는 업체에서 벌써 케이스까지 발매하고 있었는데) 하나도 안 나왔는데, 그 덕택에 수많은 블로그 작가들과 YouTube 동영상들은 별 소리를 다 해가면서 실망을 감추지 않고 있다. 개인적으로도 스티브 잡스가 발표장에 안 나서자마자 이렇게 김빠지는 모습을 보이는 것에 대해서는 안쓰럽게 생각한다.

그런데, 전체적으로 맥빠지는 모습에도 불구하고, 발표된 제품 중 한가지는 정말 내 눈을 잡아 끌었다. (아마 이 블로그를 보신 분들은 예상하리라 생각하지만. :)

iPhoto 09 with Face Recognition

바로 iPhoto 09 버전에 얼굴인식("Faces")과 위치조회("Places") 기능이 포함되었다는 소식이다. 이미 iPhoto 08 에서부터 포함된, 촬영시간에 따른 자동 그룹핑 기능("Events")과 함께, 촬영된 사람을 얼굴로 판단해서 검색할 수 있게 해준다거나 지도 상에서 사진이 찍힌 위치를 표시해 주는 기능은 개인이 사진을 관리하기 위해 필요한 이상적인 기능을 마침내 모두 상용화 수준으로 구현했다고 하겠다.

이미 나만 해도 GPS가 달린 iPhone으로 사진을 찍어서 올리면 자동으로 Flickr 지도에 이미지가 표시되도록 하고 있고, 사진 중에서 같은 사람의 얼굴을 찾는 온라인 서비스는 벌써 몇년 전에 나온 적이 있었고(Riya.com인 줄 알았는데, 가보니 뭔가 이미지 검색 중심의 서비스로 바뀌어 있다), Flickr에 올린 사진들을 얼굴 중심으로 대신 tagging해 주겠다는 서비스라든가, Google의 Picasa Web Album에서 같은 기능을 제공하기 시작한지도 1년이 다 되어가는 등... 이 기능들 자체는 아주 새로운 게 아니다. 딱이 대용량 DB 같은 걸 다뤄야 하는 것도 아니니 기존에 서버 기반으로 하던 것을 PC 프로그램으로 만들었다고 호들갑 떨 것도 아니다.

어떤 기능들인지 한번 찬찬히 보자면, 다음과 같다.



결국 Places 기능은 iPhoto 프로그램 자체에 적당한 해상도까지 제공하는 전 지구의 지도를 넣어둔 것 같은데, 이건 참 용단이었다고 생각한다. 쉽게 Google이나 Microsoft와 제휴하는 수도 있었을 테지만, 사실 요즘의 Apple 같아서는 세간의 이목이 있어 그러기도 쉽지 않으려나. Flickr의 Geotagging 서비스를 사용해본 경험으로는 이게 사실 정확하게 찍히지 않던데(일정하게 한쪽으로 밀리는데, 그 방향이 지역마다 다르다. 아마 건물에 의한 GPS 전파 반사와 WiFi hotspot과의 잘못된 조합이 그 원인인 듯), iPhoto 09에서는 얼마나 정확할지가 궁금하다. 사실 데모만으로는 그다지 고해상도 지도까지 zoom in 해주지 않는 것 같고, 그렇다면 10~20m 차이는 눈에 띄지 않을 가능성이 높지만. (잔머리 굴린 거냐, 애플! -_-+ 훌륭하다!! )
(이 부분은 - 아래 리플에서 지적해 주신 것이 맞다 - 완전히 잘못 적었다. 구글 로고가 떡하니 박혀 있는데 뭔 헛소리;;; 단지 구글 맵을 온라인 상태에서만 쓰게 만들었을 것 같지는 않은데, 그렇다면 구글로서는 처음으로 그 DB를 로컬 장치에 저장하도록 한 사례가 될 꺼다. 만일 아니라면 온라인 상태에서만 지도를 볼 수 있을테니 그게 또 문제가 될테고.)

특히 이 Places 기능 중에서 지역들 간의 위계구조를 만들어서 incremental search를 할 수 있게 한 건 정말 훌륭한 발상이라고 생각한다. 단지 GPS 정보가 사진에 들어있다니 그걸로 멋진 기능 하나 만들어보세~라는 생각만으로는 나올 수 없는 부가적인 노력이고, 탁월한 선택이었다고 생각한다.


그에 비해 Faces 기능은 딱이 뭐 꼬집어 말할 게 없다. 얼굴인식을 이용한 사진 정리...라는 걸 생각하고 얼굴인식 엔진을 위한 효율적인 학습방법을 생각한다면, 가장 효율적으로 사용할 수 있는 방법을 잘 제시했다고나 할까. 얼굴인식을 하기 위한 UX(사용방법; UI; 기능)는 다음과 같이 설계되어 있다. (자세한 내용은 위 동영상이나, 애플 웹사이트에서의 동영상 안내를 보는 게 좋겠다.)

① 사진을 보면, 얼굴 위치는 자동으로 찾아져 있다.
--> 얼굴을 못 찾거나 위치가 잘못됐다면 수동으로 영역을 지정할 수 있다.
② 사용자가 얼굴 아래에 이름을 넣는다.
③ 한번 등록된 얼굴은 다른 사진에서 인식되면 이름이 나오지만, 사용자가 확정(confirm)하지 않은 상태로 표시된다.
--> 사용자는 확정버튼을 클릭하거나, 올바른 이름을 다시 등록할 수 있다.
④ 각각의 사진에 들어있는 각각의 얼굴들은 자동으로 인식/표시되며, 사용자는 여러 장의 사진/얼굴을 손쉽게 확정할 수 있다.

iPhoto 09 with Face RecognitioniPhoto 09 with Face RecognitioniPhoto 09 with Face Recognition

사실 주어진 조건 - 영상인식은 조명조건, 촬영각도, 그림자 등 많은 요인에 의해서 영향을 받는데, 특히 대동소이하게 생긴 인류의 얼굴을 판별해야 하는 얼굴인식은 두말할 필요 없이 어려운, 오인식이 발생하기 쉬운 상황이다 - 에서, 상당히 깔끔하게 잘 풀어낸 UI 디자인이라고 생각한다. 데모에서야 대부분 정면을 보고 있는 모습이니 인식이 잘 되고 있고, 딱 한번 보여주는 오류는 옆모습이니 그런가보다 하지만, 실제로는 어느 정도 돌아가거나 (누워있는 사진이라든가) 드라마틱한 각도에서 찍었거나 멀리서 찍었다거나 하는 경우에는 인식오류가 점점 문제시될 거고, 미안한 얘기지만 흑인 같은 경우에는 배경에 피부색과 비슷한 어두운 색이 많을 경우에는 실제로 인식률이 많이 떨어질 수 있다. 업계라면 이걸 보정하려고 적외선도 쓰고 카메라를 2개도 쓸 수 있지만, 일반적인 디지털 사진에 그런 정보가 있을리 없으니까. (사실 DSLR 같은 기기에서 쓰는 raw 포맷을 분석하면 적외선 대역이 조금씩은 들어있을 수도 있지만... 뭐 귀찮고 쓸 수 있는 수준이 아닐 수 있으니 통과 -_- )

하지만 뭐 이런저런 뻔히 예상되는 인식오류와 거기에 대한 거부감(Apple 쯤 되면 인종차별 소송 하나쯤 터지지 않을까나)에도 불구하고, 이런 기능을 가진 소프트웨어가 사용자의 PC에 깔릴 거라는 건 HTI의 긍정적인 측면에서도 부정적인 측면에서도 기대되는 사건임에 틀림이 없다.



얼굴인식과 위치인식을 이용한 사진앨범 관리 서비스... 사실은 같은 내용으로 6년 전쯤에 특허를 냈다가 담당자한테 퇴짜맞은 적이 있는데, 그 때의 지적이 맞는지 아직까지도 이 당연하고 훌륭한 조합에 대해서 제대로 아우르는 특허가 없다. 분명히 이 경우에도 상호보완 multimodal disambiguration 이 가능할테고, 즉 그 장소에 없을 것 같은 얼굴이 인식되거나 하면 그 적확률을 좀 낮춰본다든가 하는 내용(4차원 데이터 구조라도 나와야 하는건가... ㄷㄷㄷ )은 특허가 될 텐데 말이지. 뭐 그것도 그때라면 모를까 지금은 '이미 나온 서비스에 단순한 부가 조합'이 되겠네.

어쨋든 이런 특허 없는 서비스조차도, 왜 우리나라 기업에서 먼저 만들었다는 소리를 듣지 못하는지 모르겠다. 뭐가 IT 강국이야... 남들이 만든 표준에 남들이 제시한 방향으로 죽어라 따라잡기 바쁜데.

아 맞다. 이제 정부에서 IT 분야는 도움 안 된다고 지원 줄인댔지. ㅎㅎㅎ
신고
Creative Commons License
Posted by Stan1ey

Quick Fix for Voice UI

2008.03.27 01:54
한동안 Software UI 업계 - 요즘 식으로 말하자면 GUI 업계가 되겠지만 - 에 강림했다가 '상식'이 된 후에 버려진 많은 UI Design Guideline 들이 있다. 아직도 인터넷을 뒤져보면 많은 사례들이 있기도 하고... 특히 Yale Univ.의 Web Style Guide와 같이 나름 독자적인 전문 분야에서 꾸준히 편집과 갱신을 거듭하던, 줏대있는 사례도 있었다. 예전에는 이런 거 모아다가 비교해가면서 나만의 (절대적인 그러나 상대적인) UI 금과옥조를 만들기도 하고, 무슨 원칙이 무슨 원칙과 어떤 경우에 상충되는지를 분석하고 떠들어대곤 했는데 요즘도 그러는지 모르겠다.

Voice UI 같은 경우에도, 이제 그런 사례가 적다고 말할 수는 없게 됐다. Voice UI 관련 서적들이 1년에 한두권씩은 책장에 추가되고, 대동소이한 것 같으면서도 처음의 "음성인식 기술이란~" 으로 시작되던 것이 "사용자는~" 이라고 시작하게 된 것도 내 입장에서는 괄목할만한 성장이다. (그렇다고 기술 측면을 무시하자는 건 아니지만. 사실 오히려 강조하는 편이다, 나는 -_- )

이번에 VUI Design Blog에 올라온 "21 Quick Fixes to Improve Your Voice Application"라는 글은 비교적 상세한 설계지침 design guideline 이라고 할 수 있는데, 저자의 말과 같이 website를 위한 지침에서 눈에 띄는대로 따온 것이기 때문에 잘 균형잡힌 항목들은 아닐지 모르지만, 이제까지 나온 것 중에서 비교적 사용자 중심적이고 실무적인 관점의 내용인 것 같아서 옮겨본다.


< 음성입출력 서비스 품질을 향상시키는 빠른 방법 >
출처: 21 Quick Fixes to Improve Your Voice Application

Copywriting 프롬프트 작성하기

1. Tell callers why they should perform a task.
    사용자들에게 서비스를 사용하고자 하는 동기를 부여하라.
    : 일단 필요하면, 쓰게 되어 있다. 사용자 입장의 가치와 니즈를
      충족시켜 준다는 것을 분명히 하라.
     (※역자주: 사실 이건, 예전 Web UI 가이드라인에서의 "#1. Content,
      Content, Content"를 연상시키는 슬픈? 항목이다)

2. Make the most highly trafficked menus easier to listen to.
   가장 자주 쓰이는 메뉴가 귀에 잘 들리도록 하라.
 
    : 메뉴가 너무 길면 당연히 못 듣는다. 그러니 메뉴 개수를 줄이던가,
      단계별로 그루핑하던가, 그냥 중간중간 쉬던가 해서 잘 들리도록 해라.
     (※역자주: 또한 메뉴의 순서에 손을 대는 것에 대해서, GUI 메뉴와의
      차이점에 주목할 필요가 있다)

3. Make choices meaningful.
   선택할 항목은 사용자가 쉽게 알 수 있는 단어를 사용하라.
 
    : GUI에서도 있는 labeling 이야기.
    (※역자주: 단지 GUI는 철자, VUI는 발음의 유사성에도 유의해야 한다)

4. Stay consistent.
    일관성을 유지하라.
    : 프롬프트와 용어사용에 있어서. (※역자주: 제발 좀. -_-;; )

5. Stay simple.
    간결하게 만들어라.
 
    : 어느 단계에서의 프로세스가 좀 많다고 해서, 그걸 꼭 복잡하게 만들라는
      법은 없다. (※역자주: simple vs brief. complex vs complicated.)

6. Avoid making hollow promises.
    널리 받아들여진 UI는 적용하라.
   
: 미국은 IVR 시스템에서 0번을 누르면 안내원이 나오는 게 일반적인가
      보다. 뭐 그런 거. (※역자주: 우리는 주민번호 누르고 *? #?)

7. Be concise.
    짧고 간단하게 만들어라.
    : ‘Nuff said. 란다. (※역자주: simple하고 뭐가 다르지?)

8. Go with what works.
    실제로 기대한 기능을 하는지 알아봐라.
 
   : 모르겠으면 사용자에게 물어봐라. 그게 사용성의 근원이기도 하다.
    (※역자주: 뭐 틀린 얘긴 아니다)


Usability 사용편의성

9. Make navigation consistent.
    네비게이션을 일관되게 만들어라.
    : 사용자가 말하는 것을 듣고, 그들 생각대로의 대화흐름을 만들어라.
    (※역자주: 그러니 FGI와 mental model이 여전히 중요하다는 거다.
     이 분야에서의 FGI 형식은 좀더 interview에 가깝긴 하겠지만.)

10. Never ask for more information than you need.
    필요한 정보만 물어봐라.
    : (사용자 입장에서) 쓸데없는 거 물어보느라 시간 뺏지 마라. 그냥 은행
     문여는 시간 좀 물어보려는데 주민번호를 왜 물어보냐?
    (※역자주: 미국에서도 사회보장번호 끝의 4자리를 물어보나보다.)

11. Add a search box.
    검색 기능을 넣어라.
    : 아 물론 VUI의 경우에는, "아무거나 말씀하세요" 같은 방식의 대화가
      가능한 순간을 넣어 사용자가 뭐가 필요한지 들을 수 있도록 하라.
    (※역자주: 엔지니어와의 한판승부가 벌어질만한 기획서의 대목이다)

12. Use plenty of contrast.
    다양한 변화를 줘라.
    : 목소리 톤이 단조로우면 서비스 쓰기 짜증난다. 운율과 강세를 적절히
      활용하도록 해라. 요컨대 TTS보다는 의욕있는 성우를 쓰는 게 좋다.
    (※역자주: TTS 지못미...)

13. Test it on real users.
    실제 사용자들을 대상으로 테스트하라.
 
    : 혹은, 그렇게 하는 것을 서비스 프로세스에 넣어 법제화시키란다.
    (※역자주: 그렇게 해서라도 지켜지기만 한다면야...)


Accessibility 접근성

14. Modify color.
    제공되는 음성의 특성을 잘 조절하라.
   
: 음성이나 음역, 즉 persona의 종류와 대사의 성격을 사용자의 나이 등을
      고려하여 선택하라.
    (※역자주: 슬슬 억지로 껴맞추기 시작하는 듯. 어쨋든 중요한 이야기
     임에는 틀림이 없다. 예전에도 말했듯이.)

15. Identify the language.
    사용자가 원하는 언어를 선택할 수 있게 해라.
    : “For Spanish, press 2…” 같은 식으로 선택권을 줘라.
    (※역자주: "For Korean, press 24..." )

16. Supplement navigational aids.
    네비게이션에 도움이 될 장치를 제공하라.
    : 효과음(earcon) 등을 잘 써라.
    (※역자주: 배경음도 경우에 따라선 매우, 매우 유용하다)

17. Define shortcuts.
    빠른 선택 방법을 제공하라.
    : 음성명령을 한꺼번에 말한다든가 하는 숨겨진 단축명령을 제공하라.
    (※역자주: 하지만 그걸 주문마냥 외우게 할 생각일랑 하지 마라)


Design 디자인 혹은 설계

18. Place important information “above the fold”.
    중요한 정보는 눈에.. 아니 귀에 띄이는 곳에 배치하라.
    : 중요한 정보를 경우에 따라서는 앞에 (예: 이체하기 전에 잔고 말해주기)
      혹은 뒤에 (예: "마감일은 5월 15일입니다") 두어라.
    (※역자주: GUI가 닥치고 좌상단인 것과 반대일 수 있다는 게 재미있다)

19. Reduce choices.
    선택할 항목 개수를 줄여라.
 
  : 항목이 많으면, 조금만 먼저 말하고 "다른 거?" 라는 링크를 주는 게
     좋을지 모른다.
    (※역자주: 난 잘 모르겠는데 -_-;; 어쨋든 VUI 에서의 이 문제는 magic
      number와 아무 상관이 없다는 게 재미있다. 개인적인 실험에 따르면
      VUI 사용자는 bubble sorting 밖에 못한다.)

20. Nix banners.
    관심 없는 광고나 법적고지문 읽지 마라.
    : 가능한 한 그러지 마라.
    (※역자주: 이게 가능하면 귀찮게 왜 넣었겠니. -_-;; )

21. Stay consistent.
    일관성을 유지하라.    
    : UI는 물론이고 persona와 사용자 profile을 포함한 UX 전반에 걸쳐
      일관적일 수 있도록 하라.
    (※역자주: 데쟈뷰? ㅎㅎ )


일단 목차는 매우 이상하게 구성되어 있고, 전혀 앞뒤나 논리는 없지만, 그래도 드물게도 무척 실무적이고 user-centric한 내용이라서 한번 번역해 봤다. (이걸 번역이라고 부를 수 있다면 말이지만;;;)

... 내가 만든 Voice UI Design Guideline은 먼지라도 벗었으려나... -_ㅜ;;; 자세한 이야기를 못 하고 남의 것이나 딴지 걸고 있으려니 이것도 참 답답한 노릇이다. 7개월 후에는 쓸 수 있겠지 뭐. ㅋㅋㅋ

신고
Creative Commons License
Posted by Stan1ey
이제는 MS의 전 CEO인 빌 게이츠가 지난 2월 21일 CMU에서 있었던 강연에서, 음성 입출력 방식에 대해서 꽤 강조를 한 모양이다. "5년 내에 사람들은 키보드를 버리고 터치스크린과 음성으로 컴퓨터를 사용해서 웹을 서핑하거나 할 것이다"라고 했다니, 최근의 급변하는 UI 업계를 감안한다고 해도 좀 과격한 예측이다.
(제목은 내가 지은 게 아니라, 원래의 기사에서 베꼈다.)


음성인식과 터치스크린이라... 이름은 많이 달라 보이지만, 사실 이 두가지는 모두 인식 알고리듬을 이용하므로 오인식의 가능성을 가지고 데다가, 기술 자체가 가지고 있는 문제도 무시할 수는 없을 것이다. 90%의 인식성공률을 가지고 있는 음성인식과 97%의 인식성공률을 가지고 있는 터치스크린을 잘만 조합하면 음성인식의 오류를 터치스크린이 보완한다든가 하는 multi-modal disambiguration이 가능하니 이론상 99.7% 의 성공률을 갖는 시스템도 만들 수 있겠지만, 만일 단순한 조합으로 만들어진다면 '사용자의 입력이 잘못 적용될 확률'이 90% 혹은 87.3%로 떨어질 수도 있는 것이다.

뭐 자주 하는 비유로, 키보드를 10번 치면 한번은 다른 글자가 나온다고 생각하면 어떤 느낌인지 알기 쉽지 않을까. ㅡ_ㅡ;;;

그래도 영어 음성인식/합성 기술의 수준을 생각해 보면, 그리고 이미 multi-modal disambiguration에 대한 실용적인 연구/적용 사례가 많이 나와있다는 것을 감안하면, 현재의 기술로도 충분히 usable한 장치를 만들 수 있을 것 같기도 하다. 우리나라도 이제 텔레뱅킹이나 텔레증권(?) 등을 시작으로 Telephony Voice UI (T-VUI) 사례는 좀 늘어나고 있는 것 같지만, 미국과 같이 빠른 속도로 ARS나 call center를 대체하고 있는 상황은 아니다. 이 상황에서 영어를 native 발음으로 하는 사람만 쓸 수 있는 모바일 기기가 나온다면 점점 한국은 그동안 "시장이 작아서"라는 이유로 음성 입출력 기술을 키우지 못한 대가를 치뤄야 하는 게 아닐지 모르겠다.

힘들게 명맥을 이어가고 있는 토종 음성 입출력 기술 업체가 기회를 갖게 될지, 대자본과 든든한 reference sites, 그리고 의외로 많은 한국어 인력을 보유한 외국계 회사가 모든 걸 잠식하게 될지 - 매우 걱정스런 눈으로 - 지켜보는 중이다.
신고
Creative Commons License
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.