(앞의 글에서 계속...이라지만 사실 앞글과는 별 상관이 없을지도 모르겠다;;)


이 글은 벌써 세번째인가 쓰는 글이다. 야심차게 적었다가 다음에 읽어보면 너무 무모한 내용이라고 생각해서 지우고, 블로그를 몇개월 방치했다가 다시 열어보고 써내려 가다가 다음에 읽어보면 또 지우고... 아무래도 자신이 없었나보다. 글 번호 순서로 보면 지난 2007년말에 쓰기 시작한 모양인데, 뭐 워낙 우유부단한 걸로 악명높은 놈이라지만 이건 좀 심했다고 본다. ㅎㅎ

어쨋든, 이젠 더 미룰 수 없을 것같은 상황이 됐다. 삼성은 갤럭시 노트라는 걸 발표했고, 아이폰5의 발표가 임박한 것같고, 아마존의 새 이북리더도 곧 나올 예정이다. 더 늦으면 뒷북이 될 것 같아서, 빈약한 논리와 어거지 주장을 그냥 그대로 적어 올리기로 했다. (제목도 이제는 좀 민망해졌지만, 그래도 밀린 숙제니 어쩔 수 없이 그대로...) 몇년을 말그대로 "썩혀온" Deep Touch 이야기다.


그래서 대뜸.

터치스크린의 최대 약점은 그 조작의 순간성에 있다.

PC 중심의 UI를 하던 UI/HCI/HTI 연구자들은 터치스크린을 보고 무척이나 당혹스러웠다. 지금 인터넷 상에서는 도대체 찾을 수가 없는 누군가의 글(아마도 Ben Shneiderman 할아버지일텐데, 이 분의 논문을 다 뒤지기도 귀찮고... 해서 통과)에서는, 터치스크린이 전통적인 사용자 인터페이스의 기본 개념인 "Point-and-Click"을 지킬 수 없게 한다고 지적한 적이 있었다. 즉 물리적인 버튼을 누르는 상황에서는 손가락으로 그 버튼을 만지는 단계와 눌러 실행시키는 단계가 분리되어 있고, PC의 전통적인 GUI에서는 그것이 point 단계와 click 단계로 구분되어 있는데, Touch UI에서는 point 단계없이 바로 click(tap) 단계로 가버리게 되면서 사용성 오류가 발생하고 있다는 것이다.

Mouse Pointers, Hand-shaped
GUI에 이미 익숙한 사용자들은 이런 손모양 포인터를 통해서 사용에 많은 도움을 받는다. 이런 포인터들은 마우스의 저편 가상세계에서, 손을 대신해서 가상의 물체를 만지고 이해하며, 사용 이전과 사용 중에는 선택한 기능에 대한 확신을 준다. 추가설명이 필요한 영역에 포인터를 올렸을 때 활성화되는 툴팁(tooltip)이나, 포인터에 반응해서 클릭할 수 있는 영역을 시각적으로 강조하는 롤오버(roll-over; hover) 등의 기법도 이런 사례이다.

그런데, iOS의 기본 UI 디자인 방식을 중심으로 표준화되어 버린 Touch UI에서는 이런 도움을 받을 수가 없다. 물론 페이지, 토글버튼, 슬라이더 등의 즉물성(physicality)을 살린 -- 드래그할 때 손가락을 따라 움직인다든가 -- 움직임이 도움이 되긴 하지만, 기존에 손→마우스→포인터→GUI 설계에서 제공해주던 만큼 도움이 되지는 않는다. 요컨대 전통적인 GUI에서 "클릭"만을 빼서 "터치(혹은 탭)"으로 간단히 치환하는 것으로는 부족한 거다.

이 부족한 부분을 어떻게든 되살려서, 사용자가 고의든 아니든 어떤 기능을 실행시키기 전에 그 사실을 인지시킬 수 있는 방법을 주는 것. 그리고 실행을 시키는 중에확신을 줄 수 있고, 명령이 제대로 전달되었음을 따로 추론하지 않고도 조작도구(손가락) 끝에서 알 수 있게 하는 것. 아마 그게 터치UI의 다음 단계가 되지 않을까 한다. 버튼 입력이 들어올 때마다 휴대폰 몸통을 부르르 떤다든가 딕딕 소리를 내는 것 말고 말이다.

개인적으로 생각하고 있는 것은, 오래전부터 끼고 있는 아래 그림이다.

Deep Touch - Pre-touch detection, and Post-touch pressure/click


터치 이전. Pre-touch.

앞서 말한 (아마도 Ben 할배의) 연구 논문은 터치 이전에 부가적인 정보를 주기 위해서, 앞의 글에서도 말한 광선차단 방식의 터치스크린과 유사한 방식의 "벽"을 화면 주위에 3cm 정도 세워 사람이 화면 상의 무언가를 "가리키면" 이를 알 수 있게 한다..는 내용이었다. (혹시 이 논문 갖고 계신 분 좀 공유해주삼!) 말하자면 'MouseOver' 이벤트가 가능한 인터페이스를 만든 거 였는데, 불행히도 이 방식은 그다지 인기가 없었던 모양이다.

하지만 그 외에도 손가락이 접촉하기 전의 인터랙션을 활용하고자 하는 사례는 많았다. 지금은 Apple에 합병된 FingerWorks사의 기술은 표면에서 1cm 정도 떠있는 손가락의 방향이나 손바닥의 모양까지도 인식할 수 있었고, 이미 이런 센서 기술을 UI에 적용하기 위한 특허도 확보했다. 카메라를 이용한 사례로는 Tactiva의 TactaPad나 Microsoft Research의 Lucid Touch 프로토타입이 있고, 역시 Microsoft Research의 또 다른 터치 프로토타입에서도 터치 이전에 손가락을 추적할 수 있는 기술을 제시한 바 있다.

iGesture Pad, FingerWorks (Apple)Looking Glass, Microsoft ResearchLooking Glass, Microsoft Research


터치 이후. Post-touch.

일단 터치가 감지되면, 대부분의 시스템에서는 이것을 일반 마우스의 "KeyDown" 이벤트와 동일하게 처리한다. 즉 생각 없는 개발팀에서는 이를 바로 클릭(탭)으로 인식하고 기능을 수행하고, 좀 더 생각 있는 팀에서는 같은 영역에서 "KeyUp" 이벤트가 생기기를 기다리는 알고리듬을 준비할 것이다. 하지만 어느 쪽이든, 이미 터치 순간에 기능 수행을 활성화시켰기 때문에 사용자가 의도하지 않은 조작을 할 가능성은 생겨 버린다.

손가락이 화면에 닿은 후에, 추가적으로 사용자의 의도를 확인할 수 있게 해주는 것으로는 Drag와 Press의 두가지 동작을 생각할 수 있다.

이 중 Drag의 경우는 이제 터치 기반 제품에 명실상부한 표준으로 자리잡은 "Slide to Unlock"을 비롯해서 사용자의 의도를 오해 없이 전달받아야 하는 경우에 널리 쓰이고 있지만, 화면을 디자인해야 하는 입장에서 볼 때 어째 불필요하게 커다란 UI 요소를 넣어야 한다는 점이 부담으로 다가온다. 특수한 경우가 아니면 단순한 버튼을 클릭/탭하도록 하는 편이 사용자에게 더 친숙하기도 하고.

이에 비해서, 압력 혹은 물리적인 클릭을 통해 전달받을 수 있는 Press의 경우에는 화면 디자인 상의 제약은 덜하겠지만 이번엔 기술적인 제약이 있어서, 일반적인 터치 패널을 통해서는 구현에 어려움이 많다. (불가능하다..라고 할 수도 있겠지만, 클릭영역의 분포나 시간 변수를 활용해서 간접적으로 압력을 표현한 사례도 있었으니까.) 한때 우리나라의 많은 UI 쟁이들 가슴을 설레게 했던 아이리버의 D*Click 시스템은 제한된 범위에서나마 화면 가장자리를 눌러 기능을 실행시킬 수 있게 했었고, 화면과는 동떨어져 있지만 애플의 노트북 MacBook의 터치패드나 Magic Mouse에서도 터치패널 아래 물리적 버튼을 심어 터치에 이은 클릭을 실현시키고 있다. 몇차례 상품화된 소니의 PreSense 기술도 터치와 클릭을 조합시킨 좋은 사례였다고 생각한다.

이진적인 클릭이 아니라 아날로그 신호를 다루는 압력감지의 경우에도 여러 사례가 있었다. 일본 대학에서는 물컹물컹한 광학재료를 이용한 사례를 만들기도 했고, 앞서 언급한 소니의 PreSense 후속연구인 PreSense 2는 바로 터치패드 위에 다름아닌 압력센서를 부착시킨 물건이었다. 노키아에서 멀티터치로 동일한 구성을 특허화하려고 시도하고 있기도 하다. 하지만, 최근 가장 눈길을 끄는 것은 단연 TouchCo 라는 회사의 투명한 압력감지 터치스크린이다. 이 기술은 아무래도 압력감지를 내세우다보니 외부충격에 예민한 평판 디스플레이와는 맞지 않아서, 상대적으로 외부충격에 강한 전자종이와 같이 쓰이는 것으로 이야기 되다가 결국 Amazon에 합병되고 말았다. 사실 플라스틱 OLED 스크린도 나온다고 하고, 고릴라 글래스라든가 하는 좋은 소재도 많이 나왔으니 잘 하면 일반 화면에도 쓰일 수 있을텐데, 그건 이제 전적으로 아마존에서 Kindle다음 버전을 어떤 화면으로 내느냐에 달려있는 것같다.

D*Click, iRiverMagicMouse, AppleMagicMouse, Apple



Deep Touch

곧 iPhone 5를 발표할 (것으로 보이는) Apple은 Pre-touch에 해당하는 FingerWorks의 기술과 Post-touch에 해당하는 터치+클릭 제작 경험이 있고, 아마도 며칠 차이로 Kindle Tablet이라는 물건을 발표할 Amazon은 Post-touch 압력감지가 되는 터치스크린을 가지고 있다. 단순히 순간적인 터치가 아닌 그 전후의 입력을 통해서, Touch UI의 태생적인 단점을 개선할 수 있는 '가능성'이 열리고 있는 거다. 이렇게 확장된 터치 입력 방식이, 그동안 이 블로그에서 "딥터치(Deep Touch)"라고 했던 개념이다. (그렇다. 사실 별 거 아니라서 글 올리기가 부끄럽기도 했다.)

얼마전 발표된 삼성의 갤럭시 노트도, 압력감지를 이용한 입력을 보여주고 있다.

Galaxy Note, SamsungS-Pen with Galaxy Note, Samsung

압력감지가 가능한 스타일러스를 포함시켜 자유로운 메모와 낙서를 가능하게 함은 물론, 스타일러스의 버튼을 누른 채로 탭/홀드 했을 때 모드전환이 이루어지게 한 것 등은 정말 좋은 아이디어라고 생각한다. (사진을 보다가 버튼을 누른 채 두번 탭하면 메모를 할 수 있고, 버튼을 누른 채 펜을 누르고 있으면 화면을 캡춰해서 역시 메모할 수 있다.)

하지만 PDA 시절 절정을 이뤘던 스타일러스는 사실 가장 잃어버리기 쉬운 부속이기도 했다든가(게다가 이 경우에는 단순히 플라스틱 막대기도 아니니 추가 구매하기도 비쌀 것같다), 화면에서 멀쩡히 쓸 수 있던 펜을 본체의 터치버튼에서는 쓰지 못한다든가 하는 디자인 외적인 단점들이 이 제품의 발목을 잡을 수도 있다. 게다가 무엇보다도, 만일 앞으로 발표될 iPhone 5와 Kindle Tablet에서 스타일러스 없이 Deep Touch를 구현할 수 있는 방안이 제시된다면 갤럭시 노트의 발표에서 출시까지의 몇개월이 자칫 일장춘몽의 시기가 될 지도 모르겠다.

개인적으로는 출시 준비가 거의 되고나서 발표를 해도 좋지 않았을까 싶은 아쉬움과 함께, 아예 펜을 이용한 인터랙션(이 분야는 동작인식과 관련해서 많은 연구가 있던 주제이고, 검증된 아이디어도 꽤 많다.)을 좀 더 적극적으로 도입해서 손가락이 아닌 펜의 강점을 최대한 부각시키면 좀 더 robust한 경쟁력이 있는 상품이 되지 않을까 상상해 본다. 물론 남이 만든 OS를 쓰다보니 독자적인 인터랙션을 구현하는 데 한계가 많았다는 건 알겠지만, 무엇보다 홍보 문구대로 "와콤 방식"의 펜을 적용했다면 pre-touch pointing 이라든가 압력과 각도에 반응하는 UI도 구현할 수 있었을텐데 말이다. (특허 문제는 뭐 알아서 -_- )



Multi-touch든 Deep-touch든, 혹은 HTI가 적용된 다른 어떤 종류의 새로운 UI 방식이든, 우리는 그것이 모두 어떤 군중심리에 사로잡힌 설계자에 의해서 "임의로 정의된 입출력"임을 잊으면 안 된다. 사용자가 익숙하게 알고 있는 어떤 물리적 법칙도 적용되지 않고, 상식으로 알고 있는 공리가 반영되어 있는 것도 아니다. 새로운 UI 기술이 주목받게 되었을 때 그 기술을 충분히 이해하고 그 잠재력을 발휘하도록 해주는 최후의 보루는, 결국 사용자 중심의 관점를 프로젝트에 반영하는 전문성을 가진 UI 디자이너이다. (혹은 유행따라 UX.)

하나하나의 UI 기술이 상용화될 때마다, UI/UX 디자이너들 사이에는 그 완성본을 먼저 제시하기 위한 물밑 경쟁이 치열하게 이루어진다. 기술과 사용자의 입장을 모두 고려해서 최적화된 UI를 설계한 팀만이 그 경쟁에서 승자가 되고, 결국 다른 이들이 그 UI를 어쩔 수 없는 표준으로 받아들이는 모습을 흐뭇한 표정으로 볼 수 있을 것이다. 아마도.

한줄결론: Good luck out there.

신고
Posted by Stan1ey

Voice Search in Korean

2010.06.20 01:46
지지난 주에 다음 커뮤니케이션에서 아이폰용 Daum 앱에 음성검색 기능을 포함시켰다기에 이게 웬일이냐..하고 있는데, 지난 주에는 구글 코리아에서도 모바일 음성검색의 한국어 버전이 안드로이드 앱으로 (아이폰용도 업데이트할 예정) 발표되고, NHN에서도 올해 안에 음성검색 모바일앱을 내놓겠다고 한다.

Daum Voice Search on iPhone AppGoogle Voice Search in Korean on Android App

누가 먼저 시작했는지는 모르겠지만, 이 일련의 음성검색 발표 러쉬에는 업계의 경쟁심리가 작용했을 것이다. 그렇지만 다음도 일찌감치 음성인식 앱을 준비하고 있음을 홍보한 적이 있고, 구글 음성검색이야 진작에 출시되어 있었던 만큼 준비들은 오래전부터 해왔을 테고, 그래선지 음성인식의 적확률에 대해서도 다음의 앱이나 구글의 앱이나 기대 이상이라는 반응이다. 특히 안드로이드 OS는 초창기부터 음성인식을 위한 고려가 포함되어 있을 정도였으니까.

일전에도 구글 음성검색의 두번째 언어가 중국어가 됐다는 소식을 전하면서 한국어는 몇번째로 구현이 될지 궁금해 한 적이 있는데, 결국 예상한 대로 프랑스어가 사용자가 상대적으로 많은 한국어보다 먼저 구현이 되었고, 한국어는 8번째로 구현된 언어라고 한다. 뭐 솔직히 생각보다는 빨리 구현해 줬다. -_-a;;

다음과 구글의 음성검색 기능에서 Voice UI를 비교해 보려고 했지만, 우리나라 앱을 설치할 수 있는 안드로이드 폰을 구할 방법이 없어서 통과. 그리고 나름대로의 방법으로 이미 이 둘을 비교한 기사는 이미 올라와 있다.

Speech Recognition Result 1, Daum Voice SearchSpeech Recognition Result 2, Daum Voice SearchSpeech Recognition Result 2, Daum Voice Search

아이폰용으로 우선 출시된 Daum 앱의 경우, 음성인식 결과는 기본 설정에서는 바로 검색결과를 보여주며, 그와 함께 "음성인식결과 더보기" 기능을 통해서 N-Best 결과를 추가로 볼 수 있게 되어 있다. 보다 일반적인 방식으로 음성인식 결과의 대안들을 먼저 보고나서 그 중에서 인터넷을 검색할 어휘를 선택하려면, "설정" 메뉴에서 "음성인식 결과보기" 옵션을 켜면 위의 오른쪽 그림과 같이 다섯가지 대안결과가 팝업창으로 나타나고 원하는 결과가 없을 경우 바로 재시도할 수 있다.

음성인식의 오인식 확률을 생각하면 보다 전통적인 후자의 방식이 기본으로 제공돼야 한다고 해야 하겠다. 배경잡음이 없는 상태에서의 인식률은 상당한 편일지 몰라도, 인식이 잘 되던 구절을 몇가지 소음환경(화이트 노이즈, 배경음성 등)에서 똑같이 시도했을 때에는 여전히 인식이 거의 되지 않았고, 그런 상황에서 바로 음성입력을 다시 할 수 있도록 해주는 것은 중요한 기능이기 때문이다. 하지만 사실 그러면 또 음성인식의 가장 큰 문제를 부각시키는 모양새가 될테니 어쩔 수 없다고 할까.



이래저래 다루기 쉽지 않은 음성인식 서비스를 출시하려니 고심이 많았다는 건 그렇다고 해도, 역시 Voice UI 관점에선 아쉬운 점이 눈에 띄지 않을 수 없다.

No Network Error in Daum Voice Search
우선 두 회사 모두 모바일 기기에서는 입력된 음성 데이터에서 비교를 위한 특징만을 찾아 보내고 음성인식 기능 자체는 고성능/대용량/실시간 서버에 맡기는, 분산 인식 방식을 채용하고 있다. 일전에 구글의 음성인식을 써봤을 때도, 또 이번 다음 앱의 경우에도 인터넷 연결이 안 될 경우엔 기능 자체가 실행되지 않는다. 비록 사용에 제한이 따르고 경우에 따라 통신요금까지 부과되는 형식이긴 하지만, 음성인식의 성능을 위해서는 어쩔 수 없는 선택이라고 생각한다. 그렇지만 분산인식을 선택한 경우에는 또 그 나름의 장점이 있을 수 있는데, 그걸 제대로 살리고 있는지는 잘 모르겠다.

Input Too Loud Error in Daum Voice Search
Daum 음성검색을 사용해 보다가 발견한 왼쪽 오류창은, 음성입력이 너무 클 경우 서버에 데이터를 보내기 이전에 나오는 장면이다. 이렇게 전처리 과정이 모바일 모듈 안에 있다면, 사실 할 수 있는 일이 좀 더 많을 것이다. 잘못된 음성인식 결과를 단순히 출력하거나 실제로는 별 의미 없는 "검색어를 말할 때 정확히 발음하여 주세요" 같은 안내문을 보여주기 보다, 음성 명령어 구간을 판정하는 EPD 작업 후에 배경소음과 음성명령어를 비교해서 "조용한 곳에서 인식이 더 잘 됩니다"라든가, "주변 사람들의 이야기하지 않을 때 더 잘 됩니다"라든가, "조금 더 큰 소리로 말씀해 주세요" 등의 안내문을 '상황에 맞게' 보여줄 수 있기 때문이다.

실제로 이런 방식을 적용했을 때, 이런 오류가 비록 정확하게 선택될 수는 없더라도 어느 정도 임의로 출력했을 경우 최종 인식률과 사용자의 만족도에는 큰 차이가 있었다. 인간과 같이 말을 알아들으면서도 사실은 스위치만큼이나 멍청해 보이는 장치가 아니라, 음성인식이라는 범주 안에서는 어느 정도 의사소통이 되는 상대방으로 인정받게 되는 것이다. 음성인식이라고 하면 그 인식엔진 안에서 일어나는 UI 디자인과 관련없는 일로서만 여기게 되지만, Voice UI 설계의 관점에서 주변 데이터에도 좀더 관심을 갖고 해당 기능을 사용하는 정황을 좀더 고민했다면 좋지 않았을까 하는 아쉬움이 든다.


또 하나 언급해둘 만한 것은, 음성인식 기능을 여전히 다른 GUI기반 기능과 동떨어진, 그냥 장식적인 feature로만 생각하고 있는 것 같다는 점이다. 음성인식은 제대로 동작할 경우, 키보드 입력을 대체하거나 최소한 보완할 수 있는 도구이다. 위에 링크한 기사들에서도 하나같이 비슷한 이야기들은 하고 있지만, 사실 판에 박힌 음성인식기술의 홍보문구 이상도 이하도 아니다. 그 관점을 실제로 UI 디자인에 적용한다면 어떻게 될까.



이를테면, 위 HTC의 Voice UI에서처럼 키보드와 음성인식을 대등하게 다루고, 키보드 입력을 하려다가 음성인식을 하거나, 음성인식이 실패할 경우 바로 키보드를 통해 보완할 수 있도록 하면 될 것이다. 아이폰이나 안드로이드나 앱에서 OS의 기본 키보드 위에 버튼을 추가할 수 있게 되어 있는데, 이미 좋은 선례가 있음에도 불구하고 이러한 관점을 살리지 못한 부분은 아쉬운 일이다.

... 그나저나 위 동영상에서는 단순히 검색어 몇 음절을 인식하는 수준이 아니라 받아쓰기 dictation 수준의 음성인식 기술을 보여주고 있는데, 이 놀라운(!) 기술수준의 차이에 대해서는 일단 넘어가기로 하자. UFO라도 주웠나보지 뭐.



뭐 어쨋든 간에, 몇차례의 뼈저린 실패에도 불구하고 슬금슬금 다시 고개를 들기 시작한 음성인식 기술이 이번에는 제법 주목을 받고 있다. 이 기회에 제대로 된 Voice UI 디자인에 대한 관심도 좀 생겼으면 좋겠는데, 적어도 결과물만으로 판단하기에는 아직 쉽지 않은 모양. 하지만 언제나 그렇듯이 또 이러다가 눈 깜박하는 순간에 주류가 되어 당연시되거나, 아니면 흔적도 없이 사라져 버리겠지.

외유 중인 인간은 굿이나 보고 떡이나 먹기로 하겠다. 이기는 편 우리 편! =8-P
저작자 표시 비영리 변경 금지
신고
Posted by Stan1ey
이미 제품의 외형이며 어떤 부품이 들어가는지까지 속속들이 드러나 버린 상태에서 이만한 관심을 끄는 제품도 없을 거다. 새로운 아이폰이 드디어 공식발표되고 웹사이트에 관련 내용이 올라왔길래, 한번 훑어보니 역시 짧은 키노트에 모두 포함되지 못한 내용이 좀 있다. 사실 키노트의 내용 중 많은 부분(이를테면 HD영상 녹화, 화상통화)은 오히려 하드웨어를 보고 예상할 수 있는 부분이었기 때문에 조금은 김이 빠져 있었는데, 발표에서 빠진 내용을 보면서 "역시 애플은 대단해..."이라는 덕심이 다시 한번 치솟는 기분을 느꼈다.

iPhone 4의 발표 소식(?)에 대해서는 이미 여기저기서 많이들 올라와 있을테니, 난 HTI 관점에서 직접적인 발표내용 외에 주목할만한 내용들, 그리고 누군가 열심히 UX 개선을 위해서 애쓴 흔적이 눈물겹도록 보이지만, 솔직히 물건을 파는 데 크게 도움이 되지 않아서 발표에서 제외된... 그런 내용이나 좀 정리해 보려고 한다. 서로 돕고 살아야지. (무슨 도움이 되겠다는 건지는 모르겠다만 -_- )

(1) Gyro Sensor
Gyro Sensor in iPhone 4

아 물론 자이로 센서가 포함된다는 사실 자체는 발표 내용에 대대적으로 포함됐다. 근데 이게 무슨 의미를 가질까? 잡스가 보여준 데모는 젠가라는 보드게임이었는데, 사실 휴대폰을 돌리면 화면이 돌아가는 정도는 기존의 가속도 센서로도 거의 불편함을 느끼지 못한 것이기 때문에 조금은 고개를 갸우뚱하게 한다. 이미 관련 블로그에도 그 의미에 대해서 의구심을 표시하고 있기도 하고. 사실 젠가 게임은 순수하게 자이로 센서의 특성을 보여주기에는 좋은 사례일지 모르지만, 실상 가장 강조되어야 할... 위 사진의 맨 아래에 등장하는 6축 동작인식이라는 부분이 잘 드러난 것 같진 않다. 자이로 센서가 들어감으로써, 기존 가속도 센서를 이용했던 회전 감지에 비해서 나아지게 되는 건 뭘까? 

기존에 들어있던 가속도계는 원래 상하좌우로의 직선운동을 잡아내는 물건이다. 마침 지구에는 중력가속도라는 게 있는 덕택에, 아래로 떨어지려는 움직임(정확히는 그 반작용)의 방향을 상하좌우 센서의 입력값을 비교함으로써 알아내고, 그걸 바탕으로 기기의 자세(가로/세로)를 알아내거나 매시각 비교함으로써 상대적인 회전을 찾아내는 것이다. 이렇게 직선운동을 잡아내는 물건으로 회전운동을 찾아내려다 보니, 직선운동과 회전운동을 둘 다, 실시간으로 구분해서, 함께 인식하기가 어렵다는 문제가 있다.

이제 순수하게 회전을 담당할 자이로 센서가 들어감으로써 아이폰은 회전과 직선운동을 동시에 알아낼 수 있게 된 것이다. 이건 단지 잡스의 데모에서처럼 사용자가 폰을 들고 제자리에서 돈다는 정도가 아니라 3차원 공간에서의 자유로운 위치와 자세 변화를 (상대적으로) 인식할 수 있다는 거다. 한동안 유행했던 증강현실(AR)을 예로 들자면, 이제 기준이 되어 줄 AR-Tag가 없이도 임의의 공간을 상정하고 그 주변으로 아이폰을 움직이면서 그 공간에 떠 있는 가상의 물체를 관찰할 수 있을 것이다. 아니 심지어 공중에 직접 3차원 그림을 그리는 건 어떨까. 3차원 그림을 그리고 감상하는 어플도 충분히 가능하리라 생각한다. (가속도 센서와 자이로 센서의 악명높은 오류 누적 문제는 일단 덮어두자. -_- )

사실 이제까지 회전인식을 도와주던 게 3GS부터 들어가 있던 전자나침반인데, 이건 주변 자기장의 변화에 따라 초기화를 시켜주지 않으면 제멋대로 돌아가 버리는 아주 심각한 문제를 가지고 있다. 그렇다고 지도 서비스에서 동서남북을 알아낼 수 있는 기능을 버릴 순 없으니, 결국 다소 중복되는 것 같더라도 자이로 센서를 다시 추가했음을 짐작할 수 있다.

이로서 아이폰에는 자세를 알아내는 센서만 3개다. 이 센서값들을 개발자에게 어떻게 활용하기 쉽게 제공할지가 관건이 되겠지만, 이제 사실 더이상 넣을 센서도 없게 된 만큼 iPhone 4는 뭔가 궁극의 입력장치가 되지 않을까 기대하고 있다. 특히 닌텐도 Wii의 MotionPlus 리모트가 가속도 센서와 자이로 센서, 그리고 적외선 마커를 이용한 기준위치(화면)를 알아내서 정밀한 움직임을 측정하고 있다는 걸 생각해 보자. 아이폰은 이제 시각적 마커를 카메라로 알아낼 수도 있고, 심지어 나침반과 GPS 정보로 마커를 대신할 수 있게 됐다. 이상적으로 말하자면, 아이폰은 지구상 어디서 어떤 위치/높이에 어떤 자세로 어떤 움직임으로 사용되고 있는지를 완벽하게 계산할 수 있게 된 것이다. ... 어떻게 보면 좀 무섭다. ㄷㄷㄷ


(2) FaceTime using Rear Camera
FaceTime on iPhone 4
뒷면 카메라를 이용한 화상통화. 이것 역시 키노트에서 발표된 주요 내용 중 하나이긴 하지만, UX 관점에서는 꽤 신선한 느낌이다. 사실 화상통화(WiFi를 이용해서만 된다니 화상채팅?)는 거는 사람이나 받는 사람이나 다소 부담스러울 수 있는 상황이고, 사실 얼굴이야 서로 잘 알고 있을테니 얼굴만 봐도 좋은 연인 사이가 아니라면야 그보다 내가 지금 보고 있는 장면을 공유하면서 화제로 삼는 게 좀더 유용한 화상통화의 활용방법일 수 있겠다.

사실 이런 식의 활용에 대해서는 예전에 좀 들여다 본 적이 있는데, 이 특허 - 화상통화를 하면서 전면 카메라와 후면 카메라를 전환할 수 있는 - 는 국내 L모사가 6년전 쯤에 출원했던 것으로 기억한다. 결국 그게 특허로 등록이 되었는지, 그리고 그 특허가 혹시나 이번에 FaceTime을 굳이 WiFi 버전으로만 내는 데에 어떤 영향을 미쳤는지는 모를 일이다. (사실 애플이 언제 특허 신경 썼나... 아마 전송되는 화상의 품질 때문에 내린 결정이라고 보는 게 더 타당할꺼다.)

이 기술은 기존에 3G 망을 통해서 할 수 있었던 화상통화와 전혀 다르지 않아 보이기 때문에 처음 발표를 접한 사람들도 "남들은 이미 다 하고 있었다"면서 시큰둥한 반응이 있기는 했지만, 전화통화 상대방과 전화망 외의 ad-hoc IP 네트워크 연결을 순간적으로 해준다는 건 꽤 혁신적인 발상이다. 다른 네트워크(3G 등)으로 확장하는 것도 어렵지 않은 방식이긴 하지만, 사실 굳이 화상통화를 WiFi로 제한한 것은 아이폰 덕택에 기하급수적으로 늘어나는 통신사의 데이터 통신망의 부하를 어떻게든 줄여주고자 하는 제스처 아니었을까. 이런 식이라면 화상통화를 하면서도 통신사의 데이터망은 건드리지 않을 수 있을테니까.

이게 만일 MSN 메신저와 같은 방식으로 어딘가에서 각 통화자들의 IP를 연계해주는 화상채팅 중계 서버가 있는 거라면 여러가지로 문제가 되겠지만... 굳이 "zero set up"을 강조하고 "open standard"로 추진하는 걸로 봐서는 그냥 폰과 폰이 직접 P2P로 IP를 주고받고 화상망을 구축하는 방식인 듯 하다. (만일 따로 중계서버가 있어서 아이폰 사용자의 화상통화 상황을 알 수 있다면... ㄷㄷㄷ )


(3) The Second Camera
Front Camera on iPhone 4
화상통화와 함께, 드디어 결국 전면카메라가 들어갔다. 이미 지난 수년간 디지털 카메라에 들어간 얼굴인식/미소인식 등의 영상인식 기술이 특허침해 같은 거 검토하지 않고 무작위로 App으로 등장하고 있는 와중에, 전면카메라가 갖는 의미는 각별하다. 이를테면, 아래와 같은 걸 아이폰에서 볼 수 있게 된 것이다!



혹은 이전에 소개했던, 전면카메라를 활용한 NDSi의 (조금은 우스꽝스러운) 게임들은 어떨까. 앞의 자세 인식 센서들과 함께 전면카메라의 사용자 얼굴인식 기능이 합쳐진다면, 이건 뭐 어떤 괴물 앱이 나와도 이상하지 않겠다. 키노트 내용에 따르면 전면 카메라에 대한 API도 개방될 것 같으니, 개발자들이 어떤 사고를 쳐줄지 두근두근 기다려 보자.


(4) Dual Mic

마이크가 위아래로 2개 들어간다는 소리가 나오는 순간 눈이 번쩍 떠졌다. 전화를 표방하는 기기에서 마이크가 2개 들어간다면, 이유는 뻔하다. 발표 내용에도 나왔듯이, 배경의 잡음을 없애 깨끗한 음성을 보내기 위함이다. 양쪽 마이크에 입력되는 음의 파형을 시간축으로 미리 설정한만큼 평행이동 하면, 아래쪽 마이크 가까이 있고 위쪽 마이크에는 어느 정도 떨어져 있는 (즉, 음성이 전달되기까지 시간이 좀 걸리는) 사용자의 음성이 겹쳐지게 된다. 나머지 음향정보는 사용자 음성이 아닌 주변 잡음이기 때문에 신호를 줄여버리면, 깨끗한 음성만 보낼 수 있는 거다.

사실 이 기술은 2년전쯤 "알리바이폰"이라는 명칭으로 국내에도 상품화된 적이 있으니, 새롭다고 하긴 어렵다. 기술에 붙인 이름이 좀 위험스러워서인지 마이크 하나 더 붙이는 단가가 부담스러웠는지, 어쨋든 "깨끗한 통화"라는 본래의 취지가 무색하게 이후의 휴대폰에서 이 기술이 적용된 사례는 찾아보기 어렵다. :(

어쨋든 dual mic의 채용에 반색하는 개인적인 이유는, 물론 음성인식률의 향상을 기대하기 때문이다. 여러 개의 마이크(mic array)를 이용해서 음성명령의 공간 상의 위치(방향/거리)를 파악하고 나머지 음향을 소음으로 여길 수 있다거나, 심지어 여러 명이 동시에 말하는 내용을 따로따로 구분할 수 있다는 기술만큼은 아니겠지만... 그래도 이 마이크 입력을 이용하면 통화나 음성인식 뿐만 아니라 박수소리의 방향/거리를 알아낸다든가 동영상 녹화 시에 배경음을 녹음할지 녹화자의 음성을 녹음할지 선택할 수 있다든가 하는 기능도 구현할 수 있을 것이다. 단지 이 마이크들에 대한 API에 대해서는 따로 언급이 없었고, 무엇보다 이런 신호처리를 하려면 그냥 주어진 조건(귀옆에 대고 통화하는)에 맞춰서 하드웨어에 프로그램을 박아 버리는 게 편하기 때문에 과연 그 정도의 자유도가 개발자에게 주어질지는 모르겠다. 그냥 위 조건에 맞춰진 잡음제거 기능의 강도를 조정하는 정도가 아닐까?


(5) N-Best Type Correction
Type Correction on iPhone 4
터치스크린의 잦은 오입력을 보완하기 위해서 아이폰을 필두로 많은 스마트폰은 어절 수준에서 오류를 인식하고 자동으로 수정해 주는 방식을 채택하고 있다. 어절을 기준으로 한 수정방식이 한글이나 조사/어미를 갖는 다른 언어들에 맞지 않는다는 점은 차치하더라도, 기존의 방식은 띄어쓰기나 마침표 등을 입력할 때 무작정 오류(라고 생각한) 입력을 지우고 대안으로 바꿔버리기 때문에 자주 쓰지 않는 단어를 입력할 때마다 사용자가 아차하는 순간에 의도하지 않은 내용이 입력되는 경우가 많다. 사실 이건 모든 인공지능 입력 기술이 가지고 있는 공통적인 인식률의 문제이기도 하고.

그런데 이번에 공개된 내용 중 한 페이지에는 다른 부분과 달리 오타로 추측되는 어절을 분홍색으로 표시한 후 사용자가 터치하면 몇가지 대안(인식기술 쪽에서는 N-Best라는 표현을 쓰는, 사실은 가장 흔한 방식이다.) 중 하나를 선택할 수 있게 해 주는 내용이 나와 있다. 문자 메시지의 경우에는 안 되고 이메일에만 되는 기능이라면 사용자의 혼란이 있을 것도 같은데, 어쨋든 이렇게 사후수정 방식이라면 터치스크린과 잘 어울리기도 하고, 의도하지 않은 수정을 없애거나 다시 복구하기 쉽게 만들 수 있을 듯 하니 반가운 일이다. 터치스크린의 오터치 보완 방식이 조금은 인간을 위해 겸손해진 느낌이랄까.


(6) Faces and Places
Faces - Face Recognition on iPhone Photo Album on iPhone 4Places - Location-based Photo Album on iPhone 4

이미 iPhone OS 4 (이젠 iOS 4가 됐다)의 개발자 버전을 통해서 많이 누설됐지만, 데스크탑용의 Mac OS에서 구동되는 iPhoto를 통해서 가능했던 Faces와 Places 사진정리 기능이 아이폰으로 들어왔다. 어찌나 반갑던지. :)

설명을 보면 Faces 기능은 iPhoto와 함께 사용할 수 있다고 되어 있는데, 이거 iPhoto에서 얼굴인식한 내용을 가지고 모바일에서 보여주기만 한다는 건지, 아니면 그냥 얼굴인식은 각자 하고 그 meta-tag를 공유한다는 얘긴지 모르겠다. 작년에 보여준 iPhoto의 얼굴인식 및 등록 기능은 아이폰에서 똑같이 만들기에 사용자 입장에서도 기술적으로도 어려워 보이지 않았으니 전자는 아니라고 생각하지만, 그렇다면 왜 굳이 iPhoto를 언급했을까... 이 부분은 조만간 개발자 버전을 깐 사람들이 규명해 주리라 생각한다.



그리고...

ASL Users using FaceTime on iPhone 4
아래의 나머지는 늘 굳이 내세워 발표하지 않는, 장애인을 고려한 확장된 접근성에 대한 부분이다. 애플은 위 FaceTime을 홍보하는 동영상에도 수화로 대화하는 연인을 넣을 정도로 장애인에 대해서 고려하고 있으면서, 절대로 그걸 크게 부각시키는 법이 없다. 어쩌면 "특정 사용자 전용이 아닌, 더 많은 사용자에게 편리한" universal design의 철학에 가장 걸맞는 모범을 보이고 있다고나 할까.


(7) Gesture-based Voice Browsing
Gesture-based Voice Browsing on Safari, iPhone 4
우선 첫번째는 웹 브라우저. 이미 들어가 있던, 웹페이지 내용을 음성으로 읽어주는 기능에 더해서, 웹페이지의 특정부분에 손가락을 대면 바로 그 부분의 텍스트를 읽어주는 기능을 추가했다. (왼쪽 그림에서는 오른쪽 아래 광고(?) 영역을 선택해서 듣고있는 상태)

기존의 screen reader 프로그램들은 HTML 코드를 내용 부분만을 잘라내어 처음부터 줄줄이 읽어주는 게 고작이었고, 일부러 시각장애인을 고려해서 코딩하지 않는다면 어디까지가 메뉴고 어디부터가 본문인지도 알기 힘들었다. 그런데 이렇게 모바일 기기의 터치스크린의 장점을 살려서 손에 들고 있는 페이지의 특정 위치를 항행할 수 있게 한다는 것은 정말 혁신적인 장점이 되리라 생각한다.


(8) Rotor Gesture

이 기능은 3GS부터 있던 기능이라는 것 같은데, 왜 이제서야 눈에 띄었는지 모르겠다. 화면 상에 실제로 뭔가를 표시하는 건 이번이 처음인 것 같기도 하고... 어쨋든 이 기능은 두 손가락을 이용해서 회전식 다이얼(로터)를 돌리는 듯한 동작을 하면, 아마도 그 각도변화에 따라서 몇가지 음성항행 모드 중 하나를 선택해 준다. 이를테면 목록을 읽을 때 제목만 읽기라든가, 바로 기사 본문으로 가기라든가, 링크된 영역만 읽기라든가... 기존의 음성 웹 브라우징은 키보드 단축키를 통해서 이런 모드를 지원했는데, 이 로터 제스처는 터치스크린에 맞춘 나름의 좋은 해법인 것 같다.


(9) Braille Keyboard Support
iPhone 4 Supports Braille Keyboards via Blutooth
말 그대로, 블루투쓰를 통한 25개 언어의 점자 키보드를 지원한단다. 휴... 이건 정말 쉬운 결정이 아니었을 듯. 점자 키보드라는 게 얼마나 표준화가 잘 되어 있는지 모르겠지만, 경쟁사의 다른 무선 키보드와도 연동하기 까다롭게 만들어 놓기로 유명한 애플사다. 이렇게 점자 키보드를 위한 입력을 열어놓으면 분명히 제한없이 공개되어 있을 그 방식을 적용한 비장애인용 키보드 제품이 쏟아질 건 자본주의의 이치. 비록 악세사리라고는 해도 독점이 가능한 키보드도 팔고 있으면서 이런 결정을 내린 사람들은 도대체 어떤 경영진, 어떤 책임자, 어떤 월급쟁이일까. 어쨋든 훌륭한, 심지어 존경스럽기까지 한 결정이다.



이상. 사실 별다른 관심이 없던 발표여서 신나는 내용이 많기는 했지만, 왠지 개인적으로 다음 달에 판매한다는 iPhone 4를 바로 구매할 만한 큰 계기는 찾지 못했다. 무엇보다 루머의 RFiD도 안 들어갔고... 지금 쓰고 있는 아이폰을 1년반 넘게 썼으니, 2년을 채우고 고민해 봐야 할 듯 하다.
저작자 표시 비영리 변경 금지
신고
Posted by Stan1ey
업무시간에 '이것도 일이지 뭐' 싶어서 IxDA에서 최근에 한 Interaction '10의 강연 동영상을 보다가, 문득 나랑 참 생각의 방향이 비슷한 사람을 알게 됐다.




결론은 조금 너무 소극적이라는 생각이 들긴 하지만, 그래도 내가 관심있는 주제나 관련된 모델들을 비슷한 관점에서 엮고 있다는 생각이 든다. 보아하니 강연도 별 인기가 없었고 글에는 리플도 없는 상황인 것 같지만, 그래도 반가운 걸 어쩔 수 없다고나 할까.

나중에 혹시 찬찬히 다시 볼 일이 있을까 싶어서 스크랩해 두기로 했다.
신고
Posted by Stan1ey
요새 Web UI와 관련이 있는 업무가 생겨서, 상을 받았다는 웹사이트들을 한 100군데 정도 본 것 같다. 그러던 와중에 흥미로운 사례를 몇가지 발견했다. 웹사이트에 3D 컨텐트, 혹은 3D UI를 적용한 사례가 속속 등장하고 있는 것이다. 직접적으로 Web UI와 관련된 업무를 한 지가 5년은 넘었기 때문에, 어쩌면 아래 사례들이 오래 전의 철지난 이야기일지도 모르겠다. 하지만 3D 영화와 TV 방송이 논의되는 시점에서 한번 다시 짚어본다고 뭐 나쁠 건 없겠지.


우선 몇 달 지난 이야기이긴 하지만, YouTube에서는 3D 동영상 서비스를 시험운영하고 있다. 아직은 시험운영 중이기도 하고 일반적으로 웹 서핑을 하는 사람들이 입체 동영상을 볼 준비가 되어 있는 것도 아니기 때문에 몇몇 관심있는 사람들이 이런저런 실험을 하는 수준에 머물고 있다.

그래도 이 서비스가 정식 서비스를 하게 되면, 3D 동영상을 만들어서 공유한다든가 웹사이트에 올려놓는 것이 그렇게 어려운 일은 아닐 것이다. (아래 동영상은 유투브 사이트에 직접 가서 봐야 다양한 3D 보기 옵션을 확인할 수 있다.)

YouTube in 3D

다만, 인터넷 동영상을 보는 장비인 PC나 TV의 3D display 방식은 양쪽 눈에 뿌려질 화면을 교대로 보여주면서 안경을 좌우로 깜박이는 소위 셔터 클래스 shutter glass 방식인데, YouTube에서 서비스하는 방식 중에는 정작 그 방식이 쏙 빠져있다. 스트리밍 서비스로서는 화면장치와 직접 연동하기 쉽지 않으니 어쩔 수 없겠지만, 같은 3D 컨텐트를 가지고 방식이 다르다는 건 앞으로 TV 쪽의 입장에서나 컨텐트 제공자의 입장에서나 고심하게 될 문제가 아닐까.



다른 사례는 3M Filtrete 기술의 홍보 웹사이트이다. 이 사이트에서는 주로 동영상을 중심으로 색안경을 이용한 3D display 기술을 적용해서, 사용자가 직접 박테리아의 끔찍한 모습을 입체적으로 볼 수 있도록 한다. 사용자는 동영상 속에서 날라드는 박테리아를 클릭해서 그 자세한 설명과 경고문(협박성;;)을 찾아볼 수 있다.

3D Experience for 3M Filtrete3D Experience for 3M Filtrete

하지만, 중심이 되는 3D 경험 부분을 제외하면 웹사이트의 다른 부분은 기존의 웹사이트와 똑같고, 조금 더 신경쓴 부분이 있다면 빨강/파랑 색안경을 쓴 사용자를 고려했는지 대부분의 GUI 요소들이 노란색으로 통일되어 있다는 정도일까.



그에 비해 세번째 사례는 UI에까지 좀더 본격적으로 3D 개념을 적용했다. 폴란드 맥주 Lech의 웹사이트로서 몇달 전에 오픈한 것 같은데, 역시 색안경 방식을 이용한 3D UI를 사용하고 있다.

3D Web UI from Lech.pl
2D Web UI from Lech.pl3D Web UI from Lech.pl3D Web UI from Lech.pl

이렇게 전체 웹사이트의 UI에 입체감을 적용한 것은 개인적으로 처음 보는 사례인데, 이 웹사이트가 정말 흥미로운 건 비록 간단한 웹사이트이긴 하지만 3D UI를 구석구석까지 적용한 데다가 오른쪽 위의 2D/3D 아이콘을 클릭하면 같은 화면을 2D/3D로 전환해 가면서 사용할 수 있게 했다는 것이다. 이 기능은 사실 어느 컨텐트, 그림, 동영상, 그리고 UI 요소에 3D를 적용했는지 알아보기에 아주 편리하다.

이렇게 입체적으로 구현된 UI를 만드는 것은 손이 더 많이 가는 건 물론이고, 전체를 무비클립 중심의 플래쉬 사이트로 만드는 것 외에는 달리 방법이 없어 보인다. 애당초 HTML이나 CSS에 구역/요소 별로 화면 상의 깊이를 정의할 수 있게 해주는 방식이 표준화되지 않는다면, 보통의 일반적인 웹사이트에서 3D UI를 경험하기는 힘든 일이 될 게다.



웹사이트에서 일부분인 동영상 컨텐트를 3D로 보여줄 수 있는 서비스, 거기에 약간의 2D 상호작용을 가미한 경우, 그리고 UI 요소에까지 3D 표시를 적용한 사례... 이 세가지 사례는 3D 영화의 인기와 함께 대두되고 있는 "과연 3D는 어디까지 적용되는 게 적당한가?"는 질문과 함께 한꺼번에 고민해 볼만한 내용인 것 같아서 함께 모아봤다.

이 블로그에서도 3D UI 라고 말은 하고 있지만, UI가 3D일 필요 자체가 실제로 있기는 있을까? 그 수많은 잠재력에도 불구하고, 3D UI를 적용해야 하는 경우와 적용하면 안 되는 경우는 구분할 수 있지 않을까.

만약 모종의 이유로 3D UI를 제공하기로 했다고 할 때, 관람자가 카메라의 초점을 수동적으로 따라다니면 되는 3D 영화와 달리, 능동적으로 초점을 움직이고 UI를 사용하는 사용자의 행태를 지금까지 나온 3D 표시 기술이 과연 지원해 줄 수 있을까.

그렇다고, 반대로 3D 컨텐트가 제공되는 어떤 시스템에서 2D로 UI를 제공한다는 것은 또 말처럼 단순한 일일까? 3D 영상에서 제공하는 초점과 자막의 초점을 왔다갔다 하면서 멀미를 느꼈다면, UI에서도 비슷한 일이 일어나지 않을까?

흠...

Samsung SCH-W960 with 3D Screen
한편에서는 3D TV 방송이 시작될 예정이고, 3D TV도 봇물 터지듯 출시될 기세고, 수년 전에 개발해 놓은 휴대폰용 입체화면드디어 상용화되는 모양이다. 이 와중에 3D 화면에서의 UI에 대한 내 고민은 어째 돌고 돌아서 제자리에 와 버린 듯한 느낌이라니.
신고
Posted by Stan1ey
지난 6일자 USA Today에 실린 앞으로 10년간의 기술/경제적 변화상이라는 기사를 훑어보니, Personal technology와 Entertainment 분류의 내용이 재미있어서 스크랩해두기로 했다. 아래 내용은 나름의 요약과, 괄호 안은 그냥 떠오른 생각들이다.

Personal technology

Computers that anticipate our needs. 사용자의 행동 기록과 일정 계획을 바탕으로 좋아할만한 TV 프로그램을 추천하는 등의 기능 (똑같은 이야기를 30년 전에도 들었던것 같은... 쿨럭 ;ㅁ; )

Housework by robots. 로봇 청소기뿐만 아니라 다른 로봇들까지 가사를 돕기 시작한다. 각각의 용도에 따라 여러 대의 로봇을 가지게 된다. (문제는 가장 단순한 기능의 로봇 청소기조차, 내세우고 있는 청소 기능을 제대로 처리하기에 제약이 많다는 거겠다.)

Shape-shifting personal computers. 마이크로 머신의 조합으로 이루어진 개인용 기기가 용도에 따라 형태를 바꾼다. (트랜스포머..라는 건데, 그냥 접었다 폈다가 하는 정도를 말하는 게 아니라면 쪼끔 무리일 듯. 주머니 속에서 자기 판단에 따라 꿈틀거리는 놈이 들어있다면 무엇보다 무섭잖어. -_-;; )

Brain chip implants. 생각으로 컴퓨터를 조작할 수 있도록 머릿속에 칩을 심을 수 있다. 이메일은 쓰지 못할지 몰라도 마우스는 움직일 수 있다고. (이걸 위해서 칩을 심고 싶은 사람은 전신마비로 고생하는 사람 뿐일 듯. 그걸 시장이라고 부를 순 없겠지.)


Entertainment

We'll view films in many ways. TV 외에도 컴퓨터, 태블릿, 스마틑폰 등등... (이미 충분히 그렇다고 생각하지만.)

... But still go to the movies. 그래도 외식 등 다른 경험을 위해서 영화관에는 계속 갈거다. (.. 그리고 영화관은 점점 비싸고 쾌적해질 듯.)

Plusher theaters. TV 경험과 차별화하기 위해서, 영화관은 여러가지 서비스를 추가할 거다. 고품질 영상과 음향, 3D, 좌석 예약제, 좋은 음식, 영화를 소개하는 아나운서 등 (몇가지는 이미 벌어지고 있는 일이고, 한국에선 약간 무리다 싶은 4D까지 가고 있다. 나머지 몇가지 엥? 싶은 게 사실.)

Motion-controlled video games. 닌텐도 Wii와 같은 동작인식 게임이 표준이 된다. 버튼 조작은 옛날 이야기. (흠... 버튼 하나로 멋진 칼부림을 날릴 수 있다는 건 나름 매력적이다. 심각한 게임과 쉽게 즐길 수 있는 게임으로 이분화되어 진행되리라는 예측이 더 맞아들지 않을까.)

Healthier video games. 동작인식 게임을 하는 사람은 - 특히 노인은 - 보다 많은 보험 혜택을 받을 수 있다. (좀 극단적이긴 하지만, 가능성이 없는 이야기는 아니다.)

TV and computer, all in one. 가정에서는 컴퓨터와 TV가 일체화되어 TV의 고해상도 화면의 장점을 활용하게 된다. (이미 여러차례 시도됐지만, 결국 PC는 웹서핑 등 나름 특화된 기능이 있어서 미디어 PC를 하나 더 쓰는 걸로 결론이 내려지고 있지 않나?)

American Idol, 2020. 리얼리티 쇼는 계속해서 인기를 끌 거다. (그러시던가 -_-a )


이 두가지 분야가 기사 중에서 내가 관심을 갖고 읽은 대목이자, 그동안 이 블로그에서 다뤘던 내용이다. 이런 미래 예측이 꼭 모두 맞으리라는 법은 없지만, 가정용 로봇이 확대 적용되고 영상 미디어에 3D가 적극적으로 도입되는 것은 바로 지금 한창 현실이 되고 있기도 하다.

LG전자에서는 2007년 '로봇청소'라는 개념을 넣은 에어컨을 발매해서 좀 재미를 봤는지 (사실 구동부는 모두 내부에 있어서 사용자 입장에선 '로봇'이라는 느낌이 안 듦에도 불구하고), 다른 에어컨에 이미 적용되어 있는 움직임 감지 기능을 "인체감지로봇"이라는 이름으로 홍보하면서 요즘은 아예 로봇을 광고 전면에 내세워서 홍보하고 있다. 로봇 청소기를 시장에 정착시켰다고 할 수 있는 iRobot 사에서는 오히려 신제품 개발이 뜸한 반면에 삼성과 LG에서는 기존에 비해 개선된 청소로봇이 심심찮게 발표되고 있기도 하고, 여기에 점점 똑똑+복잡해지는 세탁기까지 로봇이라고 하기 시작하면 가정용 로봇이 확대 적용된다는 것은, 혹은 다른 말로 가전기기가 이제 '로봇'이라고 부를 수 있을 정도로 발전하고 있다는 것은 기정 사실이라고 봐도 되겠다.

3D 영상은 이미 극장에서는 누구나 대세라고 인정하는 것 같고, 이번 CES에서 삼성소니에서 LCD/OLED로 3D TV를 구현해서 내놓는가 하면 삼성은 아예 "3D의 모든 것을 보여주겠다"는 선언까지 해버린 듯 하다. (어느샌가 LED TV라고 부르는 LCD TV에 대한 언급은 하지 않기로 -_-; ) 아직까지 발표된 3D TV 방식은 모두 시청자가 배터리가 포함된 안경 shutter glass을 써야 하는 방식인데, 삼성에서 Real-D사와 협약을 맺었다는 걸로 봐서는 조만간 그냥 플라스틱 안경을 쓰는 식으로도 가능할지 모르겠다. 픽셀단위로 편광을 조작할 수 있는 방법을 찾아냈는지 이미 올릴대로 올려놓은 시간해상도를 반으로 나누려는 생각인지는 모르겠지만. 이에 발 맞춰서 영국에서는 SKY가, 미국에서는 DirecTV가, 그리고 이젠 가장 영향력 있는 케이블 채널이라고 할 수 있는 ESPN까지 3D 방송을 연내에 추진하겠다고 나섰다. 하드웨어에 컨텐트까지, 3D TV가 안방을 차지하리라는 것 역시 기정 사실이라고 할 수 있을 듯.


3D와 로봇이라... 솔직히 로봇은 UI와는 다른 방향을 향해서 발전해 나가는 것 같고 HRI 분야 역시 상품기획 측면의 담론만 지속될 뿐 실제적인 UI 디자인 수준에서는 별다른 진척이 없다. 그에 비해서 3D는 당장 UI 요소를 어느 depth에 위치시킬 것인가라든가 하는 실무적인 고민이 산적해 있는 상황이므로 앞으로는 이 분야의 논의가 점점 많아질 듯.

이제 Post-GUI라는 컨셉은, 모바일 기기에서는 터치 UI동작 UI, TV를 비롯한 AV기기에서는 3D UI라는 구도로 움직여 가는 듯 하다. 개인적인 바램으로는 컨텐트로서의 UI, 즐길 수 있는 Fun UI라는 방향도 좀 잡혀줬으면 하는데 말이지.



... 사실 이런 새로운 개념의 UI들이 실무에 적용되는 상황이 되면서, 블로그에 거기에 대한 글을 올리기가 점점 망설여지는 게 사실이다. 아무래도 연구 수준에서 하는 다루는 것과 취미(?) 수준에서 접근하는 것은 실제로 만들어보고 시행착오를 거치면서 배우는 것과 질적으로 큰 차이가 있게 마련. 실무 없이 이것저것 끼워맞추다 보면 뭔가 흰소리가 많이 끼어들게 되어 있고, 그러다 보면 무식과 경험부족이 탄로나는 것도 시간문제라고 생각한다.

결국 그저 입 닥치고 있는 게 제일 나은데, 뭔가 좀 아쉬운 마음에 잊을만하면 이런저런 글을 올리고 있다. 그러면서 정작 종사하고 있는 Fun UI 분야의 생각은 좀체 마무리가 되지 않아 나서지 못하고 있는 중.

아놔, 이 블로그 어쩌지 이거...
신고
Posted by Stan1ey
요새는 TV 광고 보다가 재미있는 거 간단히 소개한 글만 올리고 있는데, 그러다보니 스스로 좀 폐인같이 느껴질 때가 있다. ... 뭐 사실 그렇지 않냐고 하면 또 할 말이 없고. ㅎㅎ 어쩌겠나 그래도 자꾸 눈에 밟히는데.


이번에 눈에 띈 물건은 휴대폰 벨소리와 게임 등을 다운로드 받을 수 있게 해주는, Jamster 라는 회사의 광고에서 눈에 띄었다. 이름하며 eyeCall.

eyeCall being sold on Jamster

위 웹페이지에서도 볼 수 있듯이, 이 소프트웨어는 전화벨이 울릴 때 휴대폰의 카메라를 구동시키고, 카메라 앞에서의 움직임을 인식해서 벨소리를 진동이나 자동응답으로 바꿔주는 기능이다. 통신사에서 휴대폰 컨텐츠의 일거수일투족을 제한하는 우리나라의 상황에서는 이렇게 제3자에 의해서 공급되기가 힘든 소프트웨어지만, 사실 기술적으로는 일전에 언급했던 삼성 매직홀 휴대폰의 참참참 동작인식 게임과 다를 바 없겠다.

조금 더 찾아보니, 이 소프트웨어는 휴대폰 카메라를 통한 영상인식을 전문으로 내세우는 eyeSight 라는 회사에서 만든 물건이었다. 이 회사에서는 eyeCall 외에도 eyeCan (동작으로 4방향키 입력을 대체해서 음악재생이나 화면넘기기 등의 특정 작업을 도와주는 방식), eyePlay (동작으로 게임 속에서 '던지기' 동작 등을 입력할 수 있게 하는 방식) 등을 만들고 있다. ... 근데 웹사이트 자체는 컨텐츠가 온통 뒤죽박죽. 아래 동영상이 차라리 정리가 잘 되어 있다.



웹사이트와 위 동영상 내용을 조합해 보면, 비교적 열악한 카메라를 - 특히 최근 3G 네트워크에서의 영상통화를 위한 전면 카메라까지 - 이용해서도 안정적인 인식이 가능한, 다음 몇가지 동작을 수행하는 것 같다.

(1) 카메라 위에서 손을 한 방향으로 움직인다.
- 화면을 그 방향으로 스크롤하거나 다음 페이지로 넘기는 기능
- 미리 정해진 특정 기능 (예: 발신자에게 자동응답 메시지 보내기)
- 게임에서의 공격 기능 (예: 닌자 수리검 날리기)

(2) 카메라를 손으로 잠시 덮어둔다.
- 미리 정해진 주요 기능 (예: 벨소리를 진동으로 전환)

(3) 카메라를 손으로 짧게 덮었다 뗀다.
- 게임에서의 방어 기능 (예: 날아오는 무기 막기)


뭐 영상인식이다보니 어느 정도 조명이 있어야 한다든가 하는 제약은 있겠지만, 그래도 주어진 제약 하에서 기술을 활용할 수 있는 방법을 많이 꽤나 고민했을 것 같다. 휴대폰 카메라+CPU 정도의 수준에서 영상인식 기술을 적용함으로써 휴대폰의 움직임(=사용자의 동작입력)을 인식한다든가 심지어 사용자 얼굴의 움직임(=상하좌우 및 거리)을 인식해서 UI에 응용하려는 노력은 이미 여러 사례가 있지만, 그래도 이렇게 간단하나마 상용화한 팀이 있어서 반가운 마음에 스크랩.
신고
Posted by Stan1ey
Wand Remote - sold by Firebox.com
지난 주에 회사에 굴러들어온 광고지들을 버리다가 왼쪽 광고가 눈에 띄었다. Wand... remote... 흠. 모종의 연유로 꽤 익숙한 단어의 조합이다. 마법 지팡이 모양의 리모트 컨트롤러. 여러가지 동작을 인식해서 그걸 지팡이 끝의 적외선 LED를 통해 송신하는 방식이다. 위 홍보물에 적혀있던 웹사이트와 구글링을 통해서 이 "The Magic Wand Remote Control"를 개발한 회사를 찾아낼 수 있었다. 회사 이름 자체가 The Wand Company라고 한다.

The Magic Wand Remote Control

위 페이지에도 나와있지만, 이 물건을 이용해서 사용할 수 있는 주요 동작은 다음과 같다. 모두가 영화 <해리포터> 시리즈에 나오는 마법사가 지팡이를 휘두르던 동작을 연상하게 하는 모습들이다.

The Magic Wand Remote Control - Gesture

Flick Right: 오른쪽으로 세게 휘두르는 동작. 그 전에 반대방향으로 천천히 움직인 것은 무시된다.

The Magic Wand Remote Control - Gesture

Flick Down: 아래쪽으로 세게 휘두르는 동작. 역시 위쪽으로 움직인 준비동작은 인식하지 않는다.

The Magic Wand Remote Control - Gesture

Big Swish: 위에서 아래로 크게 휘두르는 동작. "연습이 필요함"이라고 되어 있다.

The Magic Wand Remote Control - Gesture

Volume Up: 지팡이 자체를 시계방향으로 돌리는 동작으로 소리 크기를 키운다. 물론 반시계 동작도 있다.

The Magic Wand Remote Control - Gesture

Single Tap: 지팡이 본체의 윗쪽을 톡 치는 동작. 한번 치기 외에 두 번 치기 동작도 인식한다.

The Magic Wand Remote Control - Gesture

Side Tap: 지팡이 본체를 옆쪽에서 톡 치는 동작. 이 경우에도 한번 치기와 두번 치기가 있다.


사용자 삽입 이미지
회사의 홈페이지에 올라온 사용설명서(달랑 한쪽짜리이긴 하지만, 제법 "마법 지팡이"의 느낌을 살려서 만들어져 있다)를 보면, 몇가지 응용동작이 추가로 나열되어 있다.

동작인식을 사용한 리모컨이라는 점도 그렇지만, 무엇보다 마법 지팡이라는게 있다면 이렇게 생겼겠구나 싶을 정도로 철저한 고증(?)을 거친 듯한 디자인과 마감을 가지고 있다는 게 이 제품을 꽤 주목받게 만들 것 같다.

그런데, 위 사용설명서의 내용이 HTI 및 UX 측면에서 재미있다고 여겨진 것은, 동작명령을 "Practice Mode"와 "Expert Mode"로 나누어 소개하면서 "Practice makes perfect." 같은 경구를 끼워넣었다는 점이다. 다른 인식기반의 HTI와 마찬가지로 동작인식도 입력된 동작을 명확히 구분하지 못하고 오인식이 일어날 수 있는데, 위에서 practice mode로 구분된 동작은 비교적 서로 구분이 분명한 종류이고, expert mode에 포함된 것들은 그 강약의 정도에 따라 오인식이 일어나기 쉬운 종류의 동작이다.

오인식률이 높은 동작을 마치 사용자가 연습이 부족해서 오인식이 일어난 것처럼 - 사실 기술적으로만 보자면 맞는 이야기지만 - 떠넘겼다는 건 보통 HTI 관점에서만 볼 때는 좋은 사례라고 할 수 없는 일이다. 하지만 UX 측면에서 생각해 보면 그 오인식을 극복하는 과정에 이야기와 의미를 부여하고 그걸 하나의 경험으로 승화시켰다는 측면에서는 훌륭한 사례가 될 수도 있다고 생각한다. 완벽한 동작이 이루어지지 않았을 경우에 일어나는 오인식이라는 단점을  오히려 UX의 진실성(authenticity)을 높이는 장점으로 활용한 것이다.



동작인식을 이용한 리모컨을 만들고, 거기에 "magic wand"라는 이름을 붙인 것은 사실 이 회사가 처음이 아니다. 국내에서도 이와 비슷하게 3축 가속도 센서를 이용해서 공간 상에 그려진 모양을 인식하는 리모컨의 프로토타입을 만들어 발표한 사례가 있는데, 이 연구에서 사용한 명칭도 바로 이 "magic wand"였다.



뭐 어쨋든, 이 "마법 지팡이"는 과연 상품으로서 성공할 수 있을까? 아래의 동영상을 한번 보자. (유투브가 없었으면 블로깅을 어떻게 했으려나 몰라.)


사용설명서를 다시 보면, 동작명령이 인식된 후에는 1~13번의 진동이 느껴지면서 동작이 과연 제대로 인식됐는지를 확인할 수 있도록 되어 있다. 일전에도 비슷한 사례에 대해서 언급한 적이 있지만, 이렇게 출력신호의 횟수만으로 정보를 확인하게 하는 것은 이해가 어려울 뿐만 아니라 언제 끝날지 모르는 반복 신호가 확실히 끝날 때까지 '기다리고' 있어야 한다는 단점이 있다.

위 동영상에서 가끔 보이는, 마법 동작 후의 어색한 기다림이 그 진동 피드백 때문인지, 적외선 신호가 늦게 송신되어서인지, 아니면 리모컨 입력 이후에 TV가 반응하기까지의 시간 때문인지는 분명하지 않다. 하지만 적외선 신호가 아니라 RF 신호를 이용하고, 서로 다른 입력에 대한 피드백을 LED 몇개로 표시하고, 지팡이 손잡이 한쪽에 압력 센서을 넣어 동작의 시작과 끝을 사용자가 자연스럽게 입력할 수 있게 했더라면 나름 인식률에도 기여하고 저런 어색한 기다림도 없지 않았을까 하는 아쉬움이 든다.

실제로 최근의 TV에는 RF 리모컨이 종종 적용되어 있지만, 아직 RF 신호는 제조사에서만 사용할 수 있는 듯 하다. 뭐 어쨋든 '마법 지팡이'라는 게 대기업이 만들만한 물건이라고 여겨질 것 같진 않지만. -_-a
신고
Posted by Stan1ey
크리스마스 시즌이 가까와지면서 (11월초부터 거리마다 크리스마스 장식에 아주 난리가 아니다 -_- ) 온갖 상점에서 선물용품을 홍보하고 있다. 그 중에 아이들이 좋아할만한... 혹은 내가 좋아라 하는 ^^; 종류의 게임을 발견했다.

EyePet for Sony PlayStation 3

EyePet이라는 이름의 게임이 PlayStation Eye (EyeToy의 이름을 바꾼 듯) 사진과 같이 나왔길래 그냥 예전의 아이토이와 비슷한 물건인 줄 알았는데, 카메라가 관련된다면 뭐든 심상찮은 타이밍이라 한번 동영상을 찾아봤다.



일단 위 홍보영상으로만 보기엔 완전 대박이다. 좀더 자세한 내용을 찾아보니, 아래의 실제 게임 플레이 동영상을 볼 수 있었다.
 


보통 AR 시스템에서는 다양한 역할을 하는 여러 개의 AR tag를 사용하는데, 이 시스템에서는 시종일관 하나의 태그(이름하여 "매직 카드")만 사용하고 있는 점이 재미있다. 덕택에 등장한 메뉴 시스템은 손을 좌우로 움직여서 목록을 움직이고 아이템을 선택한 후에는 잠시 기다림으로써 확정하는 소위 dwell 방식을 채택하고 있다. 방바닥을 인식하려면 아무래도 카메라를 초기화하는 작업이 필요할텐데, 아마 그것도 같은 태그로 마치 안구추적 영역을 초기화하듯이 하게 될 듯.

그 외에 같은 태그를 캐릭터 상태를 보기 위한 목적으로 쓰게 하는 접근이라든가, 결국 EyeToy와 똑같이 손을 흔들어 동작시키는 방식과 가상 물체를 이용한 UI를 혼합한 방식 등은 많은 고민이 있었음을 알 수 있게 해준다.

첫번째 홍보 동영상에 나오는, 사용자가 한 낙서를 바탕으로 비행기를 만들어 준다는 것은 획기적이지만... 역시 약간의 문제는 있는 듯. 아래 동영상을 보자.



몇가지 폐곡선을 그린 후에 그 안에 그려넣는 모양에 따라 각 관절을 연결하는 듯 한데, 그렇다고 각 모양의 의미를 인식하는 기능까지는 없다보니 조합방식에 따라 위와 같은 상황도 벌어질 수 있나보다.

하지만 어떻게 이상하게 조합된 것이든 내가 그린 그림으로 만들어진 가상물체를 사랑스러운 가상의 애완동물이 타고, 내가 그걸 컨트롤러로 조정할 수 있다는데, 기술적으로 완벽하지 않다고 불평할 사람이 있을까. 게다가 이건 결국 게임기에서 동작하는 소프트웨어이기 때문에, 사용자도 게임을 대하는 마음가짐 - 재미있으면 장땡 - 을 갖고 있을 것이다. 새로운 기술을 시험해 보기엔 좋은 기회인 셈.

어떻게 보면 기존의 기술들을 이것저것 조합한 물건이지만, 그 조합 방법에 있어서 최적의 방법을 찾기 위해서 여러가지 고민을 많이 한 것으로 보인다. 실제 공간에는 안 보이고 화면 상에만 보이는 가상 애완동물을 맨바닥에 헛손질하면서 귀여워해 주는 게임 자체가 얼마나 상업적으로 성공할 지 모르겠지만, 그 기술의 조합 방식만큼은 한번 찬찬히 감상해 볼만한 작품이라고 생각한다.
신고
Posted by Stan1ey
얼마 전에 올린 polarization과 관련해서 글을 쓰던 중에, 아래와 같은 동영상을 발견했다. 지난 달 New Scientist지에 소개된 일본 전기통신대학의 "Squeezable" Tangible UI 사례.



Squeezble Tangible UI from UECSqueezble Tangible UI from UECSqueezble Tangible UI from UEC

조금은 기괴해 보이는 데모지만, 원리를 생각해 보면 상당히 재미있는 구석이 있다. 원래 LCD에서 나오는 빛은 편광성을 가지고 있는데, 그 위에 압력(stress)을 가하면 편광을 왜곡시킬 수 있는 투명한 고무덩어리를 올려놓고 그걸 눌러 LCD 화면으로부터의 편광을 분산시킨다. 카메라에서는 LCD 화면과 편광 축이 수직인 필터를 사용하고, 그러면 아무 것도 안 보이다가 분산된 편광 부분만, 그것도 분산된 만큼 - 즉, 압력이 가해지면 확률적으로 더 많은 부분이 분산되어 - 카메라에 보이게 된다는 것이다. ... 참 별 생각을 다 해냈다. -_-a;;

Photoelastic TouchPhotoelastic Touch

Tangibles 자체에 가해진 압력만으로 입력의 정도를 조정할 수 있어서, 위 동영상에서처럼 화면과 떨어진 상태에서 조작함으로써 물감을 쥐어짜 화면에 흘리는 것과 같은 인터랙션이 가능하다는 점은 기존의 TUI 연구와 차별되는 점이라고 생각한다. 특히 물체를 쥐는 동작은 근대 GUI에 은근히 많이 적용된 metaphor이므로, 이를테면 drag-and-drop을 말 그대로 "집어들어 옮겨놓기"로 구현할 수 있다는 점은 재미있을듯.

특히 압력을 기반으로 입력이 이루어지기 때문에 터치스크린의 단점인 "오터치" 혹은 사용자가 의도하지 않은 터치 입력을 방지할 수 있다는 점은 주목할 만하다. 정확성을 기대할 순 없지만 deep touch의 입력방식 중 하나로 사용할 수도 있겠다.

그래도 결국 카메라가 화면 바깥에 있어야 하므로 결국 설비가 커지는 고질적인 제약사항은 여전히 가지고 있고, 편광된 광원이 필요하므로 LCD 화면으로부터의 빛이 보이는 영역에서만 조작할 수 있다는 한계가 있을테고, 무엇보다 여러 물체를 동시에 인식할 수 없을 듯한 점(고무에 색깔을 넣어서 인식한다고 해도 극단적인 원색 몇가지로 제한될 듯) 등은 아쉬운 일이다. 후에 뭔가 딱 맞는 사용사례를 만나게 될지는 모르지만, 지금으로선 그냥 스크랩이나 해두기로 했다.



그나저나, 처음 들어본 학교 이름인지라 한번 검색해 보니, 대표 연구자인 Hideki Koike는 전기통신대학의 교수로 위와 같이 영상인식을 통한 HCI 뿐만 아니라 정보 보안이나 Info Viz, 프랙탈 시각화에 대한 연구도 수행하고 있는 사람이다. 그 중에서 위 연구가 포함되어 있는 "Vision-based HCI" 페이지를 보면 2001년에 수행한 손 위치/자세 추적 연구부터 최근의 연구 - "Photoelastic Touch"라는 제목으로 발표된 듯 - 까지 나열되어 있는 걸 볼 수 있다.

최근의 연구를 보면 재미있는 게 좀 있는데, 이를테면 역시 LCD 화면의 편광성을 이용해서 투명한 AR Tag를 만든 사례같은 경우에는 일전에 Microsoft에서 데모했던 SecondLight의 구현원리를 조금 더 발전시킨 것으로 보인다.
Invisible AR Tag - from UEC

요즘에는 공대에서 나온 HCI 연구도 제법 잘 꾸며서 나오건만, 이 학교에서 나온 결과물들은 그 가능성에 비해서 시각적인 면이 조악해서 별로 눈에 띄지 않았나보다. 너무 유명해져서 일할 시간이 없는 사람들보다, 이렇게 눈에 띄지 않았던 연구팀과 협력할 일이 생긴다면 뭔가 독창적인 성과를 낼 수 있을까. OLED가 뜨면서 사양길인가 싶은 LCD의 단점을 인터랙션 측면의 장점으로 바꿀 수 있을지도.
신고
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.