이미 제품의 외형이며 어떤 부품이 들어가는지까지 속속들이 드러나 버린 상태에서 이만한 관심을 끄는 제품도 없을 거다. 새로운 아이폰이 드디어 공식발표되고 웹사이트에 관련 내용이 올라왔길래, 한번 훑어보니 역시 짧은 키노트에 모두 포함되지 못한 내용이 좀 있다. 사실 키노트의 내용 중 많은 부분(이를테면 HD영상 녹화, 화상통화)은 오히려 하드웨어를 보고 예상할 수 있는 부분이었기 때문에 조금은 김이 빠져 있었는데, 발표에서 빠진 내용을 보면서 "역시 애플은 대단해..."이라는 덕심이 다시 한번 치솟는 기분을 느꼈다.

iPhone 4의 발표 소식(?)에 대해서는 이미 여기저기서 많이들 올라와 있을테니, 난 HTI 관점에서 직접적인 발표내용 외에 주목할만한 내용들, 그리고 누군가 열심히 UX 개선을 위해서 애쓴 흔적이 눈물겹도록 보이지만, 솔직히 물건을 파는 데 크게 도움이 되지 않아서 발표에서 제외된... 그런 내용이나 좀 정리해 보려고 한다. 서로 돕고 살아야지. (무슨 도움이 되겠다는 건지는 모르겠다만 -_- )

(1) Gyro Sensor
Gyro Sensor in iPhone 4

아 물론 자이로 센서가 포함된다는 사실 자체는 발표 내용에 대대적으로 포함됐다. 근데 이게 무슨 의미를 가질까? 잡스가 보여준 데모는 젠가라는 보드게임이었는데, 사실 휴대폰을 돌리면 화면이 돌아가는 정도는 기존의 가속도 센서로도 거의 불편함을 느끼지 못한 것이기 때문에 조금은 고개를 갸우뚱하게 한다. 이미 관련 블로그에도 그 의미에 대해서 의구심을 표시하고 있기도 하고. 사실 젠가 게임은 순수하게 자이로 센서의 특성을 보여주기에는 좋은 사례일지 모르지만, 실상 가장 강조되어야 할... 위 사진의 맨 아래에 등장하는 6축 동작인식이라는 부분이 잘 드러난 것 같진 않다. 자이로 센서가 들어감으로써, 기존 가속도 센서를 이용했던 회전 감지에 비해서 나아지게 되는 건 뭘까? 

기존에 들어있던 가속도계는 원래 상하좌우로의 직선운동을 잡아내는 물건이다. 마침 지구에는 중력가속도라는 게 있는 덕택에, 아래로 떨어지려는 움직임(정확히는 그 반작용)의 방향을 상하좌우 센서의 입력값을 비교함으로써 알아내고, 그걸 바탕으로 기기의 자세(가로/세로)를 알아내거나 매시각 비교함으로써 상대적인 회전을 찾아내는 것이다. 이렇게 직선운동을 잡아내는 물건으로 회전운동을 찾아내려다 보니, 직선운동과 회전운동을 둘 다, 실시간으로 구분해서, 함께 인식하기가 어렵다는 문제가 있다.

이제 순수하게 회전을 담당할 자이로 센서가 들어감으로써 아이폰은 회전과 직선운동을 동시에 알아낼 수 있게 된 것이다. 이건 단지 잡스의 데모에서처럼 사용자가 폰을 들고 제자리에서 돈다는 정도가 아니라 3차원 공간에서의 자유로운 위치와 자세 변화를 (상대적으로) 인식할 수 있다는 거다. 한동안 유행했던 증강현실(AR)을 예로 들자면, 이제 기준이 되어 줄 AR-Tag가 없이도 임의의 공간을 상정하고 그 주변으로 아이폰을 움직이면서 그 공간에 떠 있는 가상의 물체를 관찰할 수 있을 것이다. 아니 심지어 공중에 직접 3차원 그림을 그리는 건 어떨까. 3차원 그림을 그리고 감상하는 어플도 충분히 가능하리라 생각한다. (가속도 센서와 자이로 센서의 악명높은 오류 누적 문제는 일단 덮어두자. -_- )

사실 이제까지 회전인식을 도와주던 게 3GS부터 들어가 있던 전자나침반인데, 이건 주변 자기장의 변화에 따라 초기화를 시켜주지 않으면 제멋대로 돌아가 버리는 아주 심각한 문제를 가지고 있다. 그렇다고 지도 서비스에서 동서남북을 알아낼 수 있는 기능을 버릴 순 없으니, 결국 다소 중복되는 것 같더라도 자이로 센서를 다시 추가했음을 짐작할 수 있다.

이로서 아이폰에는 자세를 알아내는 센서만 3개다. 이 센서값들을 개발자에게 어떻게 활용하기 쉽게 제공할지가 관건이 되겠지만, 이제 사실 더이상 넣을 센서도 없게 된 만큼 iPhone 4는 뭔가 궁극의 입력장치가 되지 않을까 기대하고 있다. 특히 닌텐도 Wii의 MotionPlus 리모트가 가속도 센서와 자이로 센서, 그리고 적외선 마커를 이용한 기준위치(화면)를 알아내서 정밀한 움직임을 측정하고 있다는 걸 생각해 보자. 아이폰은 이제 시각적 마커를 카메라로 알아낼 수도 있고, 심지어 나침반과 GPS 정보로 마커를 대신할 수 있게 됐다. 이상적으로 말하자면, 아이폰은 지구상 어디서 어떤 위치/높이에 어떤 자세로 어떤 움직임으로 사용되고 있는지를 완벽하게 계산할 수 있게 된 것이다. ... 어떻게 보면 좀 무섭다. ㄷㄷㄷ


(2) FaceTime using Rear Camera
FaceTime on iPhone 4
뒷면 카메라를 이용한 화상통화. 이것 역시 키노트에서 발표된 주요 내용 중 하나이긴 하지만, UX 관점에서는 꽤 신선한 느낌이다. 사실 화상통화(WiFi를 이용해서만 된다니 화상채팅?)는 거는 사람이나 받는 사람이나 다소 부담스러울 수 있는 상황이고, 사실 얼굴이야 서로 잘 알고 있을테니 얼굴만 봐도 좋은 연인 사이가 아니라면야 그보다 내가 지금 보고 있는 장면을 공유하면서 화제로 삼는 게 좀더 유용한 화상통화의 활용방법일 수 있겠다.

사실 이런 식의 활용에 대해서는 예전에 좀 들여다 본 적이 있는데, 이 특허 - 화상통화를 하면서 전면 카메라와 후면 카메라를 전환할 수 있는 - 는 국내 L모사가 6년전 쯤에 출원했던 것으로 기억한다. 결국 그게 특허로 등록이 되었는지, 그리고 그 특허가 혹시나 이번에 FaceTime을 굳이 WiFi 버전으로만 내는 데에 어떤 영향을 미쳤는지는 모를 일이다. (사실 애플이 언제 특허 신경 썼나... 아마 전송되는 화상의 품질 때문에 내린 결정이라고 보는 게 더 타당할꺼다.)

이 기술은 기존에 3G 망을 통해서 할 수 있었던 화상통화와 전혀 다르지 않아 보이기 때문에 처음 발표를 접한 사람들도 "남들은 이미 다 하고 있었다"면서 시큰둥한 반응이 있기는 했지만, 전화통화 상대방과 전화망 외의 ad-hoc IP 네트워크 연결을 순간적으로 해준다는 건 꽤 혁신적인 발상이다. 다른 네트워크(3G 등)으로 확장하는 것도 어렵지 않은 방식이긴 하지만, 사실 굳이 화상통화를 WiFi로 제한한 것은 아이폰 덕택에 기하급수적으로 늘어나는 통신사의 데이터 통신망의 부하를 어떻게든 줄여주고자 하는 제스처 아니었을까. 이런 식이라면 화상통화를 하면서도 통신사의 데이터망은 건드리지 않을 수 있을테니까.

이게 만일 MSN 메신저와 같은 방식으로 어딘가에서 각 통화자들의 IP를 연계해주는 화상채팅 중계 서버가 있는 거라면 여러가지로 문제가 되겠지만... 굳이 "zero set up"을 강조하고 "open standard"로 추진하는 걸로 봐서는 그냥 폰과 폰이 직접 P2P로 IP를 주고받고 화상망을 구축하는 방식인 듯 하다. (만일 따로 중계서버가 있어서 아이폰 사용자의 화상통화 상황을 알 수 있다면... ㄷㄷㄷ )


(3) The Second Camera
Front Camera on iPhone 4
화상통화와 함께, 드디어 결국 전면카메라가 들어갔다. 이미 지난 수년간 디지털 카메라에 들어간 얼굴인식/미소인식 등의 영상인식 기술이 특허침해 같은 거 검토하지 않고 무작위로 App으로 등장하고 있는 와중에, 전면카메라가 갖는 의미는 각별하다. 이를테면, 아래와 같은 걸 아이폰에서 볼 수 있게 된 것이다!



혹은 이전에 소개했던, 전면카메라를 활용한 NDSi의 (조금은 우스꽝스러운) 게임들은 어떨까. 앞의 자세 인식 센서들과 함께 전면카메라의 사용자 얼굴인식 기능이 합쳐진다면, 이건 뭐 어떤 괴물 앱이 나와도 이상하지 않겠다. 키노트 내용에 따르면 전면 카메라에 대한 API도 개방될 것 같으니, 개발자들이 어떤 사고를 쳐줄지 두근두근 기다려 보자.


(4) Dual Mic

마이크가 위아래로 2개 들어간다는 소리가 나오는 순간 눈이 번쩍 떠졌다. 전화를 표방하는 기기에서 마이크가 2개 들어간다면, 이유는 뻔하다. 발표 내용에도 나왔듯이, 배경의 잡음을 없애 깨끗한 음성을 보내기 위함이다. 양쪽 마이크에 입력되는 음의 파형을 시간축으로 미리 설정한만큼 평행이동 하면, 아래쪽 마이크 가까이 있고 위쪽 마이크에는 어느 정도 떨어져 있는 (즉, 음성이 전달되기까지 시간이 좀 걸리는) 사용자의 음성이 겹쳐지게 된다. 나머지 음향정보는 사용자 음성이 아닌 주변 잡음이기 때문에 신호를 줄여버리면, 깨끗한 음성만 보낼 수 있는 거다.

사실 이 기술은 2년전쯤 "알리바이폰"이라는 명칭으로 국내에도 상품화된 적이 있으니, 새롭다고 하긴 어렵다. 기술에 붙인 이름이 좀 위험스러워서인지 마이크 하나 더 붙이는 단가가 부담스러웠는지, 어쨋든 "깨끗한 통화"라는 본래의 취지가 무색하게 이후의 휴대폰에서 이 기술이 적용된 사례는 찾아보기 어렵다. :(

어쨋든 dual mic의 채용에 반색하는 개인적인 이유는, 물론 음성인식률의 향상을 기대하기 때문이다. 여러 개의 마이크(mic array)를 이용해서 음성명령의 공간 상의 위치(방향/거리)를 파악하고 나머지 음향을 소음으로 여길 수 있다거나, 심지어 여러 명이 동시에 말하는 내용을 따로따로 구분할 수 있다는 기술만큼은 아니겠지만... 그래도 이 마이크 입력을 이용하면 통화나 음성인식 뿐만 아니라 박수소리의 방향/거리를 알아낸다든가 동영상 녹화 시에 배경음을 녹음할지 녹화자의 음성을 녹음할지 선택할 수 있다든가 하는 기능도 구현할 수 있을 것이다. 단지 이 마이크들에 대한 API에 대해서는 따로 언급이 없었고, 무엇보다 이런 신호처리를 하려면 그냥 주어진 조건(귀옆에 대고 통화하는)에 맞춰서 하드웨어에 프로그램을 박아 버리는 게 편하기 때문에 과연 그 정도의 자유도가 개발자에게 주어질지는 모르겠다. 그냥 위 조건에 맞춰진 잡음제거 기능의 강도를 조정하는 정도가 아닐까?


(5) N-Best Type Correction
Type Correction on iPhone 4
터치스크린의 잦은 오입력을 보완하기 위해서 아이폰을 필두로 많은 스마트폰은 어절 수준에서 오류를 인식하고 자동으로 수정해 주는 방식을 채택하고 있다. 어절을 기준으로 한 수정방식이 한글이나 조사/어미를 갖는 다른 언어들에 맞지 않는다는 점은 차치하더라도, 기존의 방식은 띄어쓰기나 마침표 등을 입력할 때 무작정 오류(라고 생각한) 입력을 지우고 대안으로 바꿔버리기 때문에 자주 쓰지 않는 단어를 입력할 때마다 사용자가 아차하는 순간에 의도하지 않은 내용이 입력되는 경우가 많다. 사실 이건 모든 인공지능 입력 기술이 가지고 있는 공통적인 인식률의 문제이기도 하고.

그런데 이번에 공개된 내용 중 한 페이지에는 다른 부분과 달리 오타로 추측되는 어절을 분홍색으로 표시한 후 사용자가 터치하면 몇가지 대안(인식기술 쪽에서는 N-Best라는 표현을 쓰는, 사실은 가장 흔한 방식이다.) 중 하나를 선택할 수 있게 해 주는 내용이 나와 있다. 문자 메시지의 경우에는 안 되고 이메일에만 되는 기능이라면 사용자의 혼란이 있을 것도 같은데, 어쨋든 이렇게 사후수정 방식이라면 터치스크린과 잘 어울리기도 하고, 의도하지 않은 수정을 없애거나 다시 복구하기 쉽게 만들 수 있을 듯 하니 반가운 일이다. 터치스크린의 오터치 보완 방식이 조금은 인간을 위해 겸손해진 느낌이랄까.


(6) Faces and Places
Faces - Face Recognition on iPhone Photo Album on iPhone 4Places - Location-based Photo Album on iPhone 4

이미 iPhone OS 4 (이젠 iOS 4가 됐다)의 개발자 버전을 통해서 많이 누설됐지만, 데스크탑용의 Mac OS에서 구동되는 iPhoto를 통해서 가능했던 Faces와 Places 사진정리 기능이 아이폰으로 들어왔다. 어찌나 반갑던지. :)

설명을 보면 Faces 기능은 iPhoto와 함께 사용할 수 있다고 되어 있는데, 이거 iPhoto에서 얼굴인식한 내용을 가지고 모바일에서 보여주기만 한다는 건지, 아니면 그냥 얼굴인식은 각자 하고 그 meta-tag를 공유한다는 얘긴지 모르겠다. 작년에 보여준 iPhoto의 얼굴인식 및 등록 기능은 아이폰에서 똑같이 만들기에 사용자 입장에서도 기술적으로도 어려워 보이지 않았으니 전자는 아니라고 생각하지만, 그렇다면 왜 굳이 iPhoto를 언급했을까... 이 부분은 조만간 개발자 버전을 깐 사람들이 규명해 주리라 생각한다.



그리고...

ASL Users using FaceTime on iPhone 4
아래의 나머지는 늘 굳이 내세워 발표하지 않는, 장애인을 고려한 확장된 접근성에 대한 부분이다. 애플은 위 FaceTime을 홍보하는 동영상에도 수화로 대화하는 연인을 넣을 정도로 장애인에 대해서 고려하고 있으면서, 절대로 그걸 크게 부각시키는 법이 없다. 어쩌면 "특정 사용자 전용이 아닌, 더 많은 사용자에게 편리한" universal design의 철학에 가장 걸맞는 모범을 보이고 있다고나 할까.


(7) Gesture-based Voice Browsing
Gesture-based Voice Browsing on Safari, iPhone 4
우선 첫번째는 웹 브라우저. 이미 들어가 있던, 웹페이지 내용을 음성으로 읽어주는 기능에 더해서, 웹페이지의 특정부분에 손가락을 대면 바로 그 부분의 텍스트를 읽어주는 기능을 추가했다. (왼쪽 그림에서는 오른쪽 아래 광고(?) 영역을 선택해서 듣고있는 상태)

기존의 screen reader 프로그램들은 HTML 코드를 내용 부분만을 잘라내어 처음부터 줄줄이 읽어주는 게 고작이었고, 일부러 시각장애인을 고려해서 코딩하지 않는다면 어디까지가 메뉴고 어디부터가 본문인지도 알기 힘들었다. 그런데 이렇게 모바일 기기의 터치스크린의 장점을 살려서 손에 들고 있는 페이지의 특정 위치를 항행할 수 있게 한다는 것은 정말 혁신적인 장점이 되리라 생각한다.


(8) Rotor Gesture

이 기능은 3GS부터 있던 기능이라는 것 같은데, 왜 이제서야 눈에 띄었는지 모르겠다. 화면 상에 실제로 뭔가를 표시하는 건 이번이 처음인 것 같기도 하고... 어쨋든 이 기능은 두 손가락을 이용해서 회전식 다이얼(로터)를 돌리는 듯한 동작을 하면, 아마도 그 각도변화에 따라서 몇가지 음성항행 모드 중 하나를 선택해 준다. 이를테면 목록을 읽을 때 제목만 읽기라든가, 바로 기사 본문으로 가기라든가, 링크된 영역만 읽기라든가... 기존의 음성 웹 브라우징은 키보드 단축키를 통해서 이런 모드를 지원했는데, 이 로터 제스처는 터치스크린에 맞춘 나름의 좋은 해법인 것 같다.


(9) Braille Keyboard Support
iPhone 4 Supports Braille Keyboards via Blutooth
말 그대로, 블루투쓰를 통한 25개 언어의 점자 키보드를 지원한단다. 휴... 이건 정말 쉬운 결정이 아니었을 듯. 점자 키보드라는 게 얼마나 표준화가 잘 되어 있는지 모르겠지만, 경쟁사의 다른 무선 키보드와도 연동하기 까다롭게 만들어 놓기로 유명한 애플사다. 이렇게 점자 키보드를 위한 입력을 열어놓으면 분명히 제한없이 공개되어 있을 그 방식을 적용한 비장애인용 키보드 제품이 쏟아질 건 자본주의의 이치. 비록 악세사리라고는 해도 독점이 가능한 키보드도 팔고 있으면서 이런 결정을 내린 사람들은 도대체 어떤 경영진, 어떤 책임자, 어떤 월급쟁이일까. 어쨋든 훌륭한, 심지어 존경스럽기까지 한 결정이다.



이상. 사실 별다른 관심이 없던 발표여서 신나는 내용이 많기는 했지만, 왠지 개인적으로 다음 달에 판매한다는 iPhone 4를 바로 구매할 만한 큰 계기는 찾지 못했다. 무엇보다 루머의 RFiD도 안 들어갔고... 지금 쓰고 있는 아이폰을 1년반 넘게 썼으니, 2년을 채우고 고민해 봐야 할 듯 하다.
저작자 표시 비영리 변경 금지
신고
Posted by Stan1ey
요새는 TV 광고 보다가 재미있는 거 간단히 소개한 글만 올리고 있는데, 그러다보니 스스로 좀 폐인같이 느껴질 때가 있다. ... 뭐 사실 그렇지 않냐고 하면 또 할 말이 없고. ㅎㅎ 어쩌겠나 그래도 자꾸 눈에 밟히는데.


이번에 눈에 띈 물건은 휴대폰 벨소리와 게임 등을 다운로드 받을 수 있게 해주는, Jamster 라는 회사의 광고에서 눈에 띄었다. 이름하며 eyeCall.

eyeCall being sold on Jamster

위 웹페이지에서도 볼 수 있듯이, 이 소프트웨어는 전화벨이 울릴 때 휴대폰의 카메라를 구동시키고, 카메라 앞에서의 움직임을 인식해서 벨소리를 진동이나 자동응답으로 바꿔주는 기능이다. 통신사에서 휴대폰 컨텐츠의 일거수일투족을 제한하는 우리나라의 상황에서는 이렇게 제3자에 의해서 공급되기가 힘든 소프트웨어지만, 사실 기술적으로는 일전에 언급했던 삼성 매직홀 휴대폰의 참참참 동작인식 게임과 다를 바 없겠다.

조금 더 찾아보니, 이 소프트웨어는 휴대폰 카메라를 통한 영상인식을 전문으로 내세우는 eyeSight 라는 회사에서 만든 물건이었다. 이 회사에서는 eyeCall 외에도 eyeCan (동작으로 4방향키 입력을 대체해서 음악재생이나 화면넘기기 등의 특정 작업을 도와주는 방식), eyePlay (동작으로 게임 속에서 '던지기' 동작 등을 입력할 수 있게 하는 방식) 등을 만들고 있다. ... 근데 웹사이트 자체는 컨텐츠가 온통 뒤죽박죽. 아래 동영상이 차라리 정리가 잘 되어 있다.



웹사이트와 위 동영상 내용을 조합해 보면, 비교적 열악한 카메라를 - 특히 최근 3G 네트워크에서의 영상통화를 위한 전면 카메라까지 - 이용해서도 안정적인 인식이 가능한, 다음 몇가지 동작을 수행하는 것 같다.

(1) 카메라 위에서 손을 한 방향으로 움직인다.
- 화면을 그 방향으로 스크롤하거나 다음 페이지로 넘기는 기능
- 미리 정해진 특정 기능 (예: 발신자에게 자동응답 메시지 보내기)
- 게임에서의 공격 기능 (예: 닌자 수리검 날리기)

(2) 카메라를 손으로 잠시 덮어둔다.
- 미리 정해진 주요 기능 (예: 벨소리를 진동으로 전환)

(3) 카메라를 손으로 짧게 덮었다 뗀다.
- 게임에서의 방어 기능 (예: 날아오는 무기 막기)


뭐 영상인식이다보니 어느 정도 조명이 있어야 한다든가 하는 제약은 있겠지만, 그래도 주어진 제약 하에서 기술을 활용할 수 있는 방법을 많이 꽤나 고민했을 것 같다. 휴대폰 카메라+CPU 정도의 수준에서 영상인식 기술을 적용함으로써 휴대폰의 움직임(=사용자의 동작입력)을 인식한다든가 심지어 사용자 얼굴의 움직임(=상하좌우 및 거리)을 인식해서 UI에 응용하려는 노력은 이미 여러 사례가 있지만, 그래도 이렇게 간단하나마 상용화한 팀이 있어서 반가운 마음에 스크랩.
신고
Posted by Stan1ey
요새 아이폰에서 증강현실 Augmented Reality 기술의 실용화 사례가 급격하게(!) 늘어난다 싶더니만, 급기야 <Business Week>지에서 Special Report까지 발행했다.

CEO Report on AR, from Business Week

위 목차에서 볼 수 있듯이 이 리포트의 내용은 주로 iPhone이 AR를 mainstream으로 격상시켰다는 이야기로 시작해서 (BW답게도) 그 사업적인 가치와 사업사례, 미래의 가능성, 그리고 CEO를 위한 기술개요 요약본으로 구성되어 있다.

AR이 벌써 mainstream 운운할 정도로 커졌나? ... 흠, 솔직히 HTI를 내세우면서 신기술 적용에 목을 매는 나로서도 그건 좀 부정적이다. iPhone으로 대표되는 모바일 AR이라면 딱히 높은 상업적인 가치를 갖는 물건이 안 나오고 있으니 더욱 그렇고, 그나마 똑부러지지 않아도 재미있으면 팔린다는 게임에서도 화면과 현실의 괴리감을 극복할만한 아이디어는 보이지 않고 있다.

이게 주요 UI로 떠오르려면 아직은 갈 길이 멀 것 같은데, 샴페인이 조금 일찍 터지는 듯. 그래도 이게 CEO Report 라는 이름으로 비지니스 위크에 등장했으니 이미 관련 연구실에는 '그게 뭔데 보고해봐라'는 지시가 떨어졌을게다. 오랫동안 회사에서 눈치보면서 연구하던 분들이 이번 기회를 잘 살려서 회사 내에서라도 mainstream 조직으로 떠오르기를 기대해 본다. AR이니 뭐니 해도 결국은 영상인식 기술이고, 영상인식 기술만큼은 조만간 주요 UI 기술이 되리라는 데에 전혀 이의가 없다.

AR이 실제로 mainstream이 되기 위해서 빠진 부분이 무엇일까?

개인적으로는 영상인식과 더불어 모바일 프로젝션이 그 열쇠라고 생각한다. 결국 virtuality만으로는 먹히지 않을테니 가상의 것을 실제 세계에 쏟아내는 수 밖에. SIGGRAPH에서 발표된 그 수많은 프로젝션 기술들, 이제 슬슬 날개를 펼 때가 되기도 했다. 어차피 그걸로 영화 보여주겠다고 해도, 해상도도 부족하고 휘도도 떨어져서 제대로 안 보인다니깐...
신고
Posted by Stan1ey
크리스마스 시즌이 가까와지면서 (11월초부터 거리마다 크리스마스 장식에 아주 난리가 아니다 -_- ) 온갖 상점에서 선물용품을 홍보하고 있다. 그 중에 아이들이 좋아할만한... 혹은 내가 좋아라 하는 ^^; 종류의 게임을 발견했다.

EyePet for Sony PlayStation 3

EyePet이라는 이름의 게임이 PlayStation Eye (EyeToy의 이름을 바꾼 듯) 사진과 같이 나왔길래 그냥 예전의 아이토이와 비슷한 물건인 줄 알았는데, 카메라가 관련된다면 뭐든 심상찮은 타이밍이라 한번 동영상을 찾아봤다.



일단 위 홍보영상으로만 보기엔 완전 대박이다. 좀더 자세한 내용을 찾아보니, 아래의 실제 게임 플레이 동영상을 볼 수 있었다.
 


보통 AR 시스템에서는 다양한 역할을 하는 여러 개의 AR tag를 사용하는데, 이 시스템에서는 시종일관 하나의 태그(이름하여 "매직 카드")만 사용하고 있는 점이 재미있다. 덕택에 등장한 메뉴 시스템은 손을 좌우로 움직여서 목록을 움직이고 아이템을 선택한 후에는 잠시 기다림으로써 확정하는 소위 dwell 방식을 채택하고 있다. 방바닥을 인식하려면 아무래도 카메라를 초기화하는 작업이 필요할텐데, 아마 그것도 같은 태그로 마치 안구추적 영역을 초기화하듯이 하게 될 듯.

그 외에 같은 태그를 캐릭터 상태를 보기 위한 목적으로 쓰게 하는 접근이라든가, 결국 EyeToy와 똑같이 손을 흔들어 동작시키는 방식과 가상 물체를 이용한 UI를 혼합한 방식 등은 많은 고민이 있었음을 알 수 있게 해준다.

첫번째 홍보 동영상에 나오는, 사용자가 한 낙서를 바탕으로 비행기를 만들어 준다는 것은 획기적이지만... 역시 약간의 문제는 있는 듯. 아래 동영상을 보자.



몇가지 폐곡선을 그린 후에 그 안에 그려넣는 모양에 따라 각 관절을 연결하는 듯 한데, 그렇다고 각 모양의 의미를 인식하는 기능까지는 없다보니 조합방식에 따라 위와 같은 상황도 벌어질 수 있나보다.

하지만 어떻게 이상하게 조합된 것이든 내가 그린 그림으로 만들어진 가상물체를 사랑스러운 가상의 애완동물이 타고, 내가 그걸 컨트롤러로 조정할 수 있다는데, 기술적으로 완벽하지 않다고 불평할 사람이 있을까. 게다가 이건 결국 게임기에서 동작하는 소프트웨어이기 때문에, 사용자도 게임을 대하는 마음가짐 - 재미있으면 장땡 - 을 갖고 있을 것이다. 새로운 기술을 시험해 보기엔 좋은 기회인 셈.

어떻게 보면 기존의 기술들을 이것저것 조합한 물건이지만, 그 조합 방법에 있어서 최적의 방법을 찾기 위해서 여러가지 고민을 많이 한 것으로 보인다. 실제 공간에는 안 보이고 화면 상에만 보이는 가상 애완동물을 맨바닥에 헛손질하면서 귀여워해 주는 게임 자체가 얼마나 상업적으로 성공할 지 모르겠지만, 그 기술의 조합 방식만큼은 한번 찬찬히 감상해 볼만한 작품이라고 생각한다.
신고
Posted by Stan1ey
Olympus EP-2 Digital Camera
올림푸스에서 EP-2라는 카메라가 새로 나온다고 한다. 개인적으로 디카의 화질을 많이 따지지 않는지라 이전에 나왔던 EP-1 모델이 좋다는 소문은 들었어도 뭐가 좋은지 모르고 있었는데, 이번 EP-2를 소개하는 podcast를 듣다가 귀가 쫑긋해지는 경험을 했다. 이 카메라에는 3차원 개체 추적 기술이 "Auto Focus Tracking"이라는 이름으로 들어간다는 것이다.

Auto Focus Tracking in EP-2

관련 기사에서는 새 모델에 대해서 "Almost No New Features"라고까지 했지만, 디지털 카메라에 점점 더 추가되는 영상분석 기술에 관심을 가지고 있는 사람에게는 굉장히 흥미로운 소식이다. 위 그림에서도 나와있듯이, 반셔터를 누른 상태에서 어떤 물체(=영상패턴)에 초점을 맞추면 그 물체가 상하좌우앞뒤로 움직여도 계속 그 물체에 맞춰 초점을 바꿔준다는 것이다. 움직이는 물체를 찍을 때 계속 반셔터를 눌러대면서 초점을 유지해야 했던 걸 생각하면 그야말로 장족의 발전이다.

물론 물체를 추적하려다가 엉뚱한 곳으로 초점을 옮기는 오류가 있을 수는 있겠지만, 요즘의 디지털 카메라는 워낙 고해상도이고 아예 영상처리 전용의 칩셋을 사용하다보니 PC에서 웹캠으로 하는 영상인식보다 오히려 빠르고 정확한 것 같다. 미래의 UI가 영상인식 기술로 귀결될 거라는 5년전 Thad Starner 교수의 예측은 영상관련 인프라가 가장 잘 구축된 wearable/portable computer인 디지털 카메라에서 점점 더 현실이 되고 있다고 생각한다. 그동안 카메라의 해상도나 CPU 속도를 핑계로 실험실의 장난으로 미뤄왔던 내용이 어느새 빠른 속도로 하나 둘씩 생활 속으로 들어오고 있는 것이다.

디지털 카메라 혹은 캠코더와 관련된 분야의 실무자들은 아마 지난 십여년 간의 영상인식 연구내용을 되짚어가며 각각의 상품가능성을 고민하고 있을듯. 그거 재미있겠다. ㅎㅎㅎ



바로 며칠 후에 또 재미있는 물건이 나와서 그냥 덧붙이기로. 새로 출시되는 Casio Exlim EX-FS10 에는 골프 자세를 영상분석해 주는 소프트웨어를 탑재했다고 한다.
Casio Exlim EX-FS10 with Posture Analyzer for Golfers
이건 농담으로나 말하던 물건이 실제로 나와 버리다니. -_-a;; 아무리 앞에서 그간의 영상인식 연구를 상품화할 때라고 했다고 하지만, 요건 좀 안 맞는 거 아닌가 싶다. 물론 중요한 배경은 대체로 녹색이기 때문에 그런 점에서 영상인식의 좋은 적용사례라고 볼 수도 있다. 하지만 자세를 본다는 건 카메라와 사람 사이의 위치나 방향이 조금만 틀어져도 꽤 문제가 될테고, 3배줌 밖에 지원하지 않는다고는 하지만 렌즈의 설정에 따라 왜곡도 있을게다.

실제로 트레이너가 조목조목 교정하는만큼 효과는 없겠지만, 일본도 우리나라처럼 골프가 귀족 스포츠라는 인식이 있어서 살 사람은 사리라고 생각했던 걸까. 뭐 여하튼 재미있는 디카에서의 영상인식 사례임은 분명하다. :)

신고
Posted by Stan1ey
삼성에서 새로 한국시장에 출시한 휴대폰 W830, 마케팅명 '매직홀'이다.

사용자 삽입 이미지

처음 신문기사로 올라온 (아마도) 홍보자료 내용을 봤을 때, 내 반응은 대충 이랬다. "카메라 동작인식을 이용한..." (우오옷!!! 드디어 상용화되는 건가! +_+ ) "... 참참참 게임을 즐길 수 있..." (응? 뭥미?) 참참참 게임... 강호동이 그 손바닥 내밀고 좌우로 휘두르던 그거? ㅡ_ㅡa;;;

어찌나 황망하던지, 느려터진 영국 인터넷으로 무겁디 무거운 애니콜 웹사이트에 들어가봤다. 일단 사용설명서 다운로드, 검색.. "참참참" -_-;;;
Vision-based Gesture Recognition on Samsung W830
손동작 인식..이라고는 하지만, 뒤의 주의사항을 읽어보니 딱이 손을 인식하거나 최소한 살색(?) 물체를 따로 인식하는 것 같지도 않고, 화면 상의 optical flow, 즉 독특한 패턴의 위치를 프레임마다 인식해서 그 움직인 방향을 추정하는 방식인 듯 하다. 이런 방식의 동작인식은 카메라폰이 등장한 이래로 자주 등장했지만, 그 응용처로는 대부분 공간 상의 상하좌우 움직임(부가적인 기술을 조금 더해서 Z축 움직임을 제안한 경우도 있었다)을 인식하고 있었다.

이런 기술로 '참참참 게임'이라니 나름 신선하다...라는 생각은 들지만, 보아하니 손만 인식하고 내 얼굴을 인식하지 않으니 일방향적인 게임이 될테고, 그렇다면 게임보다는 그냥 기술데모에 가깝지 않나 하는 게 솔직한 느낌이다. 3G 영상통화가 되면서 2개의 카메라를 이용한 여러가지 재미있는 특허가 나와있는 걸로 아는데, 모처럼 들어간 영상기반 동작인식은 왜 딸랑 '참참참 게임'으로만 적용이 되었는지 아쉬운 노릇이다.
사용자 삽입 이미지


그런데, 이 모델의 웹사이트와 사용설명서를 읽다보니 의외로 눈에 띄는 기능이 있다. 바로 '에티켓 모드'... 하지만 진동기능이 아니다.

사용자 삽입 이미지
난 이렇게 기술이 기능과 잘 맞아떨어지는 경우를 좋아한다. 물론 이 기능을 '설정'해 놓고 뒤집어 놓으면 바로 무음모드가 되는지 (실수로 놓치는 경우가 많을 거다), 아니면 일단 벨/진동이 울리고 나서 뒤집어야 무음모드가 되는지 (사용자 입장에선 차라리 버튼 누를께 하겠지만, 제조자 입장에선 안전한 선택일 듯)... 뭐 그런 모호한 부분도 있겠지만.

이 기능이 이 모델에만 적용이 됐는지 이전부터 적용되어 있는지는 잘 모르겠지만, 이런 종류의 기능이 다양하게 (물론 일관적으로) 들어간다면 삼성 휴대폰의 특징으로 부각시키기 좋은 아이템이 될 수도 있다. 기왕 들어간 가속도 센서, 이렇게 단순한 응용을 생각해 보면 꽤 쓸만한 구석이 많다. iPhone OS 3.0에 들어간 것처럼 '흔들면 Undo'라는 것도 재미있고, 다른 제품에도 많이 적용됐지만 '흔들었을 때 Shuffle'이라는 것도 잘 맞아 떨어진다. 문자가 도착하거나 전화가 왔을 때, 어느 쪽으로 기울였느냐에 따라 반응이 달라지는 건 어떨까? (삭제/무시 등) 그리고 가속도 센서를 활용할 수 있는 방법 중 하나로, 제품을 '톡톡' 치는 것을 명령으로 인식하는 방법도 있다. 조금만 신경써 준다면 최소한 어느 방향(상하 or 좌우 or 앞뒤)을 치는 지도 알 수 있고, 몇번을 쳤는지도 알 수 있으니 활용도는 꽤 많을 게다.

휴대폰에 제법 많이 탑재되고 있는 이 (원래는 동작인식용) 가속도 센서는, 이제 99%라고 해도 될 정도로 게임용으로 사용되고 있다. 처음 들어갔을 때에부터 이런저런 동작인식 아이디어를 제치고 결국 게임성 있는 '비트박스'가 간판으로 내세워 지더니, 결국 점점 더 단순한 '주사위 게임'이나 '랜덤볼(모두가 로또라고 부르는)', 그리고 다른 게임회사에서 개발되는 단순한 방향인식 수준의 게임이 전부인 듯.

사용자 삽입 이미지


센서기반의 동작인식과 영상기반의 동작인식(어쨋든)이 둘 다 탑재된 휴대폰이라니, 이 W830 계열의 휴대폰은 상당히 의미있는 모델이라고 생각한다. 이미 센서기반의 동작인식은 초기의 '요요현상'으로 인해서 '엔터테인먼트' 메뉴 속으로 안착(?)해 버린 것 같으니, 영상인식이라도 좀더 적극적으로 적용되어서 단지 화면 상의 모호한 흐름 뿐만 아니라 제대로 얼굴이든 손이든 잡아내서 UI 입력으로 활용될 수 있기를 기대해 본다. 아니 그렇게까지 복잡하게 넣지 않더라도, 닌텐도의 NDSi 처럼만 해도 충분히 쓰임새가 있을텐데 말이지...

... 개발 다 했으면, 너무 재지말고 빨리 좀 출시했으면 좋겠다는 거다.
신고
Posted by Stan1ey
회사에서 SIGGRAPH 다녀온 사람들로부터 CD를 받아서 후다닥 훑어보니, 앞의 글에서 소개된 소위 '미래적인 인터페이스' 외에도 개인적으로 관심을 끄는 연구가 있었다. 죄다 포스터 세션으로 간소하게 발표된 것 같기는 하지만, 점심시간을 틈타서 후딱 정리해 보자.

(1) 오색장갑을 이용한 손 모양 학습/인식
손 모양을 영상인식하는 것은 살색(인종차별 논란은 필요없는)을 배경에서 구분하는 방식에서부터 아예 각각의 손가락마다 표식을 붙이는 방식에 이르기까지 다양한 시도가 있었다. 살색을 인식하기가 다소 까다롭기 때문에 그냥 손가락마다 색깔이 다른 장갑을 낀다든가, 화려한 손목 밴드를 낀다든가, 심지어 그냥 벙어리 장갑을 끼워 인식을 시도한 경우도 있었다. -_-a;; 이런 방식들의 문제점은 다양한 손동작에 따라 들어오는 신호가 unique하지 않기 때문에 몇가지 아주 특징적인 동작 외에는 오인식의 가능성이 있었다.

Hand Tracking with Color Glove

그런데 이 연구의 경우에는, 독특한 색상배치를 가진 장갑을 이용해서 다양한 손모양들을 미리 학습시킨 다음에, 그 패턴에 가장 근접한 손모양을 3D로 재구성하는 방식을 제시하고 있다. 다른 연구들에서 손바닥 뒤집힘이라든가 손가락 하나하나의 움직임이라든가 하는 것을 어떻게 오류없이 인식할지를 고민했던 것에 비해서, 이 연구는 어차피 일반적인 손모양 중에서 인식해서 제시하므로 손가락이 이상하게 꺾이거나 하는 경우는 없을 듯 하다. 특히 손동작이라는 것이 의외로 (이제서야 깨달았지만) 다양하지 않다는 걸 생각해 보면, 실제 적용의 관점에서 볼 때 최소한 안정성 측면은 월등할 것 같다.

아무래도 실제로 저렇게 오색장갑을 끼고 작업하게 되지는 않겠지만, 장갑에 적외선이든 가시광선이든 불규칙한 패턴을 넣어서 똑같은 방식으로 학습/인식하게 한다면 의외로 재미있는 쪽으로 발전할 것 같은 연구다. 아니, 적외선 패턴을 임시로 손에 직접 착색하는 방식이라면 어떨까.


(2) 움찔거리는 햅틱 펜
펜 형태의 haptic display 장치는 대표격인 PHANTOM 이외에도 여러가지 형태로 재가공되고 있다. 실제로 없는 물체를 마치 있는 것처럼 공중에 펜을 멈추게 하려면 아무래도 책상이든 어디든 고정된 형태가 좋지만, 모처럼 마우스를 버리고 3차원 공간 상의 가상물체를 만지겠다는 데 기계팔이 달린 물건을 쓰는 건 아무래도 아쉬웠던 것이다. 우리나라에서도 2차원 화면 상의 사례이긴 하지만, ETRI의 Ubi-Pen 같은 사례가 나온 적이 있다.

Pen de Touch

나름 멋지려고 애쓴듯한 제목의 이 연구 - Pen de Touch - 는 3차원 공간 상에서 펜 끝에 달린 적외선 마커(회색 공)로 위치를 찾고, 그 역감을 펜에 달린 4개의 모터로 전달하게 되어 있다. (온라인에서 검색이 안 된다!) 적외선 마커를 쓴 방식은 언급할만한 내용이 아니지만, 4개의 모터가 펜을 움찔움찔 움직이게 하는 방식은 상당히 재미있는 접근이라고 생각한다. 펜을 공간에서 멈추게 할 수 없으니까, 펜의 앞부분을 끌어당김으로써 사용자가 비슷한 감각을 느끼게 한 것이다. 실제로 그 역감을 느끼는 것이 손가락의 근육감각이라는 걸 생각하면 실제로 물체에 부딪혀 멈추는 것과 유사한 느낌이 들지 않을까. 진동모터를 사용한 경우보다 좀더 실제감각에 가까운 해법이라는 생각이 든다.

문제는 4개의 모터와 펜촉이 도드래와 스프링으로 연결된, 저 내부구조가 영 조악하다는 건데, 뭐 그 정도는 가능성만 검증되면 전자석을 이용한다든가 하는 나름의 방법이 생기리라 생각한다.


(3) 휴대용 프로젝터/카메라를 이용한 인터페이스
이건 그냥 I/O Bulb 개념의 팬으로서 스크랩해 두고 싶은 연구라고 하는 게 좋겠다. 휴대용 프로젝터가 드디어 상용화되면서 이제는 꽤 대중적인 관심사가 된 모양이지만, 역시 아직은 프로젝터를 사진이나 동영상 감상용으로 이용하는 데에 급급한 것 같다. 사실 이 '화면'은 휴대용이라는 특성을 감안하면 독특한 UI가 많이 나올 수 있는 방식인데...

Handheld Projector

Twinkle이라는 애칭을 붙여놓은 이 연구에서는 그 중 몇가지를 제안하고 있다. 아직 진행 중인 것 같긴 하지만, 비슷한 방향으로 보고 있는 것 같아서 반가운 연구였다. 뭐 직접 시도해 보고 개선하고 그러다보면, 상상했던 내용 쯤이야 금새 훌쩍 앞서버리겠지만.



앞의 글에서 언급한 연구 중에도 동경대에서 나온 게 있었는데, 앞의 세가지 사례 중에서 (2), (3)은 동경대가 관련되어 있는 연구다. 이 학교에서 뭔가 재미있는 일이 많이 일어나려나보다.

이번 시그라프 관련 포스팅은 요기까지만. 아마도.
신고
Posted by Stan1ey

일전에 Bandai의 <Catcha Beast> 라는 게임에 대해서 몇마디 쓴 적이 있는데, 그 때는 AR을 이용한 몬스터 잡기라는 화려한 개념을 참으로 반다이스럽게 구현했다는 이야기를 했더랬다. 이번의 E3에서는 같은 개념을 참으로 소니스러운 화려함으로 구현한 사례가 발표되었다.



게임의 기획/디자인은 반다이의 제품과 그야말로 판박이라고 해도 될 정도다. 어딘가에 있는 안 보이는 몬스터를 모호한 신호를 바탕으로 찾아내고, 그걸 미니 게임을 통해서 포획한 다음, 포획한 몬스터를 길들여서 다른 플레이어의 몬스터와 결투하게 한다. ... 하지만 역시 진작부터 증강현실 기술을 가지고 이것저것 해 본 소니답게, 단지 태그를 인식해서 화면에 몬스터를 합성하는 것 이상으로 다양한 인터랙션을 통해 게임성을 높이고 있다.

이를테면 PSP에는 조이스틱과 버튼 외에는 센서라고 할 수 있는 게 없는데, (개인적인 생각으로는 도대체 무슨 생각인지 모르겠다. 이제 PS 계열과 PSP 계열 간의 호환성은 물 건너간 이야기인 것 같은데, 이번에 새로 발표된 PSP Go에도 센서의 흔적은 찾아볼 수가 없다. 닌텐도 흉내낸다는 소리는 죽어도 듣기 싫었으려나. -_-;; ) 그럼에도 영상인식을 통해서 몇가지 손동작을 인식하고, 심지어 본체를 흔드는 동작(영상 내에서 태그의 흔들림을 인식하는 듯)으로 지진을 일으키고, 손으로 그림자를 만들어서 (이건 솔직히 인식하기 힘들텐데, 두 사람이 게임할 때 문제도 될테고) 구름을 만드는 인터랙션은 정말 고민 많이 했겠구나... 싶은 대목이다. 카메라에 덩달아 붙은 마이크도 열심히 활용해 주시고.

이미 Nintendo DSi 에는 카메라가 앞뒤로 달려있으니 이런 구성의 게임은 언제든지 (하드웨어 추가 없이) 넣을 수 있을테지만, 역시 화면의 품질이라는 게 있으니 또 어떻게 될런지 모르겠다. NDS에서 세로화면을 수첩처럼 사용하면서 플레이하게 했던 <Hotel Dusk>라는 게임이 있었는데, 이 상태로 돌아다니면서 귀신 잡기 같은 걸 하게 한다면 꽤나 재미있지 않을까나.

그런데, 이 게임에서 AR 기술이 기여한 정도는 얼마나 될까? 몬스터의 존재감을 현실 속의 공간으로 끌어내어 상당히 올린 부분은 꽤 도움이 됐겠지만, 일단 포획한 후에 그걸 통해서 게임을 한다든가 하는 부분은 장점만큼이나 단점 - PSN을 통한 온라인 게임 같은 게 불가능해 진다거나, 최소한 플레이가 제한되는 느낌이라든가 - 도 있을 수 있겠다. 맘 같아선 AR이든 다른 UI 기술이든 뭔가 한 가지 게임 분야의 주류가 되는 HTI 사례가 나와주면 좋겠지만, 아예 가상현실(VR) 기술이 전제되지 않는 한, 주류로의 편입은 아직 힘들 것 같은 느낌이다.

그나저나... 재미있는 아이디어는 어째 죄다 작은 게임들에게서 나오고, 정작 발등에 떨어진 프로젝트 같이 덩치 큰 MMOG에서는 이런 HTI 아이디어를 추가할 수 있는 상황이 아니니 이를 어쩌면 좋다냐... -_-a;;

신고
Posted by Stan1ey
Project NATAL - Sensor Module
미국에서는 E3가 한창이다. 그거 준비한다고 우리 회사에서도 몇명 고생한 것 같고 (UX팀은 그런 신나는 일에서는 아무래도 거리가 있다). E3의 press conference에서 Microsoft가 일전에 인수한 3DV Systems의 2.5D 동작인식 카메라를 넣은 시스템을 "Project NATAL"이라는 이름으로 발표했다. 그런데, 이게 단지 동작인식 뿐만 아니라, 얼굴을 통한 사용자 인증과 음성인식까지 넣어서 "컨트롤러가 필요없음"을 강조하고 있다.



... 이게 이렇게 잘 될 것 같으면 그동안 수많은 영상인식 연구원들이 왜 그 고생을 했게. ㅡ_ㅡ;;;;; 기가 막히게 잘 되는 음성인식은 오히려 그렇다 치고, 장애물이 있어서 카메라에서 보이지 않는데도 동작인식이 되는 모습 같은 건 모델이 된 꼬마가 불쌍할 지경이다.

아니나 다를까, 실제 구동되는 동영상은 이거다.



이런이런. 망신도 이런 망신이 없지 말입니다. *-_-*

뭐, 기술은 분명히 개선의 여지가 있는 것 같고, HTI를 어떻게 설계하느냐에 따라 게임에 훌륭하게 적용될 가능성도 높은 기술인 건 사실이다. 그렇지만 그 수많은 화려한 영상인식 기술데모에도 불구하고 Sony EyeToy가 "특정영역에서 손을 흔들고 있으면 선택됩니다" 라든가 "미친듯이 움직이면 그 움직이는 정도가 플레이에 반영됩니다" 따위의 유치한 방식 밖에 쓰지 못한 데에는 다 이유가 있다는 거다.

Sony EyeToy Gestural Interaction: SelectionSony EyeToy Gestural Interaction: Activity

2.5D 동작인식은 분명 여기에 깊이 정보를 더한다는 장점이 있지만, 여전히 영상인식이 가지고 있는 단점 - 시야각이라든가, 시야각 내의 장애물이라든가, 신호처리에 걸리는 속도라든가, 물체인지의 오류 가능성 등등 - 은 그대로 지니고 있다. 오히려 이론적으로는, 처리해야 할 정보가 늘어나면서 인식 오류의 가능성은 기하급수적으로 높아지게 된다. 위 두번째 동영상에서 보여주는 모습이 바로 그런 현상에 대한 증거가 아닐까.

그리고 무엇보다도 아무 것도 쥐지 않은 빈 손으로 저렇게 손짓발짓하는 것이 플레이어에게 얼마나 허망할지도 큰 문제가 될 것이다. 이미 손에 쥘 컨트롤러를 가지고 있는 Nintendo Wii의 경우에도 그 즉물성(?)을 더하기 위해서 단순한 플라스틱 껍데기에 지나지 않지만 골프채, 테니스채, 운전대, 거기에 총 모양의 모형까지 더하고 있는 걸 봐도 알 수 있지 않을까? 나중에 추가적인 물건을 더할 수도 있겠지만, 그렇다면 "YOU are the controller"라고 장담했던 게 우스워질게다.

말은 이렇게 하지만... 그래도 마이크로소프트의 자본력과 연구원들, 그리고 꿈만 같은 동작인식과 음성인식의 조합인 multimodal interaction이다. 첫번째 동영상에서 게임 캐릭터와의 대화가 그만큼 자연스럽게 가능하리라 생각하진 않지만, 투자가 없던 이 분야에 저만한 회사가 공공연하게 뛰어든다니 그래도 조금은 기대해 보는 것도 나쁘지 않을 것 같다.

--- 이하 다음 날 추가 ---

Lionhead에서도 이 기술을 이용해서 Project Milo라는 것을 발표했다. ... 이건 한 술 더 떠서 인공지능 에이전트까지 추가. 비슷한 데모를 만들어봤던 2001년과 현재 사이에 UFO를 주운 게 아니라면, 이것도 솔직히 조금 실눈을 뜨고 보게 된다. =_= 저만큼 자유도를 주고 나면, 그 다음에 그 뒷감당을 어떻게 하려고...



뭐 일단 캐릭터는 완성된 모양이고(화면은 줄창 3D 모델링 소프트웨어 -_-;; ), 대부분의 시간은 데모 시나리오의 애니메이션에 시간을 썼을 듯. 이제는 인공지능 부분을 개발해야 할텐데, 대화 설계를 무지 잘 해야 할 거다...
신고
Posted by Stan1ey
전에 AR 기술을 이용해서 가상 피규어를 만든 소프트웨어를 보고 뒤집어진 적이 있었는데, 역시나 언제나 이런 기술을 가장 먼저 도입하는 곳은 인간의 원초적인 본능에 충실한 산업인 것 같다. (개인적으로도 JavaScript가 처음 도입되던 시점에 가장 훌륭한 소스는 '그런' 사이트들이었다;;;) 이번에는 무려 얼굴인식(detection)을 이용해서 좀더 3D스러운 경험을 제공해주는 제품이 소개되었다. (자주 가는 커뮤니티;;;에서 보게 됐다.)



Greeting Sequence of Tech48, by Tea Time
<Tech48> 이라는 다소 촌스러운 이름의 이 제품은 웹캠 영상을 통해서 사람 얼굴의 존재여부와 그 위치를 파악한 다음, 그 방향에 따라 화면 속의 '미소녀' 캐릭터를 상좌우로 돌려주는 방식이다. 동영상 중에는 눈을 마주치네 뭐네 하지만, 사실 눈은 사람 얼굴 여부를 판단하는 특징적/일반적인 특징이기 때문에 인식하는 것 뿐이고, 실제로 "시선"을 인식하는 수준은 아닌 것으로 보인다. (물론 이것도 현재 기술적으론 충분히 가능한 일이고 실제 데모도 많이 나왔다. 실제 눈동자 굴리는 걸 인식하는 게임도 금방 나와줄 듯. 사실 표정인식 기술이나 음성인식도 이런 수준의 상용화라면 얼마든지 대박을 칠 수 있는 준비가 되어 있는 기술이다.)

어쨋든 이전의 ARis와 달리, 사용자가 PC 앞에 앉으면 바로 반응을 보이며 쪼르르 달려와 반겨준다든가 하는 점은 정말 모에~한 면이 없잖아 있다. 하지만 이렇게 그 자체만으로도 훌륭한 기술응용사례를 역사에 남을 걸작으로 만드는 것은 기술 설명 페이지에 들어있는 기술 설명에 사용된 그림들이다.

How Tech48 works, horizontally.How Tech48 works, VERTICALLY!!!

... 조, 좋은 응용이다. OTL... 과연 오타쿠는 위대하다는 생각이 든다. 어쩌면 이 블로그에서 줄창 외치고 있는 UI 입출력 기술과 응용사례의 적절한 만남이 중요하다는 가장 훌륭한 사례일런지도 모르겠다.



Wide-angle Webcam T-CAM for Tech48

이 위대한 HTI 사례를 놓고 (쿨럭 ;ㅁ; ) 감히 기술적인 분석까지 한다는 건 안될 말일지 모르겠으나, 이 사례에는 의외로 재미있는 기술적 트릭이 포함되어 있다. 모니터 자원자를 모집하는 페이지를 보면 위와 같T-CAM이라는 전용(?) 웹캠을 나눠준다고 되어 있는데, 이 웹캠은 광각을 찍을 수 있도록 따로 렌즈를 만들어 박아넣은 모양이다. 웹캠 양쪽에 LED 스러운 부분이 보여서 혹시 IR을 사용하나 싶었지만, 위 동영상 중에 나오는 분석화면이라든가 동영상 중에 IR LED 특유의 색이 나타나지 않는 점 등으로 미루어볼 때 일단은 "증거불충분"에 해당한다.

Face Detection of Tech48

아마 단지 광각렌즈를 채용함으로서 사용자의 얼굴이 극단적으로 상좌우로 움직이는 경우도 대응할 수 있도록 만든 것으로 보인다. 정말 보면 볼수록, 오래간만에 감탄을 금치 못하게 하는 적절한 기술의 적절한 응용사례다.

참고로, 위 웹사이트를 잘 찾아보면 데모버전도 다운로드 받을 수 있다는...
신고
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.