엊그제 아는 분이 재미있는 동영상이라면서 URL을 하나 보내줬다. 바로 G-Speak. 모르긴 몰라도 꽤나 주목받을 것 같은 완성도의 제스처 입력 장치다. 일단은 받은 동영상부터 연결하고 시작하자.




Gestural Interface in Minority Report
영화 <마이너리티 리포트>가 개봉된 게 벌써 6년 전이다. 그 동안 수많은 Gesture UI와 Tangible UI, 그리고 가장 자격미달인 Touch UI까지 이 영화를 인용하며 자기 UI의 '혁신성'을 강조하곤 해왔다. (사실 영화야 2054년을 배경으로 했다고 해도 그것과 비교될 만한 걸 만든 건 왠지 혁신과는 거리가 있지 않나... -_-a ) 그런데, 이번엔 아예 영화 속의 동작기반 UI를 온갖 기술을 동원해서 똑같이 재현한 게 나온 거다. 이건 차라리 좀 혁신적이다.

G-Speak by Oblong Industries

이 프로토타입 시스템은 Oblong Industries이라는 작은 기술벤처 회사에서 개발한 것으로, 미국 방위산업체인 Raytheon Systems에서 자본을 댔다는 것 같다. 이 시스템에 대한 소개는 벌써 2006년 미국에서 방송을 탄 모양으로, CNN과 CBS에서 방송된 내용이 이미 유투브에 올라와 있다.

다음 날 아침에 추가:
뒤늦게 팀원이 지적해줘서 확인해 보니, 이 방송내용은 2006년 12월자 포스팅이다. =_=;; 결국 이때의 시스템을 개선(카메라 위치라든가 사용자 앞의 작업테이블로 이동하는 방식이라든가)해서 며칠 전에 맨 앞의 동영상을 올렸다고 보는 게 맞을 듯. 추가로 홍보비를 확보한 걸까. -_- 어쨋든 아래 뉴스 동영상에 기반한 내용들과 위 동영상 내용은 시기적으로 구분해서 참고하시길.



하나 더. (위의 것이 CNN, 아래 것이 CBS)


이제까지의 "마이너리티 리포트 방식" UI 들이 감히 하지 못한 게 데모 전에 실제로 영화의 장면을 보여주는 거 였는데, 저 화려한 실행장면에 비해서 그 일부만 구현했거나 온갖 보조장치가 덕지덕지 붙어 등장하는 기술데모는 초라하기 그지 없었기 때문이다. 그런데 이번엔 아예 보란듯이 나란히 보여주기까지... 아주 자신만만하다.

조금 감상적으로 씌여진 회사의 연혁 혹은 기술적 배경역사를 보면 알 수 있듯이, 이 회사의 대표는 바로 MIT Media Lab의 Tangible Media Group에서 Hiroshi Ishii 교수에게 수학했던 John Underkoffler이다. 말하자면 Tangible UI의 1세대라고 할 수 있겠는데, 그동안 그저 TUI의 태고적 흑백동영상 정도로 치부되던 1997년의 'Luminous Room' 동영상까지 덩달아 띄우고 있다. (이 기회에 개인적으로 좋아라 하는 I/O Bulb 개념에 대한 업계의 관심도 좀 살아나줬으면 좋겠는데 어쩌려나.)





이 사람의 배경을 생각하면서 뉴스에 나온 영상들을 들여다보면, 대충 이 시스템은 AR 태그를 이용한 인식방법과 모션캡춰를 결합해서 돈을 아끼지 않고 만든 시스템으로 보인다. 최소한 3대의 프로젝터와 최소한 6대의 적외선 카메라, 그것도 카메라는 상당히 고해상도임이 틀림 없다. 그렇다고 시스템이 고정된 건 아니고, 그때그때 공간에 맞게 설치해서 calibration해서 사용할 수 있는 모양이다. 맨 앞의 동영상을 자세히 들여다보면 사용자 앞의 벽면에서 사용자를 노려보는 카메라만 5개다.

G-Speak System ConfigurationG-Speak System ConfigurationG-Speak System Configuration

인식은 일반 모션캡춰에서 쓰이는 것보다 훨씬 작은 적외선 반사체를 양손의 장갑위의 손등과 엄지/검지/중지에 붙이되, 각각의 위치에 5x7의 격자를 놓고 35칸 중에서 5~6군데에만 반사체를 붙여 각각의 점을 구분하는 방법을 사용하고 있다. 널리 사용되는 AR Toolkit에서 흑백으로 인쇄된 종이를 사용하는 걸 응용한 듯.

G-Speak IR Tag for RecognitionG-Speak IR Tag for RecognitionG-Speak IR Tag for Recognition

IR LED Array in Ordinary Camera
문제는 정황 상으로는 비싼 군사용 고해상도 적외선 카메라와 엄청나게 빠른 컴퓨터를 사용했을 것 같은데, 카메라에 비친 저 카메라들과 광원의 모습은 전혀 적외선 카메라가 아니라는 거다. 일반적으로 적외선등(IR-LED Array)은 눈으로는 안 보이지만 보통 카메라로 찍으면 왼쪽 사진(2005년 용산 CGV의 영상인식 홍보설치물에서 촬영)처럼 보라색 광원으로 보이기 마련인데, 촬영된 동영상 어디에도 그런 건 없고 오히려 연두색 점광원만 보이고 있다. 흐음. 설마하니 자외선등 같은 건 아닐테고, 보안을 이유로 카메라에 적외선 필터라도 달게 한 걸까. 그렇다고 카메라의 빨강 LED가 녹색으로 보일 정도로 심한 필터링이 가능한지 모르겠다. ㅡ_ㅡa;;; 그 외에도 저 손가락 태그에 노란색/보라색 색이 칸칸이 다른 모양으로 칠해져 있는 이유가 딱이 설명되지 않는다. 뭔가 단순히 적외선 반사체의 배열로 AR tag를 대신해서 모션캡춰 장비에 연결시킨 것만은 아닌 모양.

그래서... 혹시나 해서 특허를 찾아보니 뭐 줄줄이 나온다. 저 앞의 뉴스에서는 원리가 비밀이라고 하더만, 딱히 비밀일 것도 없네 뭐. ㅡ_ㅡa;;; 대충 앞에서 설명한 것과 맞아 떨어진다. 2006년 2월에 출원했는데 여태 등록이 안 된 상태라서 그렇게 말한 걸지도 모르겠다. 어쨋든 특허만으로는 그냥 적외선 카메라 외에 특별한 걸 못 찾았다. 결국 이번 시스템의 기술적 비밀은 그저 막대한 (눈 먼) 군사자본이었던 거냐... OTL...

G-Speak Patent DrawingG-Speak Patent DrawingG-Speak Patent Drawing




바로 전의 소니의 동장인식 게임 컨트롤러의 뉴스도 그렇고, 며칠 후에 올리려고 하는 뉴스도 있고... 요 며칠 참 동작기반 UI 관련 소식이 많다. 이번의 G-Speak가 많은 동작 UI 팬들의 마음을 설레게 할 만큼 영화 속의 환상을 잘 재현하고, 상상으로만 생각하던 동작인식 시스템을 그대로 구현한 건 사실이지만... 여전히 UI의 근원적인 질문을 안 할 수는 없을 것이다. "이게 쓰기 편할까?"

솔직히 동작인식.. 그것도 저렇게 양팔을 열심히 돌리고 움직여야 하는 UI가 사용자에게 편할 리가 없잖아. =_=;;; 테러리스트 잡으려는 일념으로 뭐 하나 검색하고 나면 완전 땀으로 범벅 되겠다. ㅋㅋ 게다가 동작 UI 해 본 사람은 안다. 동작명령 외우는 게 "가리키기"와 "잡기"를 제외하고는 (그런데 이것도 결국 마우스의 point and click이라 ;ㅁ; ) 얼마나 어려운지.

테러리스트 잡으려면 사실 데이터가 확보되는 게 우선이고, 데이터가 확보된 후에는 3D 마우스나 터치스크린 정도면 충분한 속도로 검색할 수 있을 것 같다. 굳이 저렇게 '달밤에 체조'를 하지 않아도 볼 수 있는 건 충분히 볼 수 있으텐데 말이지... 굳이 사용자의 손을 영상인식으로 추적하는 것보다, 수집된 영상데이터에서 수상쩍은 상황을 영상인식으로 골라내서 보통 PC 앞에 앉은 사람에게 최종확인을 맡기는 게 나을 것 같은 생각이 든다. ㅡ_ㅡa;; (아 물론 쫌 과장이다. 적외선 광점을 찾아내는 건 수상한 상황을 인식하는 것보다 몇천배 쉽다 ^^: )
Posted by Stan1ey

댓글을 달아주세요:: 네티켓은 기본, 스팸은 사절

  1. htruth
    2008.11.18 14:52
    댓글 주소 수정/삭제 댓글
    아.. 하단부의 코멘트는 저나 달만한 내용인데요.
    스탠리님께서는 더 긍정적인 코멘트를 하셔야죠.
    동영상을 보면서 하단부와 같은 코멘트는 달지 말아야지 라고 결심한 제가 허탈해지는데요.
    긍적적으로 리플을 달자면 전 Gesture UI를 Wall display와 Tabletop에 연결해서 사용하는 상황에서는 유용성이 있을것 같네요.
    모든걸 Gesture로 한다면 정말 모 하나 찾아보려다 땀범벅이 될 수도 있겠지만, 직관적인 몇가지의 동작은 유용하게 사용가능하지 않을까 합니다. 선택을 위한 클릭동작같은거 말고요.. 공간사이를 이동시킨다거나 할때 말이지요. 다만 그거 하려고 장갑까지 끼어야 한다면 -.-
    • 2008.11.18 18:32
      댓글 주소 수정/삭제
      "이젠 말할 수 있다"는 거죠. 조직 내에서 관련연구를 하는 입장에서는 말 한마디가 조심스러웠으니까. :P

      동작UI는 결국 implicit input에 한정되지 않을까요? 제 생각엔 공간이동 등도 사실 생각해보면 훨씬 편하게 할 수 있는 GUI를 떠올릴 수 있을 것 같습니다. 단지 사용자가 넓다란 화면 어디에 서있는지, 어디를 보고 있는지, 어디를 가리키고 있는지... 뭐 그런 걸 맥락정보로 활용해서 팝업 띄워주고 어쩌고 저쩌고 (뭐 이런 얘기는 자세히 할 필요가 없겠죠? ^^* ).. 여하튼 그런 식으로 활용하면 적당할 것 같습니다. G-Speak처럼 괜히 explicit command로 주도적인 위치를 노리다가는 Voice UI처럼 반대론만 많아질 것 같아요. (흑 OTL )
  2. 2008.11.19 07:49
    댓글 주소 수정/삭제 댓글
    아.. 얼마전 Engadget 에 이영상이 올라온것을 보고 Stan1ey 님께서 정리해 주실것 같단 생각이 들었었는데. 역시나~! 좋은 정보,정리 잘읽었습니다 감사합니다 ^^
    • 2008.11.19 16:59 신고
      댓글 주소 수정/삭제
      아직은 인터넷에 올라온 이야기 멋대로 편집하는 수준인 걸요. 블로그를 처음 시작했을 때는 신기술 뉴스 퍼나르는 블로깅은 하지 말아야지... 했는데, 사실 최근엔 오십보백보라는 생각에 좀 괴로와하는 중입니다. 흑. -_ㅜ

      좋게 봐주셔서 감사합니다. ^_^
  3. htruth
    2008.11.19 08:57
    댓글 주소 수정/삭제 댓글
    ^^
    사실 넓다란 화면에서 사용자가 어디 서있는지는 어디를 선택했는지를 기반으로 어느정도 추측 가능하다고 생각되네요. 요즘 관심있는 이슈여서 여러가지 방식을 찾아보고 있기도 하고요. 손의 동작 범위나 그에 따른 선택의 형태나 사용자의 예측 키나 이전에 선택했던 컨텐트의 위치나 그런걸 조합해볼 수 있지 않을까요? 음..
    • 2008.11.19 17:18 신고
      댓글 주소 수정/삭제
      2008년 CHI에서 '3D UI' 코스를 했던 사람들 중에, 아마도 Doug Bowman의 연구사례가 전 마음에 들더군요. 커다란 벽화면 앞에서 타블렛을 특정 위치로 향하면(움직이지 않더라도) 타블렛에 부착된 마커로 벽화면의 일정 부분을 타블렛으로 보내주고, 거기서 다시 터치 펜으로 정밀한 작업을 할 수 있게 해주는 장치였습니다. 연구에 몇단계가 있고, 뒤로 갈수록 더 많은 고민의 흔적이 보였던 기억이 납니다. 무엇보다... 이 방식이 꽤 natural 하다는 생각이 들었어요. 동작은 implicit하게, 명령은 explicit하게... 사실은 이 연구를 떠올리면서 해본 이야기입니다.
  4. 2008.11.19 11:09
    댓글 주소 수정/삭제 댓글
    비밀댓글입니다
  5. creep
    2008.11.20 19:56
    댓글 주소 수정/삭제 댓글
    양심선언이군요. 이젠 말할 수 있다..라니. 최근 인터액션 디자인 변화의 템포를 과거(라고 해봤자이지만)와 비교해서 보면 좀 더 빠르다..라고 느끼는 것은 저만인가요? 아니면 단지 '아는 만큼 보이는 것이었을 뿐' 정도의 면박으로 정리할 수 있는, 어제와 크게 다르지 않은 오늘인건가요.
    • 2008.11.20 20:34 신고
      댓글 주소 수정/삭제
      제 극히 개인적인 취향이 반영된 의견으로는, "도구로 생각되던 컴퓨터의 지능을 인정하기 시작하면서 생기는 UI 기본 개념의 과도기"라고 생각해요. IUI라고 하게 될지 HTI라고 하게 될지는 모르지만, 이제는 PUI라고 불리는 UI의 근원에서 몇년전의 HCI까지는 솔직히 크게 변한 게 없잖아요. 이제서야 컴퓨터를 대상으로 한 UI에서 PUI와 다른 점을 찾고 그 "공존의 조건"을 모색하고 있는 게 아닐까요.

      예전에 'IUI의 affordance'로 이 "공존의 조건"이라는 걸 언급한 이후로, 아무래도 자꾸 마음에 밟히는 컨셉이랍니다. ... 이제 쓸데도 없으면서. -_-a
  6. ㅋㅋㅋ
    2008.12.28 17:21
    댓글 주소 수정/삭제 댓글
    손가락 제스처도 인식한다면
    화면을 향해 뻑큐하면 어떻게될까?
    • 2008.12.28 23:34
      댓글 주소 수정/삭제
      G-Speak 같은 경우에는 위치추적 지점이 제한되어 있어서(동영상에서는 세 손가락과 손등..으로 보이는군요) 뻑큐 동작을 정확히 잡아내지는 못하겠지만, 실제로 손동작 인식을 해본 사람이라면, 아니 사실은 무슨 종류의 인간입력을 처리해본 사람이든 easter egg를 만드는 기분으로 뻑큐 동작이라든가 "바보" 음성이라든가를 인식하도록 하고 있을 겁니다. 재미있잖아요.

      저는 대화 시스템이나 음성인식 UI를 구현할 때 비슷한 장난을 친 적이 있는데, 어떤 경우(개인적으로, 혹은 팀 내에서 쓰는 용도로)에는 "바보"라고 하면 "네가 더 바보야!"라고 한다거나 하지만 실제 사용할 때에는 "잘 못 알아들어서 죄송합니다."라는 식으로 하기도 했죠.

      아마 화면을 향해서 '뻑큐'하면, 얼마만큼 공식적인 시스템이냐에 따라 그 반응이 '맞뻑큐(?)'에서 '화내는/우는 얼굴' 등으로 다를 수 있지 않을까요?


BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.