Exoskeleton for Sale

2008.07.03 21:41

외골격계 로봇 강화복...하면 내게 떠오르는 이미지는 이렇다.

Exoskeleton from Bubblegum Crisis
Exoskeleton from Iron Man

(왼쪽은 내가 강화복을 처음으로 - Starship Troopers보다 먼저 - 접한 애니메이션 Bubblegum Crisis ^^* , 오른쪽은 가장 최근의 영화 Iron Man이다.)

뭐 이런저런 SF 매니아로서의 소회는 접어두고, 이게 슬슬 실제로 팔리나보다. 몇년전 버클리 대학에서 BLEEX라는 미군용 강화복을 만든다며 크고 무겁고 뜨겁고 시끄러운 배낭을 맨 군인복장의 사진을 돌렸을 때는 참 돈이 많으니 별 걸 다 하는구나 싶었고, 얼마 후 일본의 츠쿠바 대학에서 HAL이라는 물건을 만든다며 쌀가마니나 여성관객을 번쩍번쩍 들어올리는 시범 동영상이 돌 때는 그냥 쇼를 한다고 생각했던 것 같다.

BLEEX from UC Berkeley
HAL from Cyberdyne


그런데, 오른쪽 강화복 HAL - Hybrid Assistive Limb - 이 일본 내 판매를 시작했다. 물론 시장에서 쌓아놓고 누구나 살 수 있는 가격으로 파는 건 아니지만, 실제로 판매를 담당하는 회사가 생기고 구매상담을 할 수 있는 웹페이지가 있다!

Screenshot of Cyberdyne Website

마치 소니에서 로봇 강아지 AIBO를 처음 팔기 시작했을 때의 느낌이다. 한편으로는 이 사람들이 미쳤나? 이게 시장성이 있나? 싶고, 한편으로는 UFO를 주웠나? 미래에서 온 거 아냐? 라는 생각도 든다. 어느 쪽이든 이 회사 - Cyberdyne - 는 역사 속에 외골격계 로봇 강화복을 최초로 상용화한 회사가 될테지만. (그나저나 회사 이름은 영화 <Terminator>에서 인류절멸을 추진?한 컴퓨터를 만든 회사의 이름이고, 상품의 이름은 영화 <2001: A Space Odyssey>에서 승무원을 모조리 살해하려 했던 우주선 컴퓨터의 이름이다. 도대체 뭘 생각하고 있는거야... ㅡ_ㅡ; )

위의 두 물건 다, 사실 별도의 사용자 인터페이스라고 할만한 것은 없다. 아니, 정확히 말하자면, '전통적인 의미의' 사용자 인터페이스는 없다고 해야 하겠다. "사용" 전에 세밀한 설정 등을 어딘가 붙어있을 무슨 버튼과 화면을 통해서 미리 해야 할지는 모르겠지만, 중요한 사용법은 그냥 "움직이고 싶은대로 움직이면" 나머지는 기계가 알아서 지원해주는... 그야말로 Intelligent UI의 궁극적인 모습을 보여주고 있는 것이다. 사실 내 팔다리를 움직이는 데에 하나하나의 움직임을 명시적으로 지시할 수는 없다고 하더라도, 저렇게 많은 관절들을 동시에 움직이는 데 [예비]동작을 통한 암묵적인 지시가 과연 안정적인 사용성을 제공할 수 있을까? 그것도 이 말 한마디 통하지 않는 - 굳이 분류하자면 - '로봇'을 대상으로 말이다.



VTAS: Visual Tracking Acquisition System
Cyberdyne사의 HAL처럼 근전도도를 이용한 명령방식이나, 전투기 조종사의 안구추적을 이용해서 목표를 조준하는 선택방식은 IUI의 사례 중에서도 아주 특별히 성공적인 사례다. (몸의 기울임으로 전진/후진/회전을 조정하는 방식은 반대로 명백한 실패사례다.) 성공 사례들의 공통적인 특징이라면 역시 주어진 분야에 특화된 극히 제한된 영역을 사용했다는 것이 되려나? 그 제한된 영역이 굳이 "틀려도 상관없는 기능"이라는 주장은 이제 "비겁한 변명"으로 치부될 수 있을 것 같다.

사실은 뭐 눈엔 뭐만 보인다는 좋은 예시일지도 모르겠지만... 아무래도 센서 기반의 암묵적 입력과 인공지능 기반의 인식 알고리듬이 결합된 앞으로의 HTI에서는, 인간과 기계 간의 기능 분배와 협업(Autonomy vs. Control)이 UI 디자인의 핵심이 될 것 같은 생각이 든다.

신고
Creative Commons License
Posted by Stan1ey

Machine Got Faces

2008.06.22 23:53
찾아보니 2004년의 일이다. 한창 가정용 로봇의 얼굴표정을 가지고 고민하고 난 참에, 일본 Toyota의 "얼굴표정으로 감정을 표현하는 자동차" 특허가 외신에 보도된 적이 있다. 이미 일본은 다양한 스펙 -_- 의 얼굴을 가진 가정용 로봇이 만들어져 있었고, 특허 내용은 사실 그런 방식을 자동차에 적용한 것으로, 기준이 되는 감정상태는 운전자와 승객으로부터 직접 입력되기도 하지만, 운전 조작의 상태로부터 자동차 스스로 판단하기로 한다고 한다.
Car with Facial Expression - Toyota patent

Picard 교수의 <Affective Computing>를 인용하자면, - 비록 이 저서가 논문 한편 분량의 아이디어를 책으로 만들 수 있다는 대표적인 사례이긴 하지만, 그 아이디어만큼은 무척 재미있다 - 인간의 감정이라는 것이 인간의 내적 상태를 표현함으로써 인간과 인간 사이의 사교적 관계를 개선하고자 하는 행위라면, 기계의 감정 역시 기계의 내적 상태를 표현함으로써 인간과 기계 사이의 사교적 관계를 개선하고자 하는 행위로 정의할 수 있다. 즉, 기계의 내적 상태 - 이를테면 CPU가 과부하되고 있다든가, 저장용량이 그득히 찼다든가, 반대로 메모리가 텅 비어서 별 작업을 하고 있지 않다든가 - 를 적절히 표현하는 것이 MMI 혹은 HCI 환경에서 보다 풍부하고 만족스러운 상호작용을 도와줄 거라는 거다.

그런 관점에서 2004년의 "감정을 표현하는 자동차" 특허는 사뭇 유치해 보이더라도, 상당한 발전 가능성을 가지고 있다고 보였다. 문제는 이 로봇장치를 통한 감정표현이라는 것이 잘 디자인된 경우를 봐도... 유치해 보이거나, 섬칫해보인다는 부분이었다. 아래의 두 그림은 내 생각에 가장 대표적인 사례이다.
 
PaPeRo, a Home Robot by NEC
Kismet, a Sociable Robot by MIT Media Lab.


위 왼쪽의 유치해 보이는 로봇은 NEC의 PaPeRo, 오른쪽의 섬칫해 보이는 로봇은 MIT의 Kismet이라는 로봇이다. 사실 위 자동차 특허는 기술적 구성 상으론 Toshiba의 ApriAlphaPhilips의 iCat을 좀더 닮았지만, 해당 나라의 디자인 취향을 반영한다고 쳐도, 앞서 말한 잘 디자인된 경우는 아니다. (어쩌면 내 취향일지는 모르겠다... -_-;; ) 특히 PaPeRo는 몸통에 머리만 달린 대부분의 가정용 로봇(=홈로봇, home robot)의 원형이라고 할 수 있을 정도의 구성을 가지고 있다. Kismet은 이후 보다 '덜 무생물스러운' 후속 로봇들이 많이 있지만, 그 기괴함은 여전하다. 이 두가지 로봇은 아마도 아래의 Uncanny Valley에서 서로 반대쪽 변곡점에 위치하고 있는 사례일 것이다.

Uncanny Valley

[○] 우리나라의 사례: ETRI (6월25일 추가)



얼굴 표정을 통해서 인간-기계 사이의 관계를 개선하려는 이런 노력도 결국 이 골짜기를 헤어나오지 못하는 걸까... 라는 생각을 마지막으로 접어두고 있던 이 "기계의 표정"이는 주제가 다시 떠오른 것은, 얼마전부터 인터넷에 돌기 시작한 BMW의 컨셉 자동차 GINA 덕택이다.
사용자 삽입 이미지

표면재질을 천으로 만들고, 대신 내부의 골격으로 안전성을 (최대한) 유지하며, 무엇보다 천의 탄성과 유연성으로 자동차의 모양이 물리적으로 변형하면서도 유기적 형상을 유지할 수 있는 이 혁신적인 디자인의 자동차는 물론 그 사진들만 봐도 입이 떡 벌어질 정도의 멋진 물건임에는 틀림이 없다. 천 소재를 사용했기에 상상할 수 있는 현실적인 문제들도 있겠지만, 그래도 아이디어만큼은 두말할 나위 없이 기똥차다.

BMW Gina - Light Visionary Model
BMW Gina - Light Visionary Model
BMW Gina - Light Visionary Model


단지, 나에게 중요하게 느껴진 것은 그 디자인보다... 수석 디자이너인 Chris Bangle이 등장하는 아래 소개 동영상의 마지막 1컷이다.



순간 숨이 멎는 줄 알았다. 기계장치(레버, 축, 직선 같은 시각요소들)가 철저히 감춰져 있다는 것이 이런 느낌을 주는구나... 이런 방식이라면, 기계의 얼굴표정이라는 개념이 Uncanny Valley를 빠져나오는 데에 도움이 되지 않을까...? 게다가 항상 실내에 머무는 가정용 로봇이라면 자동차에 비해서 천 재질을 사용함에 따른 문제가 훨씬 덜 할 것이고, 게다가 기존에 문제가 되었던 다른 것들 - 주로 이 단단하고 무거운 것이 집안을 헤집고 다닌다는 것에 대한 - 이 천 재질의 표면을 사용함으로써 해결될 수 있을 것이다. 표면의 오염이라든가 하는 문제는 요새 많이 나오는 '첨단' 재질을 사용한대도 플라스틱이나 금속 코팅보다는 싸게 먹힐 것 같다.

아직 내가 로봇 UI... 혹은 HRI를 하고 있다면, 꼭 고려해보고 싶은 방식이다. 뭐 사실은 그렇다고 해도, 그보다는 더 큰 질문 - "그래서 그 비싼 로봇이 집안에서 뭘 해주는데?" - 에 여지껏 대답하지 못해서 끙끙대느라 정작 중요한 다른 생각(?)은 못하고 있겠지만.
신고
Creative Commons License
Posted by Stan1ey
급고백. 나는 애니메이션 <공각기동대>에 나온 "다치코마"라는 로봇을 좀 과하게 좋아한다. -_-;; 사무실 책상에는 작은 피규어 인형이 숨어있고, 집에는 조립하다 만 프라모델도 있다. 한동안 PC 배경으로 다치코마를 깔아두기도 했고.

Tachikoma Welcoming

애니메이션을 본 사람이라면 공감하겠지만, 인간적인 상호작용과는 전혀 동떨어지게 생긴 이 로봇(들)은 독특한 장난스런 말투와 동작, 그리고 무엇보다도 더없이 인간적으로 만드는 그 호기심으로 인해 그야말로 사랑스러운 캐릭터라고 할 수 있다.

하지만 내가 다치코마를 좋아하는 건 거기에 더해서, <공각기동대>에서 다치코마가 맡고 있는 '캐릭터' 때문이다. 다치코마는 '대체로 인간'인 (세부 설명 생략;;) 특수부대 요원을 태우고 달리거나, 그들과 함께 작전에 투입되어 어려운 일(이를테면, 총알받이)을 도맡는다. 이들은 인간에 준하는 지능을 갖고 인간을 돕지만, 자신들이 로봇임을 알고 있고 부상이나 죽음에 대한 두려움이 불필요함을 안다. 하지만 시리즈가 거듭될수록 다치코마의 집단지능이 높아지고, 이들은 점차 사유라고 할 수 있는 수준의 대화를 하게 된다.

Tachikoma Discussing

"인간보다 뛰어난 인공지능이, 왜 인간에 의해 통제되어야 하는가?"
"전뇌를 가진 인간이 왜 여전히 비효율적인 언어를 사용하는가?"
"로봇에게 죽음은 아무 의미가 없는가?"
"남을 위해서 자발적으로 자신을 희생한다는 이유는 무엇인가?"

이런 '담론'들은 아주 조금만 과장하자면, 이미 우리 생활에 들어와있는 많은 자동화 기기와 Intelligent UI의 이슈인 Autonomy vs. Control 에서 다뤄져야 할 내용이다. 청소로봇의 사례까지 갈 것도 없이, 사람이 가까이 가면 열리는 자동문에서부터 이러한 이슈는 크고 작은 사용성 논쟁을 벌일 수 있는 소재가 된다. 실제로 <공각기동대>의 어떤 에피소드들은, 보다가 자꾸 HRI 이슈가 등장하는 바람에 몇번이나 되돌려 보곤 한다.


실은, 이 다치코마를 간단한 대화와 제스처가 가능한 정도로 만든 '프로토타입'이 공개되어서 이런저런 생각이 들어 한번 적어 보았다.



물론 위의 '더미'에는 별 관심이 없다. (판매용이 아니라고도 하고;;) 하지만 미래에 다치코마의 머리가 될 인공지능의 발달과, 그 훨씬 전단계인 오늘날의 상용화된 인공지능들 - 다양한 센서와, 단순하더라도 무언가를 판단하는 중첩된 if 문들 - 은 아무래도 굉장히 많은 숙제를 던져주려고 저 멀리서 성큼성큼 걸어오고 있는 게 분명하다. 이제는 발소리가 들릴 정도로 아주 가까우니까 말이다.

Tachikoma Exhausted

신고
Creative Commons License
Posted by Stan1ey
이 블로그 최초의, 해외 특파원 소식이다. -_-;;;

출장 와서 동료들과 함께 아침을 먹으면서 (1인당 하나씩 시키기엔 양이 너무 많았다 -_-a ) 영국 TV를 보는데, 재미있는 걸 발견해서 이야깃꺼리가 됐다. BBC UK TV 와 Channel 4+1, E4+1 채널 중 몇 군데에서 청각장애인을 위한 수화를 뉴스나 드라마, 심지어 쇼프로에 이르기까지 제공해 주는데, 우리나라처럼 화면 한쪽에 동그란 영역을 따로 설정한 게 아니라 수화 narrator가 화면에 포함되어 있는 형태인 것이다. 게다가 특이한 것은, 대사가 없을 경우에도 배꼽에 손을 얹고 정면을 바라보고 있는 '차례' 자세가 아니라 아래와 같이 "같이 TV를 보는" 자세를 취하고 있는 게 이채롭다.

Watching TV Show ALONG WITH Sign Language Narrator

위와 같이 시청자와 같이 TV를 보다가, 대사가 나오면 아래와 같이 수화로 대사와 내용을 - 수화는 모르지만, 대사의 양과 수화의 양을 비교해 보면 가끔은 내용을 요약하기도 하는 것 같다 - 전달해 준다.

Sign Language Narrator of BBC, UK

그런데, 더욱 재미있는 건, 우리나라의 수화자(이 narrator를 뭐라고 하는지 모르겠다)처럼 시종일관 무표정한 표정으로 전달하는 게 아니라, 매우 다양한 표정을 함께 '연기'하면서 실감 있게 극을 전달하고 있다는 거다.

Nice Face Acting Screen Shot of Sign Language Narrator

이런 표정 연기는 드라마에만 국한되는 게 아니라, TV show는 물론 뉴스를 전달할 때에도 슬픈 소식에는 슬픈 표정과 추가적인 감정표현을, 좋은 소식에는 좋은 표정을 더해기 때문에 단지 시선을 공유하는 게 아닌 실제로 해당 방송 컨텐트를 함께 보고 있다는 느낌을 주고 있었다. 같이 TV를 보던 사람들이 말했듯이 "이건 마치 (수화를 쓰는) '변사'잖아!" 라는 것이 매우 적합한 묘사인 듯 하다.


Robot을 Hardware Agent라고 부르며 Software Agent와의 공통점을 찾던 시절에, 로봇이나 on-screen agent의 시선 처리는 중요한 디자인 요소 중 하나였다. 특히 로봇은 3차원에 있기 때문에 시선이 더욱 중요했는데, 동시에 3차원이기 때문에 시선처리의 자유도가 사용성에 반하는 경우 - 로봇이 뒤돌아 있으면, 사용자는 로봇이 어딜 보는지 알 수 없다 - 도 발생하기 때문에 여러가지 방식의 실험연구가 보고되기도 했다.

그 중 약간은 유연한 연구에서는, Agent의 시선처리를 사용자와 직접 대화를 할 경우 적절한 눈맞춤 eye contact 을 갖거나(mutual gaze), Agent가 사용자와 같은 사물이나 방향을 함께 봄(shared looking)으로써 함께 대화를 하고 있다는 감각을 주기 위해서 활용하고 있다. 위의 수화자가 화면에 등장하는 방식이나 그 시선처리와 표정연기는 모두 그 연구에서와 같이 그 경험을 Agent가 사용자와 공유하고 공감하고 있다는 것을 강조함으로써 UI가 컨텐트와 분리된 것이 아니라 하나로 융합된 경험이 되어 있다는 생각이 들었다.

UI와 컨텐트가 융합되어 하나의 완성된 경험을 이룬다는 것은, 멀티미디어 정보기기의 개념이 처음 나왔을 때 H/W와 S/W가 하나의 컨셉 하에 디자인되어야 한다는 것과 궤를 같이 하는 것 같다. 게임 <Call of Duty>가 보여준 것 - Storytelling에 있어서 autonomy와 control의 다양한 혼합 비중 - 도 좋은 모델이 되겠지만, Agent가 등장할 경우 그 역할모델이 무엇이어야 할지에 대한 것도 하나의 재미있는 연구 주제가 될 것 같다.

(외국에서 현장 르포 한번 올려보고 싶어서 주절 거리긴 했지만, 이거 주제도 없고~ 재미도 없고~ 교훈도 없고~ ㅋㅋ 나 뭐한 거니...)
신고
Creative Commons License
Posted by Stan1ey

예전 웹툰들을 들춰보다가, 지난 2006년 11월 28일자 와탕카를 보고 그냥 스크랩해 놓으려고 한다. 전체를 갖다놓는 건 요즘은 좀 위험할 것 같고, 그냥 로봇의 궁극적인 '인공지능'에 대해서 가장 인간적인 부분 - 게으름과 눈치 - 이 구현되었을 때의 로봇 청소기를 상상한 장면이 재미있다. (전체 스토리는 위 링크를 참조할 것)

와탕카 685호 (06.11.28)

로봇의 인공지능에 빗대어 인간의 "지능적인" 속성을 이야기하는 것은 웹툰에서도 자주 보이는 모습이다. 일전에 컴퓨터 대 인간의 카드 게임에서 인간이 인간 만이 가지고 있는 특징 - bluffing - 을 이용해서 컴퓨터를 이겼다는 뉴스와 맞물려서, 참 이런 로봇이 나온다면 나름대로 귀엽겠다는 생각이 든다.

물론 그 수준의 인공지능을 영화 <I, Robot>이나 <The Matrix>에서처럼 사용하지 않는다는 보장은 전혀 없지만. ㅡ_ㅡ;;;

신고
Creative Commons License
Posted by Stan1ey

<Media Equation>이라는 책이 있다. 번역본도 나온 것으로 알고 있고... 여하튼 이 책은 부제목에서 말하듯이 "어떻게 인간이 컴퓨터나 다른 새로운 미디어를 마치 사람인 것처럼 다루는가"에 대한 책이다. 이 책에서 말하는 new media에는 라디오나 TV도 포함하고 있고, 음성입출력을 사용하는 기계라든가 화면 상의 의인화된 에이전트 캐릭터에 대해서도 언급하고 있다.

그림이 없기 때문에 많은 상상력을 동원해야 하는 읽기 힘든 글이지만, (저자인 Clifford Nass 교수와 대화한 적이 한번 있는데, 그때의 경험과 비슷하다. 어찌나 빠르게 말로만 이야기하는지! -_-;; ) 어찌 보면 당연할 내용을 하나하나 실험을 통해서 밝혀주었다는 점에 대해서는 머리를 조아리고 받들어야 할 참고문헌이라고 생각한다.

이 책 - Media Equation - 에서는 로봇에 대해 다루고 있지 않았고, 비교적 신간인 이후의 책 <Wired for Speech>에서도 로봇에 대한 언급은 거의 없으니 아무래도 이 저자에게 로봇은 주된 관심사가 아닌 듯 하다.

하지만 Media Equation에서 말하는대로 제품에 음성출력이 들어가는 순간 그 인간만의 고유특성으로 인해 의인화가 훨씬 더 많이 유도된다면, 움직임이라는 인간 혹은 동물만의 고유특성도 그에 상응하는 정도로 의인화가 유도되어야 하는 게 맞을 것이다. 실제로 Nass 교수의 연구실에서 박사학위를 받은 이관민 교수님의 경우에는 Roomba와 Aibo의 사용자를 대상으로 media equation이 얼마나 적용되는지 고찰하기도 했고, 나도 사무실을 돌아다니는 청소로봇이 사람들에게 어떤 영향을 미치는지를 관찰한 적이 있다. 적어도 이제까지 직간접적으로 경험한 바로는, 인간이 로봇에게 느끼는 의인화 성향은 심지어 SF 영화나 만화에서 과장해서 그리는 것보다도 더 크다고 생각된다. 무생물인 로봇을 인간처럼 다룬다는 것은 마치 인형놀이처럼 느껴질지 모르지만, 남녀노소 누구나 쓰레기통에 종이뭉치를 던져넣으며 즐거워 하듯이 그 인형놀이도 모두의 놀이이기 때문에 그만큼 중요한 게 아닐까.


어찌 알고 있는 연구자가 이번에 로봇의 감성적 영향에 대한 연구를 정리해서 발표한 모양이다. 출장 중에 받은 메일링리스트에서 아는 이름을 발견하고 한편 대견하고, 한편 부럽고 한 복잡한 심경이었다. ^^;


특히 이 연구의 결과물 중 하나인 아래 그래프는 한번 눈여겨 볼만하다.

Roomba Philes - How the owners do for them, with them, by them.

이러한 결과는 사실 이번이 처음이 아니고, 위에서 언급한 이관민 교수의 2006년 연구에서도 비슷한 결과가 나온 적이 있다. Aibo 사용자(혹은 주인)들의 과잉-의인화된 행태('과잉'부분에 대해서는 판단을 조금 유보하고 싶지만)에 대해서는 다른 매체에서도 인터뷰 등으로 그 현상을 지적하기도 했다.

하고 싶은 얘기는, 처음에 위 그래프와 같은 결과를 받아든 사람들의 대부분의 반응은 "말도 안 된다", "대상이 초딩이냐" 뭐 이런 식이지만, 로봇에 대한 사람들의 친밀도가 (문자 그대로) 상상을 초월하고 있다는 것은 이미 한두번 지적된 것이 아니라는 것이다.

이번 성자영씨의 연구가 의미를 갖는 것도 그런 맥락이다. 이제까지는 비교적 소수의 사람들을 인터뷰하는 수준이었기에 어느 정도 반론이 가능했지만, 이제 당연시 되어버린 청소로봇... 혹은 좀 더 편한 가전제품의 소유자 379명을 대상으로 한 연구이므로 그동안 있어왔던 논란에 쐐기를 박을 수 있지 않을까 생각한다.

이제 문제는 디자이너들이다. 우리는 이렇게 로봇을 사랑하고 아끼는 사용자들을 위해서 로봇을 디자인할 준비가 되어 있는가? (이 "우리 디자이너들은 준비가 되어 있는가?" 라는 주제는 조만간 CHI 학회를 정리하면서 한번 더 이야기하게 될 듯...)

신고
Creative Commons License
Posted by Stan1ey

'노래하는 TTS' ... 그런 이름의 연구과제를 어깨너머로 본 적이 있다. (TTS는 Text-To-Speech, 즉 음성합성이라는 뜻이다) 당시 소속되어 있던 연구실 뿐만 아니라 국내에서만도 몇몇 학교와 연구기관에서 연구하던 주제였다.

어느 정도 알아들을 수 있는 걸음마 수준의 음성합성기였지만, 떡잎부터 보였던 문제 중 하나는 그 '소름끼치는 목소리'였다. 분명 100% 기계적으로 합성한 초기의 음성합성 방식이 아님에도 불구하고, 사람 목소리 중에서 다양하게 사용할 수 있는 '중립적인' 음원을 중심으로 sampling하다보니 아무래도 강약도 높낮이도 없는 건조한 목소리가 되기 마련이고, 그렇게 합성된 음성에는 "공동묘지에서 들리면 기절하겠다"든가 "연변 뉴스 아나운서가 있다면 이렇지 않을까"라든가 하는 소리가 늘상 따라다녔던 거다.

합성된 음성에 강약과 높낮이를 넣기 위한 대표적인 연구인 '노래하는 TTS' 연구과제는, 하지만 너무 많은 난관 - 노래는 음표만으로 이루어지는 게 아니라 많은 기법들이 동시에 적용되며, 게다가 악보에 나와있진 않지만 노래할 때 생기는 자연스러운 현상, 즉 발음이 뭉개지거나 평서문과 다른 곳에서 연음이 생기는 등을 고려해야 하는 점이 기존 음성합성 연구범위만으로는 해결하기 어려웠기에 순탄하게 진행되지도 뚜렷한 성과를 내지도 못했던 것 같다.


...

그건 그렇고, "파돌리기 송"이라고 들어봤는가? ㅡ_ㅡ;;;


중독성이 있네, 가사에 무슨 의미가 있네 하면서 한참을 인터넷에 돌아다녔던 동영상이고, 나도 무슨 일본 애니메이션 캐릭터를 가지고 장난친 거려니 하고 그냥 한번 보고 웃어넘겼던 동영상이다.

그런데, 같이 일했던 분이 알려준 블로그에 의하면, 이게 컴퓨터로 합성된 음악.. 그러니까 노래라고 한다. 관련된 동영상이며 캐릭터 이미지들을 찾아보니 과연 참 오타쿠 문화의 본산인 일본다운 기획이다 - 좋은 뜻도 나쁜 뜻도 포함해서 - 싶으면서도, 음성합성이라는 측면에서 봤을 때는 엄청난 발전이라는 생각도 들었다.

하츠네 미쿠 by Vocaloid + alpha

여기에 사용된 '노래 합성' S/W와 데이터베이스는 Yamaha의 Vocaloid라는 제품이다. 현재는 일본어와 영어를 제공한다지만, 사실 음운 기반의 합성 방식이므로 약간의 불편을 감수하면 어떤 언어로도 사용이 가능할 것으로 보인다.

잠깐 이 Vocaloid라는 S/W의 모습을 보면:
Vocaloid Screenshot: Amazing grace~

악보를 오선지에 그리는 대신 높낮이에 따른 시간 막대로 표시한 다음, 각각의 음에 해당하는 대목(단어 혹은 그 일부)을 입력하는 방식임을 알 수 있다. 각각의 단어에 해당하는 음소는 자동생성되지만, 필요에 따라 편집할 수도 있다고 한다. 뭐 여기까지는 기존의 '노래하는 TTS'들과 비슷하지만, Yamaha 다운 점이랄 수 있는 것은 역시 노래의 강약조절이나 vibration 같은 기법을 넣을 수 있도록 했다는 것이랄까. 이게 단지 몇가지 필터를 넣은 게 아니라, 노래의 다양한 패턴 중에서 자연스럽게 적용될 수 있도록 한 점이 돋보인다. 실제로 샘플 노래를 들어보면 단순히 특정 음에 맞춰 특정 발화를 주어진 길이만큼 하는 단순한 조합에 비해 훨씬 자연스럽다고 생각한다.



지난 1997년말 '사이버 가수'라는 타이틀을 처음으로 대대적으로 내세운 '아담'이라는 ... "그림"이 널리 회자된 적이 있다. 가수인 주제에 입 벌린 사진 하나 찾을 수 없는 이 친구는 사실 CG 캐릭터에 가까왔고, 실제 노래를 부른 가수는 따로 있었으니 실상은 '립싱크' 가수랄까. 사실 그건 1996년에 나온 일본의 '버추얼 아이돌'인 '다테 교코'도 마찬가지였고. 이런 기획들을 비판하며 "세계 최초의 100% 사이버 가수"라고 나온 싸이아트(SciArt)도 사실 Vocaloid를 적용한 사례라고 한다. (남의 S/W 갖다 쓰면서 잘도 세계 최초라는 말이 나왔다;;) 뭐 심지어는 로봇에 같은 립싱크 기술을 적용한 EveR-2 Muse도 비슷한 사례라 하겠다.
아담 (1997)
다테 교코 (1996)
싸이아트 (2007)
EveR-2 Muse (2006)



노래하는 가상의 캐릭터라니... Uncanny valley도 생각이 나고, 미래에는 인간은 토크쇼 등을 통해서 "캐릭터性"만을 담당하고 나머지는 모두 합성된 캐릭터(모습은 물론 대사까지도)가 할 거고 섣부른 예측을 했던 것도 생각나고, 뭐 이것저것 떠오르는 생각은 많다.

그러다가 문득, 오래 전에 읽은 기사가 묘하게 연결되어 버렸다.

거기에는 ‘비밀’이 있다. 극단적으로 말하면 “일부 댄스 가수는 자신의 히트곡을 처음부터 끝까지 한번에 부른 적이 한 번도 없다”고 말할 수 있다.
진실은 이렇다. 가수들이 음반을 녹음할 때, 노래를 한번에 불러 녹음하는 경우는 거의 없다. 2~8마디씩 끊어 부른 뒤, 각 부분을 합쳐 한 덩어리의 노래를 만든다.

이를테면, ‘나는 너를 사랑해’라는 가사가 있다면, ‘나는’ ‘너를’ ‘사랑해’를 수없이 반복해 부른 후, 이 중에서 가장 좋은 소리가 나온 부분을 골라서 노래 한 곡을 완성하는 것이다. 물론 ‘사’ ‘랑’ ‘해’도 따로따로 ‘채집’이 가능하다. ‘찍어 붙이기’라 불리는 이 ‘짜깁기’ 편집 기법은 한국의 댄스곡 수준을 엄청나게 향상시킨 ‘비밀 병기’다.

한 가요 작곡가는 “신인급에 속하는 댄스가수는 보통 소절마다 100번씩 노래를 반복해서 부른다”며 “최악의 경우, 1000번씩 노래하는 댄스가수도 있다고 들었다”고 했다.

출처: 조선일보 <일부 신인, 한 소절 100번씩 녹음해 편집>
http://www.chosun.com/culture/news/200602/200602030471.html


Vocaloid를 통해서 음소단위로 자른 음성은 연결해서 노래를 만드는 것은, 음성 합성 기술을 음악이라는 장르에 맞게 확장한 것이다. 이 음성 합성 기술의 가장(?) 기초적인 적용은 concatenated speech synthesis, 즉 녹음된 말들을 적당히 - 어절 혹은 문장 단위로 - 끊어서 연결하는 방식이다. 그렇다면 사실 위의 기사에서 말한 일부 가수들의 모습은 오히려 Vocaloid보다 원시적인 음성... 아니, 노래 합성의 사례일 뿐이다.

그렇게 생각한다면, 어쩌면 이미 사이버 가수라든가 진짜 가수라든가 하는 경계는 사라지고 있는 게 아닐까. Kurzweil이 <The Age of Spiritual Machines>에서 예견했듯이, 기계와 인간의 경계는 이렇게 모르는 사이에 슬금슬금 허물어지고 있는 것 같다는 생각이 들었다. 어쩌면 연기뿐만 아니라, 가수라는 직업도 "캐릭터性"만 보여주고 실제 노래는 (심지어 춤도) 기계가 하게 되는 "끔찍한" 모습을 보게 될지도 모르겠다. 지금은 "끔찍해 보이는" 그 두 개체 사이의 연관관계는, 또 대중매체와 자본주의가 어떻게든 설명해내야 하겠지만.
신고
Creative Commons License
Posted by Stan1ey
영상인식은 가장 기대되는 HTI 관련 기술 중 하나이다. 예전에 어느 세미나에선가 발표자가 "미래의 모든 기술은 영상인식을 바탕으로 할꺼다"는 말에 크게 공감한 적도 있었으니까. 물론 여기서 영상인식은 2차원 공간에서의 정보처리에 대한 것이고, 그 논리대로라면 멀티터치 방식도 영상인식 기술을 활용한 게 된다.

어쨋든, 이 영상인식 기술들이 '컴퓨터 편한 기준에 의해' 평가되고 개발되었기 때문에 인간과 같은 능력을 가질 수 없을 거라는 연구가 MIT의 신경과학자에 의해서 발표되었다고 한다.

이를테면 다음과 같은 그림에서, 사람은 이 그림들이 모두 같은 물체(자동차)를 다른 각도와 크기로 찍은 사진이라는 것을 알지만, 영상인식으로는 이러한 것을 알 수가 없다는 것이다.
a Computer Vision Challenge

사실 이러한 문제 제기가 과히 새로운 것 같지는 않다. 이미 복잡한 데이터의 여러 연속된 측면을 분석하여 하나의 entity로서 인식하는 방법이 영상인식에 적용되고 있기도 하고, 여러 각도에서 본 물체를 각각 학습해서 하나의 물체로서 인식하는 방법도 몇몇 분야에서 실용화되어 있다.

하지만 여전히, 이 기사의 말미에 언급된 대로, 지금의 연구 방법으로는 인간만큼의 시각적 능력을 갖기 어렵다...는 것은 아마 영상인식 뿐만 아니라 인공지능을 연구하는 모든 사람들에게 숨기고 싶은 상처이거나, 가장 커다란 도전과제가 아닐까.

그럼에도 불구하고, 화이팅~!!!
신고
Creative Commons License
Posted by Stan1ey

이번 CES 2008 행사는 왠지 큰 UI 이슈 없이 지나가는 것 같다. 전례없이 크고 얇은 디스플레이 장치가 등장하기도 하고, 온갖 규약의 온갖 네트워크 장비가 등장해서 Ubicomp 세상을 비로서 당당하게 열어젖히고 있기는 하지만, 딱이 UI라고 할 수 있는 건 그다지... 자주 가는 웹사이트들에서 파악하기로는, 일전에도 언급했던 Motorola E8공식 발표되었다는 것 정도가 그나마 관심이 있달까.

[○] 참고 동영상: MotoROKR E8


그러다가, 며칠 전 있었던 Bill Gates의 기조연설이 Microsoft에서 은퇴하는 그의 마지막 기조연설이었고, 그걸 나름 기념하기 위해서 아주 재미있는 동영상이 하나 소개된 걸 알게 됐다.



ㅋㅋㅋ... 재미있는 동영상이다. 이제까지는 좀처럼 스스로를 우스개꺼리로 삼지 않던 빌 게이츠답지 않은, 구석구석 장난끼가 가득한 동영상이다. (물론 잡스가 만들었다면 더 지능적으로 재미있었겠고, 이렇게 보란듯이 화려한 캐스팅을 하지는 않았겠지만;;;) 그런데 이 웃기는 동영상에, 아주 잠깐 눈물이 핑 도는 순간이 있었다. ... 조금 과장하자면. ㅡ_ㅡ;;

빌 게이츠가 늘 창조적인 자세를 강조했다는 것을 반어적으로 비아냥 거리는 인터뷰 내용이다:
   "[7:00] Oh, absolutely. Microsoft Bob? His idea, all his."
젠장. 이건 두고두고 욕 먹는구나. -_-;;;

Microsoft Bob이라는, 1995년 영국에서만 발매되었다가 순식간에 사라져버린 소프트웨어를 아는 사람은 그다지 많지 않을 거다. UI 수준에서 (사실은 중간에 삽입된 shell 개념이었지만) 대화형 에이전트(conversational agent; 사실은 클릭과 검색으로 이루어진 대화였지만)를 구현한 최초의 상용화 사례이고, Microsoft의 대표적인 실패 사례이며, 무엇보다 그 이후에 의인화된 에이전트 캐릭터를 이용한 Social UI (CSCW와의 선긋기는 다음 기회에) 연구를 완전히 고사시켜 버린 계기가 되었다.

Home Screen of Microsoft Bob

Microsoft Bob (1995)


언젠가 조사했던 바로는 빌 게이츠보다는 그 부인의 아이디어와 사업이었다고 들었지만, 뭐 그거야 이런 상황에서 좀 뒤집어 쓸 수도 있는 문제니까 넘어가기로 하고, 그동안 실패했던 그 수많은 아이템 - Windows ME 라든가 - 중에서 가장 대표적인 '삑사리 창의성'의 사례가 잘 알려지지도 않은 MS Bob이라니 정말 Social UI를 두번 죽이는 짓이다. 에흉. MS Bob을 아는 사람들은 그 다음부터는 절대 대화형 에이전트나 의인화된 에이전트 캐릭터를 UI에 적용하는 것에 대해서 "사례를 들어" 반대하기 시작했으니까.
Microsoft Office Assistant - Clippy

물론 Bob 이후에도 Microsoft 제품에는 Office Assistant 라든가 (속칭 Clippy로 알려진) 하는 꾸준한(?) Social UI 시도가 있었지만, 불행히도 꼬박꼬박 실패하고 욕까지 챙겨먹는 성실함을 보여왔다. 그런 시도 하나하나가 죄다 나쁜 사례가 되어서 오히려 '나름대로 UI에 관심 있는 사람들'에게는 어떤 확신같은 걸 심어주게 됐고.

심지어...

1998년 어느 소프트웨어 개발자 회의에서 Clippy를 공개적으로 처형시키는 행사가 있기도 했고,

2001년 발매된 MS Office XP는 eX-Paperclip 이라는 '일련의' 플래쉬 동영상 광고 (1, 2, 3)를 별도의 웹사이트에 올려 office assistant가 없음을 대대적으로 홍보하기도 했으며,

심지어 2007년 MS Office 2007의 발매 후에는 Clippy를 흔적마저 없애버린 Office 2007가 얼마나 좋은가에 대한 인터뷰가 이루어지기도 했다.



... 이건 마치 '공공의 적'과 같은 취급이라고 하겠다. MS Bob과 Clippy는 오늘날 우리가 보는 Robot에 대한 vision과 같이 누구나 생각하고 꿈꾸고 있는 vision을 선도적으로 구현한 사례이고, 그에 대한 credit은 충분히 받아야 한다고 생각한다. 이 앞서나간 대화형 에이전트의 공공연한 실패는 그 개념이 잘못 되었다기보다 당시의 기술(검색, 언어처리, 연산/기억장치의 역량 등)에 기인했다고 볼 수도 있을텐데, '나름대로 UI에 관심 있는 사람들'과 가끔은 UI 전문가들조차도 대화형 에이전트는 실패라고 말하는 것을 종종 듣게 된다.

그렇다면, 대화형 에이전트(S/W)보다 훨씬 더 기술적으로 구현이 어려운 로봇(H/W)의 실패사례가 매년 수십건씩 등장하고 있는 지금, 왜 로봇은 UI적으로 실패사례가 될 것이라고 말하지 않는가? 로봇은 Clippy가 가지고 있었던 모든 나쁜 습성을 가지고 있고, 게다가 물리적인 공간을 차지하고 움직여대는 통에 그 정도는 훨씬 심각할 게 분명하다. 게다가 그 다양한 사용맥락 하에서 수많은 사용 상의 변수에 모두 대응할 수 없을테니, 오판단이나 오작동이 S/W보다 많을 거라는 건 뻔한 일 아닌가. "대세"가 그렇기 때문이라는 것 외에 어떤 설명으로 이 로봇에의 열정(?)을 설명할 수 있는지 궁금할 따름이다.

참고로 나도 사실은 로봇이 가져올 세상의 변화와, UI 전문가로서 Robot UI 혹은 HRI가 열어줄 새로운 시각에 관심과 애정을 가지고 있는 사람이다. 아마도 로봇은, 당분간은, 여러번 실패하고 몇가지 작은 성공을 거두어 새로운 세상을 열지도 모른다. 하지만 적어도 대화형 에이전트가 겪었던 것처럼 아는 자들의 '대세'에 휩쓸려 혐오스러운 실패사례로 몰아붙여져 다시는 기회를 갖게되지 않는 사태는 없기를 바란다.


그리고 이왕이면, 대화형 에이전트를 연구하는 사람들 중에서 앞서 간 사람들이 미처 생각하지 못한 대화형 에이전트의 올바른 짝을 찾는 사람이 있어 이제는 정말 죽어버렸다고 말할 수 있는 Social UI 연구를 다시 볼 수 있도록 해준다면 그건 정말 더할 나위가 없겠다.

신고
Creative Commons License
Posted by Stan1ey
IBM에서 "앞으로 5년간 우리 생활을 바꿀 5가지 혁신"을 발표했다.


... 이런 걸 볼 때마다, UI 라는 건 (디자인도 그렇고) 그다지 세상을 바꾸지 않는구나~ 라는 생각이 우선 드는 건 사실이지만, 그래도 간접적으로나마 관련있는 주제가 있다는 건 주목해둬야 할 것 같다.

이미 Don Norman은 <The Design of Future Things>에서 자동운전 auto cruise control 차량의 UI 문제를 자주 언급하고 있는데, 사실 자동차는 여러가지 측면에서 Intelligent UI의 선진사례가 되어줄 것이다.

Intelligent UI의 상용화를 연구하다보면, 우리가 주변에서 사용하고 있는 물건들 - 그 중에 어떤 것은 사용자의 생명을 책임지고 있음에도 불구하고 - 이 얼마나 값싼 마이크로 칩을 이용한 단순한 알고리듬으로 운용되고 있는지를 알게 된다. PC에서는 당연하게 여겨지는 몇가지 계산만 더하려고 하더라도, 당장 제조 담당자로부터 그건 현재의 스펙에서 불가능합니다~라는 소리를 듣게 되는 것이다. 이런 문제는 소프트웨어의 문제(아직 개발이 안 되었고, 개발에는 시간과 돈이 필요하다는)일 수도 있지만, 많은 경우 하드웨어의 문제(극히 제한된 계산만 가능한 경우)여서 애초에 해결이 불가능하다. 이를테면 2년전쯤만 하더라도 대부분의 휴대폰에서는 Flash와 같은 vector graphic을 사용하는 것이 불가능했고, 대부분의 TV set에서는 반투명을 처리하는 것이 불가능했다. 일부 선진적인 제품을 만드는 회사에서는 이러한 것들이 가능한 (상대적으로) 비싼 소자를 넣은 제품을 만들어 멋진 GUI를 선보일 수 있었지만, 후발주자의 입장에서는 그보다 값싼 소자를 써서 단가경쟁력을 높이는 데에 주력했던 것이다.

LG-KP8400 Healthcare Phone 당뇨폰
Intelligent UI (귀찮네. 이하 IUI) 상용화의 또 다른 문제라면, 역시 기술적으로는 가능하지만 그 기술이 적용된 모습이 사용자의 인내를 벗어나는 경우에 있다. 이를테면 L모사에서 나왔던 일명 '당뇨폰'의 경우, 사용자의 피를 적신 -_- 시험지를 휴대폰에 꼽으면 혈당량이 체크되어 나오는 제품이었는데, 주기적인 혈당량 체크의 중요성과 그것을 항상 들고다니는 휴대폰에서 할 수 있다는 편의성, 그리고 의료 서비스와 바로 커뮤니케이션할 수 있다는 훌륭한 장점에도 불구하고 그 커다란 배터리팩과 측정장치는 구매를 거부하기에 충분했던 것이다.


그런데, 자동차는 휴대폰이나 TV보다 일단 비싸고 크기 때문에, 실무자 입장에서는 위에서 말한 IUI의 상용화 장벽을 비교적 쉽게 뛰어넘을 수 있는 기회가 된다.

물론 자동차의 경우에도 IUI를 적용하려면 어느 정도의 단가 상승과 외형에의 영향을 피할 수 없다. 하지만 자동차 시장은 고급제품 시장의 비중이 크게 형성되어 있기 때문에 "워낙 비싸고 큰 물건"으로 인식하고 있는 구매자 층도 그만큼 두껍다. 카오디오와 같이 온갖 옵션에 넣어두면 제조자의 입장에서도 부담이 적다. (사용자가 원하면 넣고, 사용자가 원치 않으면 안 넣으면 되니까) 게다가 특히, 자동차를 사는 사람은 이 시대에 거의 유일하게, 기술이 갖는 가치를 과대평가하는 사람들이다. 이제 PC도 TV도 심지어 휴대폰도 그만그만한 기술력으로 감성가치를 중시하는 마당에, 자동차를 구매할 때에는 거기 적용된 기술들이 자신을 위해서 뭔가 해주리라는 것을 - 그리고 그렇게 산 더 비싼 차가 자신의 더 높은 지위를 대변해 주리라는 것을 - 믿어 의심치 않는 것이다. (물론 자동차 디자인의 스타일이 구매에 미치는 영향을 폄하하려는 게 아니라, 단지 기술이 여전히 크게 영향을 미치고 있다는 얘기다.)

미국 시장을 필두로 자동차에 들어간 자동운전이나 자동주차 시스템의 상용화 소식이 속속 들어오고 있는 요즘, IBM에서 발표한 향후 5년간의 운전 혁명은 IUI.. 혹은 그걸 만들어야 할 HTI 디자이너의 관점에서는 가장 관심을 가져야 할 주제라고 생각한다.


P.S.
사실 위의 IUI와 자동차의 이야기는, UI를 하다가 작년초쯤 자동차 업체에 네비게이션 UI를 하러 (아마도) 들어갔던 한 후배에게 들려준 이야기였다. 그때만 해도 모 회사에서 사람을 뽑고 있기도 해서 관심을 갖고 있었는데, 이제 그런 이야기가 소강상태인 걸로 봐서는 곧 가시적인 효과가 나올 차례인 듯 하다. 모쪼록 우리나라의 자동차 회사에서도 외국 따라하기가 아닌 새로운 IUI를 탑재한 자동차를 출시해 줬으면 좋겠다. 이를테면 오피러스에 탑재된 전방카메라처럼... 이거 넣은 사람에게는 정말 마음 깊이 박수를 보내고 싶다!!! 완벽하진 않아도 훌륭한 IUI의 독자적 적용사례 아닌가 말이다.
기아자동차 오피러스의 펜더 (빨간 네모 부분이 전방 카메라)
전방 카메라 클로즈업
전방 좌우의 모습을 볼 수 있다.



신고
Creative Commons License
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.