[서문] 인간과 기술, 그 진정한 균형잡기를 위하여 (3/3)

[자그만치 3주를 넘도록 이 글 하나를 껴안고 끙끙대고 있습니다만, 이건 아무래도 초안 수준을 벗어날 수가 없네요... 일단 올리기는 하지만, 두고두고 고쳐봐야 하겠습니다. 따라서 이 글을 읽으시는 분도 이 블로그 밖에서의 인용이나 트랙백, 코멘트 등은 삼가해주시기 바랍니다.]

3. HTI에서 풀어야 할 문제들

단순하던 복잡하던 간에, 이러한 패턴인식 기술 - 혹은 인공지능이 적용된 입력 기술 - 이 UI에 적용되면 이제까지와는 전혀 다른 문제들이 생긴다. 대표적으로(=생각나는대로) 인식률의 문제, 의인화의 문제, 도덕성의 문제를 언급해보자.

(1) 인식률의 문제

UI를 설계 개발해야 하는 입장에서, 가장 신경쓰이는 것은 바로 "인식률"의 문제이다. 모든 종류의 패턴인식 기술은 임의의 대상에 대해서 얻어진 상당히 방대한 이진 자료를 바탕으로 그 유사성을 비교하는 몇가지 기법을 사용한다. 임의의 대상, 특히 사용자나 환경을 대상으로 수집된 자료는 결코 동일할 수 없으므로, 기준이 되는 상태인지 아닌지를 판단하는 것은 유사도가 어느 정도 임계치 threshold 이상의 값이냐 아니냐에 의할 수 밖에 없다.

이 임계치는 단순하게는 그 기술을 연구하는 연구실에서 설정되고, 많은 변수를 고려한 체계적인 현장 실험을 통해서 설정되기도 하는데, 어느 경우든 실제 상황에서의 모든 변이를 고려하여 실수없이(=사용자 의도에 맞춰) 동작하도록 하는 것은 실제로 불가능하다.

물론 의도된 동작을 방해할 수 있는 변이들에 대해서 제품에 [주의사항]이라는 표시 아래에 큰 글자로 나열하고, 이를 벗어나는 상황에 대해서는 책임을 회피하는 수도 있겠다. 하지만 인식률을 저하시키는 이런 변이들은 실제 상황에서는 대부분 피할 수 없는 환경요소이거나, 기능을 사용하는 것을 거의 불가능하게 만드는 제약사항이거나, 심지어 사용자가 인간으로서 도저히 받아들일 수 없는 것인 경우도 있다.

UI 기술의 넘어서기 힘든 제약사항

음성인식 기술을 적용한 대부분의 제품은 소음이 없는 상황에서 잘 동작하지만, 실제로 음성인식 기술의 가장 큰 장점인 '움직이는 상황에서 화면과 버튼에 주의를 기울일 필요가 없다'는 것은 다양한 소음환경을 지나다녀야 한다는 의미이기도 하다. 특히 음성인식은 목소리 음역대에 민감하게 반응하기 때문에, 다소 거리가 있더라도 지나가는 사람이나 옆자리에 앉은 사람의 목소리가 함께 인식될 경우 그 결과는 예상할 수 없게 된다.

또한 음성인식 기술은 평상시의 차분한 목소리로 명령하고자 하는 단어만을 발성했을 때에 가장 인식이 잘 되는데, 사용자는 많은 경우에 자신도 모르게 이렇지 않은 상황에 빠져버린다. 그 중 대표적인 것은 인식이 잘 되지 않을 때 자신도 모르게 목소리가 커지고 다른 발성(에잇 참~ 이라든가)을 포함시켜 오히려 점점 더 인식율이 낮아진다거나, 시끄러운 환경에 있을 때 목소리가 커지는 Lombard 효과 등이 있겠다. (사실 지하철 소리가 아무리 크더라도, 목소리 음역이 아닌 한 음성인식기는 이를 매우 지능적으로 걸러낼 수 있다. 이 경우 인식이 잘 되지 않는 것은 오직 사용자가 소리를 지르고 있기 때문인 것이다!)

동작인식 기술의 경우도 마찬가지이다. 동작인식 기기의 매뉴얼을 보면 아래와 같이 휴대폰을 지면에 수평으로 잡고, 마주 보고 있는 벽에 그림을 그리는 것과 같은 묘한 동작을 취하도록 하고 있다. 사용자가 어떤 가상의 평면에 동작을 그리는지를 알면 인식률은 높아지지만, 실제로 저런 자세로 동작을 취하는 것은 상당히 우스꽝스러운 모습이 될 것이다. (이후 버전의 매뉴을에서는 제법 멋있는 자세의 그림으로 바뀌긴 했지만, 결국 똑같은 내용이다)

삼성 SCH-S310의 동작인식 사용법 설명

또 하나의 사례로는 초음파를 이용한 거리 측정 기술이 있겠다. 이 기술은 단순히 거리를 측정하는 것 뿐만 아니라, 초음파를 발생하는 펜 끝의 위치를 2개 이상의 센서가 삼각법으로 파악함으로써 전자칠판이나 노트패드의 용도로 사용되기도 한다. 그러나 초음파는 공기를 매체로 하는 일종의 소리로, 매체인 공기가 움직일 경우 - 즉, 바람이 불 경우 - 측정의 정확도는 크게 떨어지며, 초음파의 음원과 센서의 거리가 멀수록 그 영향은 크다. 요컨대 '언제 어디서든 메모를 적을 수 있다'는 전자패드는 바람부는 곳에서는 약간 기울어진 기록을 남길 수 밖에 없는 것이다.

이외에도 할로겐등이나 태양 빛 아래에서는 인식률이 뚝 떨어지는 적외선 통신(리모컨을 포함해서!), 조명 조건의 변화(밤낮의 변화는 물론 태양의 각도까지)에 민감한 영상인식 등도 대표적으로 제약을 갖는 기술에 해당한다.

기본적으로 자연과학을 자연상태가 아닌 것으로 변형한 모든 기술들은, 태생적으로 제약을 가질 수 밖에 없다. 따라서 이러한 기술적 제약이 그 발명자 [혹은 개발자]들이 홍보하는 것처럼 완벽하지 않다는 것에 흥분할 필요는 없다고 생각한다. 단지 UI를 설계하는 사람들은 그 기술의 동작원리 및 장단점과 이러한 제약사항을 올바르게 파악하고, 이를 UI 설계에 충분히 반영해야 할 것이다.

이러한 인식률의 문제는 물론 기술의 발전에 의해 점차 해결될 것이다. 하지만 유용한 UI 기술을 남들보다 한발 앞서 적용한 사례들을 보면 기술의 인식률 한계나 그 원인을 충분히 이해하고 이를 보완할 수 있는 UI를 설계함으로써 이를 보완해왔음을 볼 수 있다.

이를테면, 음성인식 기술의 비교적 낮은 인식률은 대부분 입력되는 음성의 범위를 잘 잡지 못하는, 즉 발화의 시작과 끝을 인식하는 EPD (end-point detection) 모듈의 오류 때문에 발생한다. EPD 모듈의 오류를 줄이기 위해서 도입되는 대표적인 방법이 바로 PTT (push-to-talk) 방식으로, 사용자가 음성명령을 원할 때에 스스로 버튼을 누름으로써 EPD 모듈을 보완할 수 있는 것이다.

(2) 의인화의 문제

의인화 anthropomorphizing 는 다소 적절하지 못한 표현일지도 모르겠다. Clifford와 Byron의 <The Media Equation: How people treat computers, television, and new media like real people and places 미디어 방정식> 이후, 상호작용을 제공하는 모든 종류의 기기를 대하는 인간의 묘한 사회적 반응에 관한 많은 연구결과가 있다. 이는 단순한 TV 수상기에서부터 로봇 강아지에 이르기까지 다양한 제품을 대상으로 하고 있는데, 그 상호작용 방법이 보다 정밀하고 섬세하며, 동작 원리가 명확하지 않을수록 대상이 되는 기기를 사회적인 개체로 대하는 정도는 점점 더 커진다고 보고하고 있다.

분명 우리는 소파 옆에 놓여있던 돌돌 말린 꼬리를 가진 아날로그 전화기보다, 주머니 속에서 꺼낼 수 있는 휴대폰에 좀더 애착을 느낄 수 있다. 이는 기능의 많고 적음에 의한 상호작용의 양에 의한 현상은 아니다. 이를테면 일반적으로 아날로그 TV보다는 아날로그 라디오에 좀더 애착을 갖게 된다고 말할 수 있는데, 이는 라디오에서 주파수를 맞추는 과정이 TV의 그것보다 다소 섬세한 조작을 필요로 하기 때문이다. 라디오의 주파수 맞추기는 좀처럼 말을 듣지 않는 기기와의 씨름으로 변질되기도 하는데, 이러한 과정을 통해 우리는 그 기기의 성격을 알아가고, 겉모습으로 알 수 없었던 무언가를 파악했다는 즐거움이 그 기기에 대한 애착을 더해가는 게 아닐까. 이를테면 "아, 그 라디오는 90.1 부터는 오른쪽으로 조금 더 돌려야 소리가 잘 나와요"라고 말하면서 으쓱한 느낌이 드는 것 같이 말이다.

많은 학생들을 길러낸 나이 지긋한 선생님들도 지나고보면 유독 말썽을 많이 부리는 학생이 좀더 오래 기억에 남는다고 하시는 걸 보면, 명확하지 않은 측면을 가지고 있어서 상대방(?; 사용자)로 하여금 고민하게 하거나 약간은 고생스럽게 하는 편이 제품으로서 애착을 갖게 하는 방법일 수도 있겠다. 어떤 전문적인 작업을 위한 소프트웨어 productivity application 에 충분히 능숙해진 사용자는 자신에게 필요한 단축키를 조합하고 이를 순차적으로 막힘없이 사용하는 것에 대한 기쁨을 잘 알고 있는데, 이는 그 단축키와 효과적인 조합을 찾아내면서 겪었던 고생들이 좀더 애착을 갖게 하는 것 같다. 이를테면 같은 작업을 좀더 효율적으로 할 수 있는 방법(예를 들어, 포토샵에서 파일을 열 때에는 Alt-F + O 나 Ctrl-O 로 접근할 수도 있지만 작업바탕을 더블클릭하는 것이 다음의 browsing 작업을 고려할 때 보다 유리하다)을 제시해도 '난 이게 편해'라며 자신이 발견한 자신의 방법을 버리려고 하지 않는다.

그러나, 이러한 애착은 제품을 사회적 개체로 대하게 됨으로써 생기는 긍정적인 현상이며, 동전의 양면과 같이 부정적인 현상 또한 충분히 관찰된다.

한때 상당한 인기(?)를 끌었던 위의 영상은 소위 'Computer Rage'의 대표적인 사례로 꼽힌다. 유명한 그룹인 <Rage Against The Machine>과 무슨 연관인지는 명확하지 않지만... 산업혁명 이후 기계가 '인간을 대신해서' 육체노동의 일자리를 차지하는 것에 대한 반항을 생각해보면, 오늘날 컴퓨터가 '인간을 대신해서' 지식노동의 일자리를 차지하는 것에 대한 저항심도 충분히 이해할 수 있지 않을까?

앞서 언급한 <미디어 방정식>과 저자들의 여러 논문에 의하면, '자연스러운 natural 사용자 인터페이스'라는 표어 하에 개발/적용된 많은 UI 기술들은 의인화와 애착을 기존의 컴퓨터에 비해 크게 향상시키는 효과가 있으나, 그로 인한 반대 급부로 기계에 대한 과도한 기대치로 인해 수행이 실패했을 때에는 실망이 그만큼 커지는 현상을 보인다고 한다.

이러한 현상은 1970년 일본의 로봇공학자 모리 마사히로가 주창한 不氣味の谷 (uncanny valley)와도 일맥상통하는데, 과도하게 강요된 의인화는 어느 선을 넘으면 오히려 불쾌함과 혐오감을 준다는 관찰결과를 보고하고 있다.

Uncanny Valley

맨 아래는 좀비고, 바로 옆이 시체와 의수다 -_-;;; 자세한 이야기는 아래 글들을 참고하시고... 하고 넘어가고 ㅡ_ㅡ;;;

(참고) Uncanny Valley
- 정리한 글 ☞ http://blog.naver.com/jihanj/120025724098
- 다소 주관적인, 하지만 관점이 있는 글 ☞ http://hasaho.net/bbs/view.php?id=mun_opinion&page=1&sn1=&divpage=1&sn=off&ss=on&sc=on&select_arrange=headnum&desc=asc&no=4

그러나, 이 매력적인 이름을 가진 모델을 찬양하지 않기로 하고, 기술의 발전에 대해서 일반 대중(=시장)이 갖는 기대치를 표현한 가트너 그룹의 Hype Curve 모델을 적용한다면 어떨까? 인간은 원래 뭔가가 새로 나오면 거부감을 느끼고, 시간이 흘러 그런게 대세가 되면 또 언제 그랬냐는 듯이 적응하는 생물이다. 적어도 이 지구상에서는 가장 상위의 적자생존 능력을 증명한 종족이니까.

가트너 그룹의 Hype Curve Model

출처: http://www.gartner.com/DisplayDocument?doc_cd=121844

그렇다면, 위 1970년의 이상한 골짜기 uncanny valley 역시 로봇 기술과 그 '익숙함'이 기대에 비해 많이 부족했던 시절, 그러니까 hype curve 식으로 말하자면 환멸의 골 trough of disillusionment (위 그림에 오타가 있다 -_-; )을 지나고 있는 게 아닐까? 비교적 쉬운 의인화 기술 - 사진기 (영혼을 뺏는 장치), TV (상자 안에 들어있는 사람들) 등등등 - 에 비해서, 실제로 '인간을 만드는' 의인화 기술인 로봇 같은 것은 좀더 오랫동안 저 골짜기에 빠져 있는 거라고 생각한다.

따라서, 의인화의 문제는 영원히 골에 빠져서 빼도박도 못하고 헤어나오지 못하는 것이 아니라, 언젠가는 세상을 계몽시켜 상용화를 위한 타협점을 찾게 될 것이다. 문제는 누가 먼저 그렇게 하느냐는 건데, 과거의 기술들이 hype curve를 빠져나오는 모습을 보면 기술의 발전보다는 그 기술을 어디에, 어떻게 쓸 것인가에 대한 답을 찾음으로써 가능했다는 것을 볼 수 있다.

HTI 분야는 기술을 어떻게 쓰느냐에 대해 책임이 있다. 그럼으로써 그 기술 자체를 그 이상한 골짜기에서 빠져나와 고원 plateau 을 달리게 할 수 있을 것이다. 이를테면 음성합성이 불완전하고 거슬리며, 무엇보다 기계에서 사람 목소리가 나오는 것에 대해서 불만을 갖는 사람들도, 자동차 내비게이션의 안내 음성에 대해서는 충분히 받아들이고 유용하게 생각하는 것이 그 사례가 될 것이다.

(상대적으로 관심이 많은 의인화 문제를 다루다 보니 말이 길어졌다 -_- 대충 넘어간 하나하나의 세부 이슈에 대해서도 한번 정리할 기회가.. 있으려나;;)

(3) 도덕성의 문제

일반적으로 다소 의외로 받아들여지는 것이 HTI의 이 도덕성[윤리]의 문제이다. 하지만 인간이 발견해온 다른 많은 기술들이 그랬던 것처럼, 기계장치가 (인공)지능적인 입출력 기술을 포함하게 되면서 생기는 능력은 종종 사람들로 하여금 거부감을 갖게 만든다. 지능적인 입출력 기술에 대해서 사람들이 표하는 불편한 감정은 보통 두가지 측면에서 드러나는데, 센서에 의해 드러나는 임의적인 입력에 대한 것과 기계의 판단에 의한 임의적인 출력에 대한 것이다.

HTI의 설계 대상이 되는 것에는 사용자가 분명한 의도를 갖고 직접 입력하는 명확한 explicit 입력 외에도, 사용자의 행위를 간접적으로 판단하기 위한 암시적인 implicit 입력까지도 포함된다. 이러한 암시적 입력은 주로 센서를 통해서 이루어지며, 입력의 내용이나 범위는 물론 입력 여부 자체까지도 (별도의 피드백 설계를 하지 않는 한) 사용자에게 인지되지 않는다. 대부분의 사용자들은 기계가 자신이 직접 지시하지 않은 사항에 대해서 어떤 기능을 수행할 경우 불편한 감정을 갖게 된다.

우리 주변에서 흔하게 볼 수 있는 자동문은 센서에 의한 임의적 입력을 가진 가장 단순한 사례이다. 평소와 같이 자동문을 향해 다가갔는 데 문이 열리지 않아 당황하거나, 심지어 문에 부딪힌 적이 있는가? 나는 문을 통과할 생각이 아니었는데, 그 앞을 지났다는 이유로 자동문이 열리는 바람에 놀라거나, 어쩌면 미안한 생각이 든 적은 없는가? 자동문이 열려있도록 문 사이에 서 있다가, 문이 닫히는 바람에 놀란 적이 있는가?

자동문은 초창기에는 발판에 장치된 압력센서(스위치), 초음파를 이용한 거리 센서, 레이저를 이용한 광 센서 등 다양한 방법들이 사용되었으나, 최근에는 적외선을 이용한 움직임 감지 센서가 주로 사용되고 있다. 지극히 단순한 동작 - 사람이 다가가면, 문을 연다 - 을 수행하는 자동문 조차도 앞에서 인식한 '인식률의 문제'를 갖는데, 인식률에 영향을 주는 주요 변인은 움직임, 거리, 태양빛 등이다. (적외선 감지 방식의 한계에 대해서는 논하지 않기로 하고;;) 이 인식률의 문제로 인해서 많은 사용자들이 자동문에 부딪히거나, 끼이는 것이다. 자동문의 센서는 사실 "사람이 가까이 오는 것"을 감지하는 것이 아니라 "일정 거리 범위 안에 움직이는 물체가 있는 것"만을 감지하므로, 위 변인들 중 무엇 하나의 특이한 변화가 있을 경우 "사람이 가까이 오는 것"을 감지하지 못하거나 잘못 감지하기도 한다. 요컨대 사람이 가까이 있어도 움직이지 않는다면 문을 닫기로 결정할 수 있는 것이다. (물론, 이를 막기 위해 별도의 몇가지 센서를 조합하여 사용하는 모델도 있다)

(참고) 자동문에 적용되는 센서들 ☞ http://www.acedoor.co.kr/sensor.html

위에서 언급한 흔한 자동문 사고들은 사용자가 센서의 특성과 원리를 판단하고 있는 '멘탈 모델 mental model'이 실제의 '시스템 모델 system model'과 다르기 때문에 생긴다. (상당히 전통적인 UI 원론처럼 보이지만, 그렇지 않다) 특히 기계가 해당 기능을 수행하는 판단 기준이 되는 임의적인 센서 입력은 그 보이지 않는 특성상 기존의 PUI나 GUI 시스템보다 더 다양한 멘탈 모델의 자유도가 있고, 따라서 잘못된 멘탈 모델으로 인한 사고의 가능성은 매우 높아진다.

이러한 실질적인 사용성 사고 외에도, 센서의 임의적인 입력은 사용자에게 그 자체만으로도 불쾌감을 주기도 한다. 일반적으로 기술 개발자의 관점에서 이루어지는 논의에서 (참가자는 개발자도 될 수 있지만, 보통의 잠재 사용자를 대상으로 해도 마찬가지이다) 가장 자주 사용되는 표현이 "사용자가 그냥 _____하기만 해도 기계가 알아서 ____ 해준다면 좋을 것 같다"는 것이다. 이를테면 사용자가 복도를 따라 걸어가기만 하면 복도의 조명이 진행방향에 따라 순서대로 켜진다면 좋을 것 같다 라든가, TV 앞의 소파에 앉기만 하면 좋아하는 TV 프로그램을 켜주고 조명을 TV 시청에 맞게 조절해 주면 좋을 것 같다는 식이다.

그러나, 실제로 그런 식으로 만들어서 용납될 수 있는 시스템은 유령의 집 정도가 아닐까 한다. 내가 생각하고 있는 기능들을 직접 조작하기 전에 알아서 수행해주는 시스템은 말로는 그럴 듯 하지만, 실제로는 굉장히 껄끄러울 것이다. 손가락 하나 잘못 까딱하면 그 다음에는 무슨 일이 일어날지, 전혀 알 수가 없는 상황에서 사용자가 과연 안정감을 느낄 수 있을까? 사용자 인터페이스 디자인의 제1원칙인 '사용자에게 통제감을 줄 것 User in Control'이 암시적 입력을 위한 기술이 적용된 시스템에서도 가능할까? 혹은, 질문은, 어떻게 가능할까?

다양해진 입력 만큼이나 출력 기술에도 많은 기술적 발전이 있었다. 단순한 삐- 소리가 보다 다양한 음악소리나 음성으로 바뀐 것부터 시작해서 숫자만 표시하던 작은 화면 대신 큰 화면에서는 사진과 다름없는 이미지를 보여준다. 또한 각종 근거리 및 원거리 네트워크 기술의 발달로 인해 여러 기기에 분산되어 있는 입력 장치와 출력 장치는 다른 조합으로 이용될 수 있다. 인간은 기계로부터의 여러 출력을 동시에 받아들이지 못하지만, 필요에 따라 선택된 출력들의 조합으로 사용자의 맥락에 최적화된 기능과 서비스를 제공할 수 있는 것이다. 그러한 필요는 각 장치들이 보유하고 있는 센서와 연산장치에 의해서 탐지된다.

일반적으로 사용자는, 기계가 온갖 종류의 센서와 연산장치로 자신의 모든 측면을 감시하더라도 그 사실을 굳이 인지하기 전까지는 그 의미를 파악하지 못한다. 휴대폰은 항상 그 위치를 인지하며 통화가 가능하도록 기지국과 교신하고 있으며, 자연스레 통신회사에서도 사용자의 현위치를 파악할 수 있다. 하지만 사용자는 어느날 백화점에 들어가는 순간 휴대폰에서 할인행사 안내 메시지를 받고나서야 비로소 이러한 사실을 깨닫고 자신에 대한 감시의 눈길을 느끼는 것이다.

원래는 사용자 맥락에 맞춘 최적의 서비스라는 의도라 할지라도, 이렇게 어디서나 튀어나오는 컴퓨팅 ubiquitous computing 서비스를 만나게 되는 사용자는 비로소 도처에 깔려 자신을 감시하는 센서의 존재를 실감하고, 신기해 하거나 만족하기보다 섬뜩함을 느끼게 된다. George Owell의 <1984>에서 언급된 감시자 Big Brother 역시 때와 장소를 가리지 않고 감시 당하고 있음을 사람들에게 주지시킴으로써 거부감을 유발하고 있는 것이다.

따라서 다양한 입력장치에 의한 암시적인 입력에 의해서 역시 다양한 출력장치들의 최적의 조합을 제공해준다는 발상은, 기본적으로 인간의 자유본능(거창하다;;)과의 타협점을 다시 생각해봐야 할 듯 하다.

4. 맺음말

엉망이다. 나도 안다. ㅡ_ㅡ;; 그래도 일단 올리고 나서, 죄책감이 어느 정도 맺히고 나면 다시 손을 보기로 했다. 이대로는 천년만년 둘 것 같아서... -_-a;; 일단은, 안 그래도 온갖 쓰레기가 난무하는 인터넷에 이런 글 올려서 미안하다는 말로 대충 무마하고 이제 그만 한숨 돌려야겠다.

INTERACTION

[서문] 인간과 기술, 그 진정한 균형잡기를 위하여 (3/3)

티스토리툴바

[서문] 인간과 기술, 그 진정한 균형잡기를 위하여 (3/3)

관련글

티스토리툴바