... 그럴 가능성이 보인다. Voice UI는 다른 GUI나 특히 Web UI와 달리 개인이 직접 입출력 기능을 구현할 수 있는 방법이 없다는 점 때문에 많이 개발되지도 확산되지도 않고 있었는데, 얼마 전에 Tellme에서 iPhone용 SDK를 개발하고 있다는 뉴스가 떴다. iPhone의 경우엔 마이크/스피커 달려있고, Wifi나 다른 데이터 통신도 되고, 무엇보다 많은 개인 개발자들이 이미 온갖 application을 만들어서 대부분 어둠의 경로로, 일부는 iTunes를 통해서 유료 혹은 무료로 배포하고 있는 상황이니만큼 이 SDK가 미칠 영향은 적지 않을 것이다.

이미 iPhone (혹은 iPod Touch)에 달려있는 수많은 센서들을 기발한 방법으로 사용한 많은 사례들이 나오고 있는데, 여기에 음성입출력 기능을 포함시키면 또 어떤 활용이 가능할까? (닌텐도 DS에서 마이크를 이용해서 어떤 기특한 짓을 했는지 생각해봐라!)

일단 기본적인 어플리케이션은 전에 Voice Signal이 보여준 것과 다르지 않겠다.

하지만... 이를테면 (내가 좋아라 하는) 음성대화가 가능한 에이전트 Human Interface Agent (HIA)가 들어간다면, 그 놈은 하루 중의 시간에 따라 눕혔을 때와 들고 있을 때의 반응이 달라질 수 있을꺼다. 심지어 주변 환경에 밝으면 눈부시다고 할 수도 있을테고, iPhone이라면 부르르 떨어서 싫다는 표현을 할 수도 있다! 흔들면 어지러워할테고, 스피커에 손바닥을 가까이 대면 움츠러 들거나 뜀뛰기를 할 수도 있겠다. 무엇보다 iPhone/iPod의 수많은 기능들 - 각종 PIMS application은 물론 인터넷 브라우저, 지도 상에서 내 위치 찾기를 포함한다!! - 과 동조하면서 이런 기능을 할 수 있을 것이다.

iGoldfish - possible agent on iPhone/iPod Touch

이미 화면 상에 에이전트를 띄우는 것은 장난스런 개발자에 의해서 다양하게 개발되어 있다. (사실 파일 시스템에서 보안에 이르기까지 구조가 훤히 드러난 UNIX 기기인만큼 안 되는 게 뭐 있으랴)


[○] 이런 것도 있다. (주의: 야하다)

문제는 누군가 수고스러운 과정을 거쳐 온갖 센서 입력와 데이터베이스 분석을 하나의 서비스로 엮어야 한다는 것 뿐이다. 이 대목에서는 그저 crowdsourcing (혹은 open source) 의 힘을 믿는 수밖에.

이럴 땐 정말 프로그래밍 공부 제대로 안 한게 한스럽다니까. =_=

신고
Posted by Stan1ey

지하철을 기다릴 때마다 거슬리는 게 있는데, 바로 차가 들어올 때마다 나오는 안내방송이다. 목소리가 거슬리거나, 소리가 너무 크다거나 하는 게 아니다. 멘트 중에 딱 한 대목이 맘에 들지 않는다. UI 쟁이로서. (어쩌면 특히 Voice UI에 관심이 있는 사람으로서 일지도 모르겠다. =_=;; )

"... 안전선 밖으로 한걸음 물러서 주시기 바랍니다."

내가 원래 삐딱한 인간이긴 하지만, 아무리 그걸 감안하더라도 난 저 안팎의 구분이 이해가 가질 않는다. 일단 저 방송의 사용자인, 플랫폼에서 전철이 들어오기를 기다리는 승객들은 안전선의 어느 한쪽에 - 살고싶다면 선로의 반대편에 - 서 있을 것이다. 그 경우 '사용자 중심의 관점'이라면, 안전선 '안쪽으로' 물러서는 게 자연스럽지 않은가! 난 저 안내방송이 나올 때마다 아래 그림이 떠오르곤 한다.

Just Do It: 지하철 선로로 들어가지 말라는 경고문 아래에, 나이키의 Just Do It 광고가 붙어있다.

아마도, 그 안내방송은 그 공간에서 일하는 사람... 즉, 전철 운전기사(호칭을 잘 모른다;;;)의 관점에서 씌여진 것일게다. 자기가 몰고 들어가는 전철의 관점에서는 분명 안쪽이라는 것은 전철의 쪽이고, 그 바깥쪽으로 한걸음 물러서라는 거니까 얼마나 당연한가. ... 늘 이 '당연한' UI 설계가 사용성을 망치는 법이다. 무엇보다도, 이 방송이 나오는 순간 정작 그곳에는 없는 사람(설계자)의 관점에서 만들어졌으니, 결국 주어진 사용맥락에서는 아무도 있는 그대로는 내용을 이해할 수 없게 된다. 저, 안전선 "밖으로" 한걸음 물러났다가는 떨어져 죽는다고요... ㅡ_ㅡ;;;



십여년 동안이나 별탈없이 (그동안 '시키는대로' 안전선 밖으로 뛰어내린 사람은 아무도 없었을 것이다) 사용해온 딱 한마디의 방송멘트를 놓고 이러쿵 저러쿵 하는 게 새삼스럽고 유난스럽긴 하지만, 최근 설치되고 있는 스크린 도어에서 발견한 문구를 보고 그냥 넘어갈 수가 없었다.

안전선 내(안)에서 열차를 기다립시다.

"... 안전선 내(안)에서 열차를 기다립시다."

요컨대 누군가는 또 안이라고 생각하고 있다는 걸까. 그렇지만 기껏 유리문으로 막아놓고서 유리문이 없던 시절의 경고문을 제시하는 건 무슨 경우며, "내 안에 너 있다"도 아니고 "내(안)"이라는 표현은 또 누구의 기발한 고안인가. 혹시나 안전선을 무시하고 유리문에 달라붙어 있는 게 위험하다면 "안전선에서 한걸음 떨어져 주세요" 라든가 하는 식으로도 충분할 것이다. 혹은 안전선을 낮은 문턱처럼 만들어 본능적으로 거리를 두도록 유도하는 방법도 써볼만 할 것이다.

이외에도 너무 잦은 습관성 경고문이라든가 (모든 역은 차량과의 간격이 넓다 -_-;; 그럼 "우리 역은" 이라는 말을 빼란 말이지), 실로 다양한 오류의 variation을 보여주고 있는 방향지시 간판들이라든가, 정보를 전달하고자 하는 의지가 없는 주변 안내도라든가... 지하철 역 하나만으로도 하고싶은 이야기는 정말 많다. 환승역의 경우에는 보통 역보다 10배쯤 많을 것이다.

하지만 일단 가장 자잘한 문제 하나... 사진을 찍은 김에 적어두고 싶었다. 처음에 쓸데없이 '안'과 '밖'을 고민했을(?) 누군가 덕택에, 지하철에서는 안전선의 '안'과 '밖'에 대한 mental model이 여지껏 충돌하고 있는 중이다. 모든 창조적인 작업에 있어서의 소위 첫단추 신드롬이라고 할 수 있을지도 모르겠다.


P.S. 지하철에서의 촬영은 교대역에서 했다. 한잔 걸치고 오던 길이라 앵글 맞추고 어쩌고 그런 거 없었다. (이거 또 반전인건가 ㅡ_ㅡ;; )


[○] 5월 20일 추가된 내용


신고
Posted by Stan1ey

Quick Fix for Voice UI

2008.03.27 01:54
한동안 Software UI 업계 - 요즘 식으로 말하자면 GUI 업계가 되겠지만 - 에 강림했다가 '상식'이 된 후에 버려진 많은 UI Design Guideline 들이 있다. 아직도 인터넷을 뒤져보면 많은 사례들이 있기도 하고... 특히 Yale Univ.의 Web Style Guide와 같이 나름 독자적인 전문 분야에서 꾸준히 편집과 갱신을 거듭하던, 줏대있는 사례도 있었다. 예전에는 이런 거 모아다가 비교해가면서 나만의 (절대적인 그러나 상대적인) UI 금과옥조를 만들기도 하고, 무슨 원칙이 무슨 원칙과 어떤 경우에 상충되는지를 분석하고 떠들어대곤 했는데 요즘도 그러는지 모르겠다.

Voice UI 같은 경우에도, 이제 그런 사례가 적다고 말할 수는 없게 됐다. Voice UI 관련 서적들이 1년에 한두권씩은 책장에 추가되고, 대동소이한 것 같으면서도 처음의 "음성인식 기술이란~" 으로 시작되던 것이 "사용자는~" 이라고 시작하게 된 것도 내 입장에서는 괄목할만한 성장이다. (그렇다고 기술 측면을 무시하자는 건 아니지만. 사실 오히려 강조하는 편이다, 나는 -_- )

이번에 VUI Design Blog에 올라온 "21 Quick Fixes to Improve Your Voice Application"라는 글은 비교적 상세한 설계지침 design guideline 이라고 할 수 있는데, 저자의 말과 같이 website를 위한 지침에서 눈에 띄는대로 따온 것이기 때문에 잘 균형잡힌 항목들은 아닐지 모르지만, 이제까지 나온 것 중에서 비교적 사용자 중심적이고 실무적인 관점의 내용인 것 같아서 옮겨본다.


< 음성입출력 서비스 품질을 향상시키는 빠른 방법 >
출처: 21 Quick Fixes to Improve Your Voice Application

Copywriting 프롬프트 작성하기

1. Tell callers why they should perform a task.
    사용자들에게 서비스를 사용하고자 하는 동기를 부여하라.
    : 일단 필요하면, 쓰게 되어 있다. 사용자 입장의 가치와 니즈를
      충족시켜 준다는 것을 분명히 하라.
     (※역자주: 사실 이건, 예전 Web UI 가이드라인에서의 "#1. Content,
      Content, Content"를 연상시키는 슬픈? 항목이다)

2. Make the most highly trafficked menus easier to listen to.
   가장 자주 쓰이는 메뉴가 귀에 잘 들리도록 하라.
 
    : 메뉴가 너무 길면 당연히 못 듣는다. 그러니 메뉴 개수를 줄이던가,
      단계별로 그루핑하던가, 그냥 중간중간 쉬던가 해서 잘 들리도록 해라.
     (※역자주: 또한 메뉴의 순서에 손을 대는 것에 대해서, GUI 메뉴와의
      차이점에 주목할 필요가 있다)

3. Make choices meaningful.
   선택할 항목은 사용자가 쉽게 알 수 있는 단어를 사용하라.
 
    : GUI에서도 있는 labeling 이야기.
    (※역자주: 단지 GUI는 철자, VUI는 발음의 유사성에도 유의해야 한다)

4. Stay consistent.
    일관성을 유지하라.
    : 프롬프트와 용어사용에 있어서. (※역자주: 제발 좀. -_-;; )

5. Stay simple.
    간결하게 만들어라.
 
    : 어느 단계에서의 프로세스가 좀 많다고 해서, 그걸 꼭 복잡하게 만들라는
      법은 없다. (※역자주: simple vs brief. complex vs complicated.)

6. Avoid making hollow promises.
    널리 받아들여진 UI는 적용하라.
   
: 미국은 IVR 시스템에서 0번을 누르면 안내원이 나오는 게 일반적인가
      보다. 뭐 그런 거. (※역자주: 우리는 주민번호 누르고 *? #?)

7. Be concise.
    짧고 간단하게 만들어라.
    : ‘Nuff said. 란다. (※역자주: simple하고 뭐가 다르지?)

8. Go with what works.
    실제로 기대한 기능을 하는지 알아봐라.
 
   : 모르겠으면 사용자에게 물어봐라. 그게 사용성의 근원이기도 하다.
    (※역자주: 뭐 틀린 얘긴 아니다)


Usability 사용편의성

9. Make navigation consistent.
    네비게이션을 일관되게 만들어라.
    : 사용자가 말하는 것을 듣고, 그들 생각대로의 대화흐름을 만들어라.
    (※역자주: 그러니 FGI와 mental model이 여전히 중요하다는 거다.
     이 분야에서의 FGI 형식은 좀더 interview에 가깝긴 하겠지만.)

10. Never ask for more information than you need.
    필요한 정보만 물어봐라.
    : (사용자 입장에서) 쓸데없는 거 물어보느라 시간 뺏지 마라. 그냥 은행
     문여는 시간 좀 물어보려는데 주민번호를 왜 물어보냐?
    (※역자주: 미국에서도 사회보장번호 끝의 4자리를 물어보나보다.)

11. Add a search box.
    검색 기능을 넣어라.
    : 아 물론 VUI의 경우에는, "아무거나 말씀하세요" 같은 방식의 대화가
      가능한 순간을 넣어 사용자가 뭐가 필요한지 들을 수 있도록 하라.
    (※역자주: 엔지니어와의 한판승부가 벌어질만한 기획서의 대목이다)

12. Use plenty of contrast.
    다양한 변화를 줘라.
    : 목소리 톤이 단조로우면 서비스 쓰기 짜증난다. 운율과 강세를 적절히
      활용하도록 해라. 요컨대 TTS보다는 의욕있는 성우를 쓰는 게 좋다.
    (※역자주: TTS 지못미...)

13. Test it on real users.
    실제 사용자들을 대상으로 테스트하라.
 
    : 혹은, 그렇게 하는 것을 서비스 프로세스에 넣어 법제화시키란다.
    (※역자주: 그렇게 해서라도 지켜지기만 한다면야...)


Accessibility 접근성

14. Modify color.
    제공되는 음성의 특성을 잘 조절하라.
   
: 음성이나 음역, 즉 persona의 종류와 대사의 성격을 사용자의 나이 등을
      고려하여 선택하라.
    (※역자주: 슬슬 억지로 껴맞추기 시작하는 듯. 어쨋든 중요한 이야기
     임에는 틀림이 없다. 예전에도 말했듯이.)

15. Identify the language.
    사용자가 원하는 언어를 선택할 수 있게 해라.
    : “For Spanish, press 2…” 같은 식으로 선택권을 줘라.
    (※역자주: "For Korean, press 24..." )

16. Supplement navigational aids.
    네비게이션에 도움이 될 장치를 제공하라.
    : 효과음(earcon) 등을 잘 써라.
    (※역자주: 배경음도 경우에 따라선 매우, 매우 유용하다)

17. Define shortcuts.
    빠른 선택 방법을 제공하라.
    : 음성명령을 한꺼번에 말한다든가 하는 숨겨진 단축명령을 제공하라.
    (※역자주: 하지만 그걸 주문마냥 외우게 할 생각일랑 하지 마라)


Design 디자인 혹은 설계

18. Place important information “above the fold”.
    중요한 정보는 눈에.. 아니 귀에 띄이는 곳에 배치하라.
    : 중요한 정보를 경우에 따라서는 앞에 (예: 이체하기 전에 잔고 말해주기)
      혹은 뒤에 (예: "마감일은 5월 15일입니다") 두어라.
    (※역자주: GUI가 닥치고 좌상단인 것과 반대일 수 있다는 게 재미있다)

19. Reduce choices.
    선택할 항목 개수를 줄여라.
 
  : 항목이 많으면, 조금만 먼저 말하고 "다른 거?" 라는 링크를 주는 게
     좋을지 모른다.
    (※역자주: 난 잘 모르겠는데 -_-;; 어쨋든 VUI 에서의 이 문제는 magic
      number와 아무 상관이 없다는 게 재미있다. 개인적인 실험에 따르면
      VUI 사용자는 bubble sorting 밖에 못한다.)

20. Nix banners.
    관심 없는 광고나 법적고지문 읽지 마라.
    : 가능한 한 그러지 마라.
    (※역자주: 이게 가능하면 귀찮게 왜 넣었겠니. -_-;; )

21. Stay consistent.
    일관성을 유지하라.    
    : UI는 물론이고 persona와 사용자 profile을 포함한 UX 전반에 걸쳐
      일관적일 수 있도록 하라.
    (※역자주: 데쟈뷰? ㅎㅎ )


일단 목차는 매우 이상하게 구성되어 있고, 전혀 앞뒤나 논리는 없지만, 그래도 드물게도 무척 실무적이고 user-centric한 내용이라서 한번 번역해 봤다. (이걸 번역이라고 부를 수 있다면 말이지만;;;)

... 내가 만든 Voice UI Design Guideline은 먼지라도 벗었으려나... -_ㅜ;;; 자세한 이야기를 못 하고 남의 것이나 딴지 걸고 있으려니 이것도 참 답답한 노릇이다. 7개월 후에는 쓸 수 있겠지 뭐. ㅋㅋㅋ

신고
Posted by Stan1ey
이제는 MS의 전 CEO인 빌 게이츠가 지난 2월 21일 CMU에서 있었던 강연에서, 음성 입출력 방식에 대해서 꽤 강조를 한 모양이다. "5년 내에 사람들은 키보드를 버리고 터치스크린과 음성으로 컴퓨터를 사용해서 웹을 서핑하거나 할 것이다"라고 했다니, 최근의 급변하는 UI 업계를 감안한다고 해도 좀 과격한 예측이다.
(제목은 내가 지은 게 아니라, 원래의 기사에서 베꼈다.)


음성인식과 터치스크린이라... 이름은 많이 달라 보이지만, 사실 이 두가지는 모두 인식 알고리듬을 이용하므로 오인식의 가능성을 가지고 데다가, 기술 자체가 가지고 있는 문제도 무시할 수는 없을 것이다. 90%의 인식성공률을 가지고 있는 음성인식과 97%의 인식성공률을 가지고 있는 터치스크린을 잘만 조합하면 음성인식의 오류를 터치스크린이 보완한다든가 하는 multi-modal disambiguration이 가능하니 이론상 99.7% 의 성공률을 갖는 시스템도 만들 수 있겠지만, 만일 단순한 조합으로 만들어진다면 '사용자의 입력이 잘못 적용될 확률'이 90% 혹은 87.3%로 떨어질 수도 있는 것이다.

뭐 자주 하는 비유로, 키보드를 10번 치면 한번은 다른 글자가 나온다고 생각하면 어떤 느낌인지 알기 쉽지 않을까. ㅡ_ㅡ;;;

그래도 영어 음성인식/합성 기술의 수준을 생각해 보면, 그리고 이미 multi-modal disambiguration에 대한 실용적인 연구/적용 사례가 많이 나와있다는 것을 감안하면, 현재의 기술로도 충분히 usable한 장치를 만들 수 있을 것 같기도 하다. 우리나라도 이제 텔레뱅킹이나 텔레증권(?) 등을 시작으로 Telephony Voice UI (T-VUI) 사례는 좀 늘어나고 있는 것 같지만, 미국과 같이 빠른 속도로 ARS나 call center를 대체하고 있는 상황은 아니다. 이 상황에서 영어를 native 발음으로 하는 사람만 쓸 수 있는 모바일 기기가 나온다면 점점 한국은 그동안 "시장이 작아서"라는 이유로 음성 입출력 기술을 키우지 못한 대가를 치뤄야 하는 게 아닐지 모르겠다.

힘들게 명맥을 이어가고 있는 토종 음성 입출력 기술 업체가 기회를 갖게 될지, 대자본과 든든한 reference sites, 그리고 의외로 많은 한국어 인력을 보유한 외국계 회사가 모든 걸 잠식하게 될지 - 매우 걱정스런 눈으로 - 지켜보는 중이다.
신고
Posted by Stan1ey

오랜 질문에, 뻔한 주장이 담긴 글이다. 단지 음성검색의 장점에 대해서 reference가 궁했더 기억이 있기에 그냥 하나 scrap해 놓고 싶을 뿐이다.


하지만 결국 음성검색이 모바일 기기에 적용되면 좋을 당위성이라는 것이:

  • 수많은 메뉴를 항행할 때 어려운 걸 쉽게 해준다. (메뉴 검색)
  • 작은 창에서 한번에 보이지 않는 긴 목록 중에서의 선택을 쉽게 해 준다. (모바일에서 메뉴 말고 긴 목록이래봐야, 결국 이름이나 주소)

이 둘뿐이라면 영 발전이 없다. 물론 둘 다 음성인식의 근본적인 약점(결국 인식대상 단어 목록에 들어있어야 인식이 되며, 아무 말이나 한다고 죄다 인식하는 방법은 없다)과, '언제나 기대 이하'의 인식률을 그나마 올릴 수 있는 방법(구어로 자주 사용하는 말보다, 잘 사용하지 않는 단어나 고유명사의 인식율이 높다)에 딱 들어맞는 방법이기는 하다.

하지만 이 이야기는 뭐 휴대폰에 음성인식 고려하던 첫날에 한 이야기고, 그외의 많은 꿈같은 이야기 - 휴대폰과 잡담을 한다든가 ㅋㅋ - 는 결국 이루어질 것 같지 않은가보다.

요새 부쩍 VUI 커뮤니티에서 자주 이야기하는 Voice Search... 이걸로라도 음성인식 application이 활성화된다면, modality change에 필요한 cognitive workload를 핑계로 다른 Voice UI도 덩달아 묻어갈 수 있지 않을까? 하는 꿈을 아직도 가지고 있다. ... 이제 와서 무슨 상관이겠냐만. ㅡ_ㅡa;;




P.S. 아놔. 파일 첨부하다 말고 딴짓 하느라 올렸는 줄 알고 하루동안 '이상하다?' 하고 있었다. ㅡ_ㅡ;;;

신고
Posted by Stan1ey

'노래하는 TTS' ... 그런 이름의 연구과제를 어깨너머로 본 적이 있다. (TTS는 Text-To-Speech, 즉 음성합성이라는 뜻이다) 당시 소속되어 있던 연구실 뿐만 아니라 국내에서만도 몇몇 학교와 연구기관에서 연구하던 주제였다.

어느 정도 알아들을 수 있는 걸음마 수준의 음성합성기였지만, 떡잎부터 보였던 문제 중 하나는 그 '소름끼치는 목소리'였다. 분명 100% 기계적으로 합성한 초기의 음성합성 방식이 아님에도 불구하고, 사람 목소리 중에서 다양하게 사용할 수 있는 '중립적인' 음원을 중심으로 sampling하다보니 아무래도 강약도 높낮이도 없는 건조한 목소리가 되기 마련이고, 그렇게 합성된 음성에는 "공동묘지에서 들리면 기절하겠다"든가 "연변 뉴스 아나운서가 있다면 이렇지 않을까"라든가 하는 소리가 늘상 따라다녔던 거다.

합성된 음성에 강약과 높낮이를 넣기 위한 대표적인 연구인 '노래하는 TTS' 연구과제는, 하지만 너무 많은 난관 - 노래는 음표만으로 이루어지는 게 아니라 많은 기법들이 동시에 적용되며, 게다가 악보에 나와있진 않지만 노래할 때 생기는 자연스러운 현상, 즉 발음이 뭉개지거나 평서문과 다른 곳에서 연음이 생기는 등을 고려해야 하는 점이 기존 음성합성 연구범위만으로는 해결하기 어려웠기에 순탄하게 진행되지도 뚜렷한 성과를 내지도 못했던 것 같다.


...

그건 그렇고, "파돌리기 송"이라고 들어봤는가? ㅡ_ㅡ;;;


중독성이 있네, 가사에 무슨 의미가 있네 하면서 한참을 인터넷에 돌아다녔던 동영상이고, 나도 무슨 일본 애니메이션 캐릭터를 가지고 장난친 거려니 하고 그냥 한번 보고 웃어넘겼던 동영상이다.

그런데, 같이 일했던 분이 알려준 블로그에 의하면, 이게 컴퓨터로 합성된 음악.. 그러니까 노래라고 한다. 관련된 동영상이며 캐릭터 이미지들을 찾아보니 과연 참 오타쿠 문화의 본산인 일본다운 기획이다 - 좋은 뜻도 나쁜 뜻도 포함해서 - 싶으면서도, 음성합성이라는 측면에서 봤을 때는 엄청난 발전이라는 생각도 들었다.

하츠네 미쿠 by Vocaloid + alpha

여기에 사용된 '노래 합성' S/W와 데이터베이스는 Yamaha의 Vocaloid라는 제품이다. 현재는 일본어와 영어를 제공한다지만, 사실 음운 기반의 합성 방식이므로 약간의 불편을 감수하면 어떤 언어로도 사용이 가능할 것으로 보인다.

잠깐 이 Vocaloid라는 S/W의 모습을 보면:
Vocaloid Screenshot: Amazing grace~

악보를 오선지에 그리는 대신 높낮이에 따른 시간 막대로 표시한 다음, 각각의 음에 해당하는 대목(단어 혹은 그 일부)을 입력하는 방식임을 알 수 있다. 각각의 단어에 해당하는 음소는 자동생성되지만, 필요에 따라 편집할 수도 있다고 한다. 뭐 여기까지는 기존의 '노래하는 TTS'들과 비슷하지만, Yamaha 다운 점이랄 수 있는 것은 역시 노래의 강약조절이나 vibration 같은 기법을 넣을 수 있도록 했다는 것이랄까. 이게 단지 몇가지 필터를 넣은 게 아니라, 노래의 다양한 패턴 중에서 자연스럽게 적용될 수 있도록 한 점이 돋보인다. 실제로 샘플 노래를 들어보면 단순히 특정 음에 맞춰 특정 발화를 주어진 길이만큼 하는 단순한 조합에 비해 훨씬 자연스럽다고 생각한다.



지난 1997년말 '사이버 가수'라는 타이틀을 처음으로 대대적으로 내세운 '아담'이라는 ... "그림"이 널리 회자된 적이 있다. 가수인 주제에 입 벌린 사진 하나 찾을 수 없는 이 친구는 사실 CG 캐릭터에 가까왔고, 실제 노래를 부른 가수는 따로 있었으니 실상은 '립싱크' 가수랄까. 사실 그건 1996년에 나온 일본의 '버추얼 아이돌'인 '다테 교코'도 마찬가지였고. 이런 기획들을 비판하며 "세계 최초의 100% 사이버 가수"라고 나온 싸이아트(SciArt)도 사실 Vocaloid를 적용한 사례라고 한다. (남의 S/W 갖다 쓰면서 잘도 세계 최초라는 말이 나왔다;;) 뭐 심지어는 로봇에 같은 립싱크 기술을 적용한 EveR-2 Muse도 비슷한 사례라 하겠다.
아담 (1997)
다테 교코 (1996)
싸이아트 (2007)
EveR-2 Muse (2006)



노래하는 가상의 캐릭터라니... Uncanny valley도 생각이 나고, 미래에는 인간은 토크쇼 등을 통해서 "캐릭터性"만을 담당하고 나머지는 모두 합성된 캐릭터(모습은 물론 대사까지도)가 할 거고 섣부른 예측을 했던 것도 생각나고, 뭐 이것저것 떠오르는 생각은 많다.

그러다가 문득, 오래 전에 읽은 기사가 묘하게 연결되어 버렸다.

거기에는 ‘비밀’이 있다. 극단적으로 말하면 “일부 댄스 가수는 자신의 히트곡을 처음부터 끝까지 한번에 부른 적이 한 번도 없다”고 말할 수 있다.
진실은 이렇다. 가수들이 음반을 녹음할 때, 노래를 한번에 불러 녹음하는 경우는 거의 없다. 2~8마디씩 끊어 부른 뒤, 각 부분을 합쳐 한 덩어리의 노래를 만든다.

이를테면, ‘나는 너를 사랑해’라는 가사가 있다면, ‘나는’ ‘너를’ ‘사랑해’를 수없이 반복해 부른 후, 이 중에서 가장 좋은 소리가 나온 부분을 골라서 노래 한 곡을 완성하는 것이다. 물론 ‘사’ ‘랑’ ‘해’도 따로따로 ‘채집’이 가능하다. ‘찍어 붙이기’라 불리는 이 ‘짜깁기’ 편집 기법은 한국의 댄스곡 수준을 엄청나게 향상시킨 ‘비밀 병기’다.

한 가요 작곡가는 “신인급에 속하는 댄스가수는 보통 소절마다 100번씩 노래를 반복해서 부른다”며 “최악의 경우, 1000번씩 노래하는 댄스가수도 있다고 들었다”고 했다.

출처: 조선일보 <일부 신인, 한 소절 100번씩 녹음해 편집>
http://www.chosun.com/culture/news/200602/200602030471.html


Vocaloid를 통해서 음소단위로 자른 음성은 연결해서 노래를 만드는 것은, 음성 합성 기술을 음악이라는 장르에 맞게 확장한 것이다. 이 음성 합성 기술의 가장(?) 기초적인 적용은 concatenated speech synthesis, 즉 녹음된 말들을 적당히 - 어절 혹은 문장 단위로 - 끊어서 연결하는 방식이다. 그렇다면 사실 위의 기사에서 말한 일부 가수들의 모습은 오히려 Vocaloid보다 원시적인 음성... 아니, 노래 합성의 사례일 뿐이다.

그렇게 생각한다면, 어쩌면 이미 사이버 가수라든가 진짜 가수라든가 하는 경계는 사라지고 있는 게 아닐까. Kurzweil이 <The Age of Spiritual Machines>에서 예견했듯이, 기계와 인간의 경계는 이렇게 모르는 사이에 슬금슬금 허물어지고 있는 것 같다는 생각이 들었다. 어쩌면 연기뿐만 아니라, 가수라는 직업도 "캐릭터性"만 보여주고 실제 노래는 (심지어 춤도) 기계가 하게 되는 "끔찍한" 모습을 보게 될지도 모르겠다. 지금은 "끔찍해 보이는" 그 두 개체 사이의 연관관계는, 또 대중매체와 자본주의가 어떻게든 설명해내야 하겠지만.
신고
Posted by Stan1ey

NY Times의 David Pogue가 이번에는 맥용 음성인식기 - 정확하게는 dictator - 를 소개했다. 기본적으로 말하는 대로 받아적고, 음성으로 프로그램 명령을 할 수 있는 등 일반적인 음성인식 보조 어플리케이션과 다를 건 없지만, 훌륭한 선례를 만들어가고 있는 PC용 어플리케이션인 Nuance사의 Dragon NaturallySpeaking 9과 비교하면 몇가지 좋은 Voice UI feature가 빠져 있다. (그나저나 이 PC용 음성인식기는 회사를 합병하고 부서를 팔아넘기고 하는 와중에도 절대 이름을 줄이거나 바꾸지 않고 고집스럽게 지켜서, 참 어려운 이름으로도 1등을 하고 있다. -_-;; )

사용자 삽입 이미지

다른 기사에서 소개한 바에 따르면 이 회사에서도 앞으로는 Nuance사의 엔진을 licensing 해서 쓴다고 하는데, 그건 음성인식엔진의 성능 차이라기보다 (실제로 위 동영상을 보면, 현재의 Philips 엔진도 상당히 인식률이 높아 보인다) 아마도 Nuance사가 확보하고 있는 방대한 분량의 Voice UI 관련 특허들 때문이 아닐까..하고 믿고싶은 마음이다. (근데 아마 정말로 그럴꺼다)

실제로 동영상 중에서는 기존의 Nuance Dragon NaturallySpeaking을 사용하는 모습과 몇가지 특유의 기능을 보여주는데, Nuance사에서 이미 이런저런 방식에 대한 Voice UI 특허는 이미 떡밥 뿌리듯 잔뜩 뿌려놓았으니 다른 회사에서 접근하기는 이제 영영 그른 게 아닐까 싶기도 하다. 쩝. :-d



신고
Posted by Stan1ey

GUI 위주의 UI를 하다가 Voice UI를 접하게 되면, 가장 친숙하게 다가오는 게 바로 persona라는 개념이다. VUI의 다른 측면들은 대부분 음성대화에 대한 분석과 조합에 대한 것이고, 입출력 기술의 제약조건과 그에 따르는 생소한 설계 지침이나 tip들은 아무래도 시각적인 것이 없어서 거리감이 느껴지게 마련이다.

그에 비해서 이 persona라는 것은 그 구축 방법에서부터 어떤 사람의 모습을 상정하기 때문에 뭔가 사진이라도 하나 띄워놓을 수 있고, 기존의 UI 디자인에서도 Persona 구축을 통한 사용자 상(像)의 공감대 형성이 하나의 방법론으로서 인기가 있기 때문에 언뜻 "아, 이건 아는 거야!" 라고 접근할 수 있는 거다. (상품기획이나 UI.. 혹은 다른 종류의 디자인을 위한 Persona 방법론은 Alan Cooper에 의해 주창되었지만, 그 내용에 대한 상세한 설명은 <The Persona Lifecycle>이라는 책에 더 잘 기술되어 있다.)

하지만 일반적인 UI 디자인에서 말하는 persona가 잠재적인 사용자의 대표상을 뜻하는 것과 완전히 반대로, VUI 디자인에서의 persona는 시스템의 '목소리'를 내는 시스템의 대표상을 뜻한다. VUI 식으로 말해서 persona 디자인은, 설계자가 서비스에 부여하고 싶은 사회적인 이미지 - 종종 선입견을 포함한 - 혹은 사용자들의 사용 맥락에 적합한 분위기 등을 고려해서 이루어진다. 동시에 사용자가 해당 서비스에 대해서 가지고 있는 이미지, 즉 mental model과의 차이를 되도록 줄이거나, 적절한 소개를 거쳐 보다 시스템 설계의 의도에 맞는 것으로 유도하는 것도 중요한 설계 요소의 하나이다. (VUI 디자인에서의 Persona에 대해서는 VUI에 대한 최초의 균형 잡힌 책인 <Voice User Interface Design>을 참조할 것)

Example of VUI Persona

Example of VUI Persona: by Michael Cohen (SpeechTEK, 2004)


재미있는 것은, 위 문단에서 "persona"라는 단어를 그냥 "UI"라고 바꾸면, 기존의 UI 디자인의 개념과 여러가지 측면이 중첩된다는 거다. 아마도 그런 이유 때문에 - 일단 기존 UI와 VUI에서 단어의 정의가 다르다는 걸 이해하고 나면 - VUI의 persona가 접근하기 쉬운 것이라고 생각한다. Persona 구축이 VUI에서 중요하기는 하지만, 전체적으로 볼 때 그것은 VUI에 대한 모호한 컨셉을 잡는 것에 불과하고 이를 구체화하는 실질적인 설계 작업은 여전히 뛰어넘어야 할 장벽이 있는 것은 유념해 둘 만하다.

참고로...
사용자 삽입 이미지
UI, 아니, HTI 업계에 처음으로 "persona"라는 단어를 소개한 것도 사실은 공감대 형성도구로서의 방법론으로서가 아니라, conver-sational agent 의 실험적 사례로서였다. 얼마전에 불평을 늘어놓았던 Microsoft Agent의 기원이 된 "Persona Project"가 그 주인공인데, 그건 뭐 담에 또 기가 뻗치면 한번 정리해봐야 겠다. 어쨌든 이제까지 UI/HTI에 세 번에 걸쳐 불어왔던 persona 개념은 그때 그때 다르긴 했지만, 그 각각의 개념들이 UI 디자인에 미친 영향은 이래저래 적지 않았던 것 같다.



오케이. 그럼 이제 본론으로 들어가자. (또냐!!!)

휴대폰에 들어간 음성 기능은 주로 음성인식에 대한 것이어서, 사용자에게는 '어디 있는지도 모르지만, 찾아도 눌릴지 안 눌릴지 모르는 버튼의 대용품' 정도로 다가왔다. VUI라든가 기계와의 대화라든가 하는 거창한 비전이 아닌 단순한(?) 음성입력 기능이었던 것이다. 그에 비해서 네비게이션은 구태의연한 버튼과 터치스크린 입력을 사용했지만, 음성합성(가장 기본적인 수준의) 중심으로 정보를 제공하기 때문에 사용자에게는 '끊임없이 말을 거는', 좀더 VUI의 모습에 가까운 모습으로 각인되어 왔다. 내 말을 알아듣는 기계보다, 뭔가 자신의 말을 하는 기계가 더 기특하고 인간다워 보이는 것일까.

우리나라의 네비게이션은 여기에 여러가지 목소리(남성/여성/아기/... 그리고 몇 명의 인기 연예인들)를 포함시키는 방식으로 VUI의 'persona'를 다양하게 반영시켰다. 대부분의 너무 개성이 강한 목소리에 쉽게 질리긴 했지만, 사람들은 각자 나름의 방식으로 그 변화무쌍한 수다쟁이를 좋아하고 있다.

앞에서 VUI 디자인에 있어서 persona를 구축하는 게 중요하다고 말했던 것과는 반대의 이야기다. 물론 "튜닝의 끝은 순정이다"는 말처럼 결국 많은 사용자들이 기본 음성을 사용하는 걸 보면, 그 기본 음성의 persona 만큼은 중요하다고 말할 수도 있겠다. 이랬다가 저랬다가... 정말 persona를 잘 구축하는 게 VUI에 있어서 중요할까? 아니면 그냥 여러가지 persona (=목소리)를 제공해서 선택하게 하는 게 좋은 방향일까?


유럽의 신생 업체에서, 기존 네비게이션에 자신의 (혹은 친구/가족/연인의) 목소리를 녹음해서 넣을 수 있는 서비스를 시작했다고 한다. 별도의 회사에서 이런 서비스를 한다는 사업 모델에 대해선 다소 의구심이 들지만, 뭐 어쨋든 흥미로운 시도인 것은 사실이다. 특히 자신의 목소리를 웹에서 녹음해서 누군가의 네비게이션으로 선물할 수 있다는 건데, 그런 친구나 가족의 목소리가 연예인의 목소리보다 더 듣기가 좋거나... 최소한 쉽게 질리지는 않을런지 모르겠다. 미국에서 본 네비게이션에도 2~3가지 목소리가 제공되고 있었지만 연예인 목소리 같은 건 없었는데, (헐리웃 스타의 몸값을 생각해보면 뭐 ㅡ_ㅡ;; ) 또 이런 식의 customization 방법을 제공하는 것도 나름 재미있다 싶다.

VUI 블로그에서는 이 서비스를 소개하면서, "Forget about Persona!"라고까지 하고 있다. 한편 일리있는 일갈이기는 하지만, 처음 말했듯이 persona가 GUI의 시각적 컨셉과 같은 위치에 있다면, 이 말은 곧 UI를 설계하는 데 있어서 상위의 개념적인 방향을 잡는 것은 오히려 사용자에게 맡기고, 사용자가 원하는 그 컨셉이 제대로 움직이도록 체계를 잡는 것만 남는다는 소리가 된다. 좀 억지스럽긴 하지만.

오랫동안 슬금슬금 바뀌고 있는 디자이너의 역할과 더불어서, 이런 서비스가 개시되었다는 것, 그리고 VUI에 열정을 가진 사람이 그 방향타를 놓는 거에 거부감을 가질 수 없게 되었다는 것이 VUI 뿐만 아니라 디지털 서비스 모든 분야에 걸친 일반적 의미의 UI 전체 흐름과도 무관하지 않은 것 같아 주절주절 적어 보았다.

신고
Posted by Stan1ey

도시 한복판에서 저녁먹을 곳을 찾는 사람들이 있다. 가장 좋은 시나리오는 뭘까?

  (1) PDA의 LBS 서비스로 근처의 식당을 지도에 표시한다.
  (2) 휴대폰을 꺼내 음성인식 서비스로 식당을 찾는다.
  (3) 그냥 지나가는 사람들한테 물어본다.

뭐 보기를 보면 답이 보이긴 하겠지만, 이걸 실제로 경험한 글이 VUI Blog에 올라왔다. 서비스를 만드는 입장에서 이런 경험을 당한다는 것은 참 재미있는 동시에 좌절스러운 일이 될 거다. ㅋㅋ

링크: No wonder mobile apps take so long to get adopted

신고
Posted by Stan1ey

UI 라는 분야를 배운 이후에, 많은 "____UI" 라는 용어들을 만났다. "제품UI", "S/W UI"(이게 특별했던 시절이 있었다. 진짜루), "Web UI", "Mobile UI", "Voice UI", "Gesture UI", ... 심지어 "Robot UI", "VR UI"까지. 대부분의 용어들은 유행처럼 왔다가 사라졌고, 바로 그 다음 용어로 대치되어 학교의 교과과정과 구직목표를 바꿔댔으며, 항상 트렌드니 대세라는 말을 가까이 하고 다녔다.

하지만 가만히 생각해보면, 그 각각의 UI들이 의미를 가졌던 것은 그나마 맞는 application을 만나서 였던 것 같다.


가까이 "Web UI"라는 용어는 page view나 다른 객관적인 가치기준으로 측정가능한 방법을 찾다보니 대부분 J. Nielsen과 그 일당;;;들에 의해 처음에는 "쇼핑몰" - 뭐 일단 usable 하지 않으면 구매가 이뤄지지 못한다는 측면에서 - 을 통해 Web UI의 중요성을 강조하다가 그게 대체로 표준화되어 이슈가 되지 않으니 기업 "인트라넷"에서 클릭을 줄임으로써 얼마나 내부 인건비를 감소시킬 수 있는지 - 그리고 그럼으로써 그 남는 시간을 보다 생산적인 일에 활용할 수 있는지 - 를 주장하곤 했다. (사실 그 남는 시간에 뭘 할지를 누가 알겠냐만)


Nielsen 일당도 그렇지만 '대세'는 이후 "Mobile UI"로 넘어갔고, Mobile UI에서는 문자입력이나 menu navigation이니 하는 그야말로 사용자 이슈의 새로운 장이 열린다고 생각되었다. (기기 설계상의 특성이니 통신사 맞춤이니 하는 소리는 하지 말자. 그건 UI 이슈가 아니라 각각의 직업 선택에 따라오는 collateral damage일 뿐이다) 하지만 요즘 시장을 보면 사용자는 '만일 가능하다면' 기존에 익숙했던 QWERTY 자판을 선택하고 있고 (그게 말그대로 코딱지만하더라도), menu navigation의 차이는 그야말로 미미한 문제일 뿐이다. Don Norman 할배의 말처럼 "그거 바꾼다고 물건이 더 팔리더냐?" 요즘 유행하는 모바일 기기 상에서의 web site의 full browsing도 마찬가지 이슈가 될 것이다. 물론 훌륭한 기능이지만, 맞는 application이 나와주지 않으면, 사용자가 쓰건 안 쓰건 구매유도 (및 가격상승을 통한 이윤 증대)를 위해 탑재되는 DMB 기능과 다를 게 뭔가?

물론 화면 상의 "Mobile UI"가 아니라 제품(hardware)의 UI라면 여러가지 고려되어야 할 점이 있다고 생각하고, 실제로 많은 이슈가 매일 같이 논의되고 있다. 논의에서 실현까지의 길이 좀 험해서 그렇지: 환경이 안 따라주고, 무엇보다 유행이 안 도와준다.

하지만 뭐 "Mobile UI"라는 것도 맞는 application을 못 만난 것은 아니다. 바로 통신사 관점의 UI라는 것이 그것이다. Web UI와 마찬가지로 돈이 연결되어 있다보니, "휴대폰 버튼에 인터넷 바로가기 기능를 할당했더니 접속율이 늘어나더라" 든가, "메뉴 사이사이에 인터넷 접속 메뉴를 끼워넣었더니 쓰는 사람이 늘어나더라" 라든가 "첫 접속화면에서 글자 크기와 디폴트 커서 위치를 조정했더니 경고/안내를 안 보고 바로 들어오는 사람이 늘어나더라"는 식이다. 사실 이걸 UI 라고 부르는 것에 대해서는 꽤나 반감을 가지고 있지만, 어쨋든 사용편의성을 위해 노력하면서 쌓아온 그간의 지식을 용의주도하게 실무에 적용시켜 자리잡은 사례가 되겠다.


오늘 만난 "Voice UI" 관련 기사도 그렇다. 그동안 나에게 날라온 VUI 관련 기사는 음성인식기술 개발/판매 업체의 홍보성 글(PR성 소개 기사를 포함해서)이거나 관련 학술지, 혹은 이 분야에 관심을 갖는 기특한 학생들의 글이었는데, 이번 기사는 "CRM Magazine"에 실린, 그것도 Voice UI에 대해서 매우 자세하게 다루고 있는 글이다. (출처: http://www.destinationcrm.com/articles/default.asp?ArticleID=7398 )


결국 Voice UI는 휴대기기에서의 'hands-busy, eyes-busy' 사용상황을 대상으로 열심히 마케팅했지만, 결국 인정받은 것은 call center로 나가는 인건비(돈!)를 대체하는 IVR 시스템의 효율성을 높이는 공로인가보다. 가상 인간과의 대화보다는 덜 섹시하지만 뭐 ㅡ_ㅡ 그 나름대로 심도깊은 대화가 이루어지는 공간이라는 측면에서 VUI 디자인을 하기에도 재미있긴 하겠다. (흑;;;) 어쩌면 기존에 음성대화라는 게 없던 분야보다 있는 (기존에 필요했던) 분야에 적용하는 것이 당연하긴 하다.

물론 IVR 시스템이 다른 VUI application보다 먼저 뜬 것은, 서버기반 음성인식기가 전화망의 온갖 기술적 어려움을 차치하고라도 더 좋은 성능을 보인다는 것도 영향을 미쳤을 것이다. 아직 다른 모바일 단말 - 네비게이션이나 휴대폰 같은 - 에 음성인식을 적용하기 위한 노력이 많이 이뤄지고 있고, 가뭄에 콩나듯 좋은 시도가 이루어지고 있으니 기대를 놓지 말아야 할 거다. 모바일 기기임에도 distributed speech recognition을 적용해 우수한 서버기반 인식을 채용하는 사례도 나타나고 있고, 기술이야 어찌됐든 모바일 사용상황에 적용되고 있으니 반길만한 일이다.

하지만 '언제 어디서나' 음성으로 '나만의' 기기를 사용한다는 상황 자체가 좀 말이 안 된다는 사실은, VUI에서 어찌해 볼 수 없는 일일지도 모르겠다. ㅠ_ㅠ



... 그나저나, 그럼 이 다음의 "____UI"들... 그러니까 "Robot UI"(혹은 HRI)나 "VR UI" 같은 것들은 어떤 application을 잡아야 앉은 자리에서 돈을 벌 수 있는 걸까? 앞의 사례를 보면 분명히 그걸로 돈을 좌지우지할 수 있어야 할텐데, 청소로봇이나 게임같이 지금 나타나고 있는 각각의 killer app 들은 UI를 잘 활용할만한 (혹은 오용해서라도 돈벌이에 도움을 줄만한) 구석이 뚜렷하게 보이지는 않는 것 같다.




(2008.1.3 추가)
위 CRM Magazine에서 이후에 기사를 하나 더 추가했다. 스크랩을 겸해서 추가.
http://www.destinationcrm.com/articles/default.asp?ArticleID=7471

신고
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.