종종 인용하곤 하는 VUI Design 블로그의 새 글을 보고, 역시 직접 일을 하지 않으면 멀어질 수 밖에 없구나...라는 생각이 들었다. 어느샌가 제목과 같은 Voice UI Design 단체가 생겨서, 2007년부터 직업으로서의 Voice UI Design이라든가 조직에서의 역할, career path 등을 논의하고 있었던 것이다. 게다가 (조금은 구호에 그칠 듯하지만) 무려 "MULTIMODAL EXPERIENCE DESIGN" 이라는 것도 다루겠노라고 하고 있다. 아직은 그냥 관련업체의 담당자 소모임 같은 느낌이지만, 그래도 이렇게 시작하는구나 하는 생각이 들게 하는 모습.

AVIxD website at 2009

웹사이트는 보다시피 인터넷의 발전을 거슬러 올라간듯한 모양새인데, 그럼에도 불구하고 Publication과 Reference 페이지는 가볼만한 가치가 있다.

Publication에는 2007년의 워크샵 내용들이 정리되어 올라와있고, 2008년의 내용은 아직 -_- 올리지 않은 걸 보니 아직 운영은 많이 미숙한 모양. 그래도 한번씩 읽어볼만한, VUI를 해본 사람이라면 공감할 내용들이 의외로 많은 '동지들'에 의해서 논의되었음을 알 수 있다.

Reference에 올라온 책들은 대부분 이 블로그의 아마존 배너(저기.. 관심 좀... ㅋㅋㅋ)에도 올려놓은 책들인데, 아직 몇권 없는 책이므로 모두가 VUI 분야의 필독서라고 생각한다.

아직은 정말 미미한 모습인데, 앞으로는 좀 창대해지려나 모르겠다.


현재 업무와는 별 상관이 없으니 뉴욕까지 날아갈 수 있을리는 만무하고, 난 그저 이 웹사이트가 갱신되기만 기다려야 할 듯. 혹시 이 블로그 보시는 분 중에 가서 PDF 파일 좀 공유해주실 분 없을까나... *_*a;;
신고
Posted by Stan1ey

얼마전부터 애플이 관련 이미지 프로세싱 칩을 대량구매했네 뭐네 하더니, 결국 iPhone에서 동영상 촬영을 어떻게 하고 또 그게 어떻게 MMS와 연동이 될지에 대한 GUI 화면이 드러난 모양이다. 동영상이야 별 관심 없어서 흐지부지 읽다보니, 눈이 번뜩 뜨이는 대목이 있다.

Inside the configuration files where the screen was discovered were mentions of an "auto-focus camera," "magnetometer" (digital compass), and "Voice Control."

... Voice Control 이라고 하셨습니까. ㅡ_ㅡ+

Voice Control in iPhone OS 3.0

그렇게 돼서 열심히 뒤져봤지만, 같은 기사에 있는 오른쪽의 설정화면이 유일하게 구할 수 있었던 증거자료다. 이전에 올린 예측 글(혹은 희망사항)이나 최근 아이팟 나노의 VoiceOver 사례에도 적었지만, 기본 제공되는 이어폰을 업그레이드하고 그동안 비워두었던 '오래 누르기'를  일방향이지만 VUI에 적용함으로써 iPhone OS에 VUI가 적용할 여지는 차근차근 준비된 셈이다. 그랬다가 이번엔 아예 입력을 설정하는 화면에 "Keyboards"와 함께 그룹핑 되어 있는 "Voice Control"이라는 문구를 보게 되니 그 '희망사항'이 점점 뭉게뭉게 피어나는 느낌이다. 단지 맨 앞에 링크된 원래의 글에서 언급했듯이 많은 기능은 새로 발표될 3세대 iPhone에서나 가능한 게 아닌가 싶고, 음성인식도 어쩌면 전용칩을 따로 쓴다든가 하는 핑계로 내가 가지고 있는 iPhone 3G(2세대인 -_-;; )에서 쓸 수 없으면 어쩌지... 싶은 걱정이 좀 된다.



자, 어쨋든 이젠 왜 울기 시작했는지도 기억나지 않으니 그만 눈물을 닦고, 위에 인용한 대목을 다시 한번 좀 보자. 관련된 증거 화면은 하나도 제공되지 않았지만, 그래도 "auto-focus camera"라든가 "magnetometer"라는 대목은 좀 다른 희망을 불러일으키는 키워드가 되겠다.


(1) Auto-Focus Camera
우선 애플이 아니라 애플 할아버지가 하드웨어를 만든다고 해도, 자동초점... 어쨋든 광학적으로 초점을 맞추려면 폰에 상을 최대한 왜곡시키지 않으면서 초점변화를 만들 수 있는 여러 겹의 렌즈와, 그 렌즈를 앞뒤로 정밀하게 움직일 수 있는 기계장치가 들어가야 한다. 그뿐만 아니라 초점을 맞추는 기준을 삼으려면 초음파로 거리를 재든가 레이저를 쏴서 기준으로 삼든가 해야 하므로 거기에 따로 하드웨어가 또 필요한 것이다. 자동초점이라고 말이 쉽지, 사실은 도대체 지금 아이폰의 몸체에 넣을 수 있는 물건이 아니다.

Focus Detection by Image Processing - from Patent by LG
하지만, 이미 초점이 맞는지의 여부를 영상분석을 통해서, 즉 소프트웨어만으로 잡아내는 것 정도는 이미 많은 똑딱이 카메라에서 구현한 내용이다. 특허를 검색해 보니, 반갑게도 LG(옛 금성)전자에서 출원, 등록된 특허를 찾을 수 있었다. 내용을 열심히 본 게 아니니 이 특허가 기술적으로/법적으로 어떤 의미를 갖는지를 섣불리 말할 수는 없겠지만, 그래도 우리나라 기업이 좋은 특허를 확보하고 있는 걸 보니 기분이 좋다.

그래서 초점이 맞는지 어쩐지 여부는 따로 하드웨어 없이 알 수 있다고 해도, 따로 복잡한 기계장치를 붙이지 않고 어떻게 광학적인 초점을 조절하겠다는 걸까? 그동안 렌즈의 구동부 부피를 줄이기 위한 많은 노력이 있기는 했지만, 획기적이었던 펜탁스의 접히는 렌즈 시스템이나 카시오에서 처음 도입했던 (분명치 않다) 기발한 '이너 줌'이라는 것도 실제로 구동부를 아예 없앤 것은 아니었다. 어느 쪽이든 아이폰의 디자인은 상당히 해치게 될테고, 특히 자사의 제품을 "software in the box"라고 칭하는 사람이 아이폰에 모터가 달린 렌즈구동부를 넣으려고 할까?

Sliding Lens System from Pentax
Inner (or Enclosed) Zoom Lens System

사실은, 아이폰의 디자인을 해치지 않고 모터를 구겨넣지 않아도 광학적인 초점조절이 가능한 방법이 딱 하나 있기는 하다. (이건 굉장히!!! 섣부른 발언이 되겠지만, 핑계김에 링크나 스크랩해 두려고 적어보는 거다. -_-a; ) 바로 액체렌즈. 꽤나 공상과학같은 단어지만, 실제로는 오래전에 그 컨셉이 발표된 이래로 상용화를 위해서 많은 노력이 기울여진 분야이기도 하다.
Liquid Lens System
원리는 물 한방울을 부피를 전기적으로 조절할 수 있는 소재 - 플라스틱(EAP)이거나 금속(Piezo)이거나 전하를 띈 기름이거나 - 로 밀폐시켜놓고, 압력을 조절해서 물방울의 모양을 조절함으로써 물과 주변재질(기름)의 굴절율 차이를 이용해서 렌즈 기능을 하게 한다는 거다. (몇년전에 어깨너머로 배운 거라 내용도 기억도 확실하지 않다. 인터넷 찾아보면 기사가 많으니 참고하시압.) 고맙게도 렌즈의 모양/굴절율이 바뀐다니 굳이 렌즈를 앞뒤로 움직일 필요가 없고, 잘만 만들면 몇겹의 렌즈도 아주 좁은 공간 안에 구현할 수 있는 훌륭한 아이디어지만, 만들다보면 렌즈의 투명도(순수한 물에 기름이라고 해도)가 무지 떨어지고 무엇보다 액체이다보니 추우면 얼어서 한겨울 파이프 터지듯이 망가져 버린다는 의외의 황당한 문제가 고민이라고 들었다. 부동액을 넣느니 뭐니 하더니, 혹시나 이게 아이폰에 들어갈 정도로 완성된 건 아닐까...라는 근거없는 생각을 해보는 중이다.


(2) Magnetometer
그에 비해서 다음으로 '전자 나침반'은 뭐랄까, 그냥 "올게 왔구나.."라는, 담담한 마음이다. 상용화되어 있는 센서 중에서 iPhone에 적용되지 않은 건 이 나침반과 압력센서 정도일까나. 두 센서 모두 이미 다른 제품들에서는 제공된 적이 있으니 상용화 가능성은 인정된 걸텐데, 압력센서는 모바일 제품에 얼마나 어울릴지 모르겠고, 왠지 소프트웨어 회사인 애플은 그냥 터치스크린에서 간접적으로 느껴지는 '터치의 강도'를 압력으로 환산해서 쓸 것 같다. 하지만 나침반은 Google Map의 활용도가 점점 높아지고 일전의 iPhone OS 3.0 발표에서도 네비게이션으로서의 가능성을 좀더 높인 이상 반드시 필요한 추가사항이었을 거다. 이게 말그대로 들어가준다면 화면을 돌릴 때마다 동서남북에 맞춰서 돌아가주는 지도는 물론이고, 아이폰으로 찍은 사진에는 촬영위치(GPS)와 촬영각도(가속도센서) 외에 촬영방향(나침반), 초점거리(액체렌즈??ㅎ) 정보까지 들어가게 되므로, 이제까지 안 되던 많은 응용 가능성이 열리게 될 것이다. 이제까지 모바일 어플을 고민하면서 동서남북을 모르는 것에 대해서 아쉬워 하던 분이 많았는데, 이 나침반이 실제로 들어가서 좀 해결이 된다면 좋겠다.

하지만 문제는 이 전자 나침반이라는 것이 (예전에 사용해봤던 경험에 의하면) 처음 사용하기에 앞서서 상하좌우로 한바퀴를 돌려줘야 한다는 거다. 이게 처음 센서에 전원을 넣었을 때만 그런지, 아니면 매번 쓸때마다 그런지는 모르겠지만, 어쨋든 초기화 체조(-_-;;)가 여전히 필요하다면 사실 좀 웃길 듯 하다. 일단 초기화하고 난 후에도 그 값을 유지하려면 배터리를 조금씩은 갉아먹을 것 같은 느낌도 들고. (이제까지 아이폰에 쓰인 센서 중에는 sleep mode에서 전원을 쓰는 놈은 없었다.) 모쪼록 그 장점에 비해서 번거로운 놈이 되지는 말아야 할텐데...


(3) Voice Control
... 될대로 되겠지. ㅡ_ㅡ;;; (믿는다 애플!)


이 세가지 추가사항들이 과연 어떤 새로운 조합으로 HTI 기능들을 만들어낼 수 있을까? 상상해보면 꽤 긴 목록이 나온다. API를 얼마나 공개하느냐에 따라 다르겠지만 Palm Pre에 쫓기는 입장에서 이제까지처럼 여유를 많이 부릴 수도 없을테니, 최대한 공개한다는 가정 하에 다른 센서와의 조합까지 생각한다면.... 게다가 그걸 죄다 애플이 만들 필요도 없이, 이미 성공사례를 목격한 수많은 AppStore 개발자들이 덤벼들거라는 걸 생각하면... 피휴.

... 또 한동안 신경 많이들 쓰이시겠습니다. s(T^T)z

신고
Posted by Stan1ey
제대로 된 미래예측은 너무나 뻔해 보이기 마련이고, 사실 현업에 대해서 조금 알아가다 보면 그 예측을 들었을 때의 반응도 대충 판에 박히기 마련이다. 휴대폰의 미래에 대해서 "전화+인터넷"이라고 하고 있는 아래 David Pogue (꽤 '인기있는' NY Times의 컬럼리스트)의 강연 동영상이 올라왔다. 늘 그렇듯이 사례는 많고 웃기기는 하지만 논리도 방향도 부족한 내용. 그래도 최소한 그 큰 방향이 틀리지는 않은 듯 하고, 무엇보다 예전에 언급했던 휴대폰 연동 음성 서비스들과 얼마전에 올린 Google Voice의 전신이라고 할 수 있는 Google Grand Central에 대해서 언급이 되길래 스크랩해 두기로 했다.



현업에서 (그 쪽의 현업에서) 멀어지다보니 아무래도 부정적인 이야기를 적게 듣게 되고, 그래선지 오히려 Voice UI에 대한 확신이 점점 더 강해지는 것 같다. 특히 영어권에서는 착착 진도가 나가고 있으니까, 우리말은 인식엔진만 터져주면 어플리케이션 쪽은 금방 따라잡게 되지 않을까? 문제는 우리말에 맞는 VUI 설계기준을 확립하고, 영어에 맞춰진 컨텐트를 우리말에 맞춰 바꿔서 사용자 대중들이 그 방식에 익숙해질 때까지 추진할 방법이 있느냐는 거겠다. 굿럭! :)
신고
Posted by Stan1ey
뭐 이렇게 내 관심사에 딱 맞는 물건이 나온다냐. -_-a;;

Bot Colony Website 090325

이 게임 - Bot Colony - 은 로봇 에이전트를 통해서 게임을 하면서, 그 로봇과 "제한없는 자연어 대화"가 가능하다고 한다. ... 솔직히 100% 믿지는 않지만, 가능한 대화내용보다 대화DB를 벗어날 때의 오류상황에 대해서 더욱 공을 들였다면 뭐 아주 허풍은 아닐 수 있겠다. 특히 요새 게임이야 DVD(4GB가 넘는)를 여러장 사용하기도 할 정도로 용량이 크니까, 음성인식 엔진도 상당한 수준의 것을 사용할 수 있지 않을까나. 출력은 합성음보다는 녹음된 게 품질도 용량도 나을테고.



아직 웹사이트에는 이 게임에서 음성대화가 어떤 조작/대화 기능을 제공하고 그게 게임내용과는 어떻게 연결되는지를 알려주지 않는다. YouTube에 올려놓은 예고편(?)도 그냥 분위기만 잡고 있고 정작 게임은 어떻게 되는 건지... 한번 눈여겨 볼만한 게임인 것 같다. 음성만이 할 수 있는 조작이 나와서 전혀 새로운 재미를 제공하는 게임이 되어 준다면 개인적으로 희망적인 일이 될 것 같은데 말이지...

... 아주.
신고
Posted by Stan1ey

Google Voice

2009.03.20 22:25
Google Voice

얼마 전에 Google Voice라는, 무시무시한 이름(개인적인 느낌 ;ㅁ; )의 서비스가 소리소문없이 서비스를 개시했다. 뭐 사실 그동안에도 Google 411같은 전화망 대응 서비스도 있었고 iPhone 어플로 음성검색 기능을 넣기도 했지만, 우주정복을 꿈꾸는 구글의 Google Voice라는 서비스라니!!! z(T^T)s

이 서비스는 전화 사용자를 온라인과 연결시켜 주는 걸 목표로 하는 것 같은데, 사실은 우리나라에서는 벌써 각 통신사 웹사이트(및 고객센터나 연결된 700 서비스 등등)를 통해서 가능했던 벨소리 기능, 문자 관리 기능, 스팸 차단 기능, 114(411) 문의 기능 등등을 웹사이트에 통합해 놓은 것이다. 요컨대 우리나라 전화망의 사업구조라면 꽤 짭짤한 대목이기 때문에, 구글에게 내어줄 일이 없는 채널을 차지하겠다는 거다.

아직은 일부 휴대폰(안드로이드 폰과 몇 모델이 더 있는 듯?)에 대해서만 가능하다고 하는데, 이게 앞으로 얼마나 더 파급이 될런지는 잘 모르겠다. 아무래도 개인적인 내용들이다보니 다른 구글 검색과 연동되기도 어려워 보이고...

Google Voice: Features

그럼에도 불구하고 이 서비스에서 눈에 띄는 부분은, 음성사서함에 녹음된 내용을 웹에서 조회할 수 있게 해주면서 무려 음성인식 transcript 를 제공한다는 거다! 10년전쯤에 음성기술을 웹에 연결시키면서 "음성게시판"이라는 것을 구현하는 팀과 일해본 적이 있는데, 음성게시판의 황당한 점은 웹에 게시물 목록이 나오지만 게시시간과 게시자 외에는 도대체 그 내용을 짐작할 수 있는 방법이 없다는 거였다. 녹음시간은 지나치게 짧아서 다 똑같았고, 휴대폰으로부터 위치정보를 받는 것도 현실적으로 어려운 일이었고, 파형으로 짐작하게 하자는 것도 당시 구현했던 용도에는 맞지 않았고...

그 당시+우리말 인식 수준으로는 "음성인식해서 보여주면 안 될까요?"라는 건 단박에 "기술적으로 불가능"하다고 판정받는 아이디어였건만, 어느 새 이 정도까지 가능해진 모양이다. 그때나 지금이나 음성인식이 완벽한 건 아니지만, 그래도 최대한 열심히 해서 오류가 있더라도 보여준다면, 어느 정도 사용성 향상은 기대할 수 있을 듯 하다. ... 물론 그 다음부터 나올 사용자들의 "잘못 인식하네" 반응을 생각하면 조심스러울 수 밖에 없겠지만.

이제 우리말 음성게시판도 구글한테 기대할 수 밖에 없는 건가... -_-a
신고
Posted by Stan1ey
Apple Shuffle 3G with VoiceOver
애플에서 새로운 (이제 3세대인 건가) 아이팟 셔플을 발표했다. 아이폰 3세대(3G말고 -_-;;; )가 나오네 맥미니 새 버전이 나오네 여느때처럼 루머와 새소식이 많은 가운데, iPod Shuffle 군은 소리소문없이 기습출시한 격이다. 이번 셔플은 저번 셔플에 있던 상하좌우+가운데의 5버튼 조작도 없고, 그냥 밋밋한 금속조각처럼 보인다. 게다가, 웹사이트에 가보면 있는 저 문장. VoiceOver... 설마, 내가 전에 아이팟에서의 음성인식에 대해서 언급했던 것이 셔플에서 구현된 건가! 용감하게도 화면을 아예 없애고 음성으로만? ㅎㄷㄷ

... 그럴리가 있나. ㅡ_ㅡa;;

웹페이지에 나와있는 내용을 보면, 이 기능은 기본적으로 전에 소개했던 iPod용의 VoiceOver 기능을 iPod nano가 아닌 shuffle에 적용한 것이다. 조작버튼이 모두 사라졌다고는 하지만, 사실 이어폰(역시 전에 언급했던 모델이다)에 달려있는 3개의 버튼들을 눌러서 음량(상단/하단)과 재생조작(중단 1~3번 누르기)을 지원하므로 기존의 shuffle과 기능적으로 큰 차이는 없는 셈이다.

하지만, 이번에 적용된 VoiceOver는 휴대용 기기에 맞게 조금 더 향상된 버전으로, Voice UI (라고 할 수도 있는 부분)가 적용되어 있어서 눈길을 끈다. 다음 동영상을 보면 편이 가장 빠른 설명이 되겠다.



요컨대 추가된 부분은 기존에 읽어주던 "노래 제목", "아티스트"를 재생버튼을 길게 누르면(long push라고 했던 조작방식이다 ㅎ) 읽어주는 것으로 바꾸고, 멘트가 끝날 때까지 버튼을 누르고 있으면 "재생목록", 그러니까 폴더를 읽어주다가 다시 버튼을 누르면 그 폴더의 음악을 재생해 주는 기능이 추가된 것이다. 기존의 셔플이 수백곡의 노래를 그냥 뒤로 뒤로 넘기면서 듣는 것이었던 것에 비해서, 최소한 몇가지로 분류해 놓은 재생목록 중 하나를 선택해서 들을 수 있는 선택권이 주어진 것이다. 그럼에도 그 목록에 있는 음악을 순서대로 들을지 임의의 순서로 들을지는 본체(..무지 작지만)에 붙어있는 스위치를 사용해야 하지만.

기대했던 음성인식이 아닌 것은 아쉽지만, 그래도 음성매체의 특징 - 일단 말하고 알아듣는 데에 시간이 걸린다 - 을 나름대로 활용해서 언제 버튼을 누르고 떼느냐를 가지고 추가적인 기능을 구현했고, 그 방식도 설명만큼 복잡해 보이지는 않는다는 점은 좋은 VUI 사례라고 생각한다.

Apple Shuffle 3G with VoiceOverApple Shuffle 3G with VoiceOver (Double Press)
Apple Shuffle 3G with VoiceOverApple Shuffle 3G with VoiceOver (Long Push)

사실 저 이어폰에는 마이크가 달려있어서, 전에도 말했지만 아이팟 나노에서는 음성녹음에 활용하고 있었다. 혹시나, 추후에 펌웨어 업그레이드를 통해서 음성인식을 지원하지는 않을까? 흠... 가능성이 없진 않겠지만, 임의의 곡명/가수명/재생목록명을 인식하는 음성인식기라면 VoiceOver의 특징 - PC에서 전처리를 다 해서 DB를 만들어 넣어준다 - 을 감안하더라도 할 일이 많아 보인다. 만일 그런 준비를 하고 있다면 1년쯤 후에, 모든 Mac를 포함한 모든 제품군에 동시에 우르르 깜짝 적용하게 되지 않을까. 일단 지금은, 웹사이트 한 구석에 "이어폰에 달린 마이크는 아이팟 셔플에서 지원하지 않습니다"라고 섭섭하게도 분명하게 나와있다.

그렇게 되면 VUI를 좀 제대로 적용한 사례가 나와준다면 더 바랄 게 없겠고. (솔직히 MS Windows 기반으로 나와있는 음성인식 제품들은 기술데모용인지 상용인지 구분이 안 된다... -_-a;;;)



조금 딴 소리지만, 저 위의 동영상의 관련 동영상을 보면 벌써 패러디 동영상이 여럿 올라오고 있다. 혹시나 음성 입출력의 약점을 꼬집었나 해서 걱정스레 들여다보니, 동영상 중간에 나오는 Mac OS와 Windows의 음성차이를 데모하는 장면에 이런저런 장난을 쳐놓은 것이다. 사실 자세히 알아보면 Windows 버전의 iTunes에 사용된 음성합성DB는 바로 이전버전의 Mac OS 버전에 사용된 것과 같기 때문에 목소리가 좋은 것은 가장 최신의 Mac OS에만 해당하는데, Apple vs MS라는 구도가 나타나자마자 사람들은 또 그쪽으로 열광적인 반응을 보이고 있나보다.
신고
Posted by Stan1ey
MWC 행사 덕택에 짧게라도 생각을 정리할만한 글꺼리가 자꾸 생긴다. 긴 글 때문에 복잡해진 머리를 식힐 겸 또 정리해 보자.


Voice UI 디자인에 대해서 고민하면서, 내 멋대로 다음과 같은 표를 그려본 적이 있다. (이게 정확히 맞는지 모르겠지만, 뭐 기억하기엔 이렇다.) 지금도 크게 다르지 않지만, Voice UI와 관련된 다른 비슷한 개념들 간에 영역을 좀 정해보자는 의도였다.

Scope
Auditory UI



Speech UI
Sound UI



Voice UI




Target
Language Paralanguage Audio
Verbal Non-verbal
(아놔. 오랫동안 HTML에서 손을 뗐더니 표 하나 그리는데 이게 왠 뻘짓이냐. ㄷㄷ)

위 표를 들고 다니면서 자주 언급했던 부분은 '언어 language'만을 대상으로 하는 Speech UI와 '준언어 paralanguage'까지도 대상으로 하는 Voice UI를 구분함으로써 VUI에서 고려해 할 점은 이런저런 것까지를 포함한다... 뭐 그런 거 였다. 물론 준언어에 몸짓이 포함되고, Non-Verbal Audio(NVA)도 물론 대상으로 들어가고 어쩌고 하는 문제가 많은 영역구분이지만, 그래도 '왜 내가 이걸 다른 용어가 아닌 VUI라고 부르나'를 설명하는 데에는 나름 유용했다.

이 구분을 만들고 나면 자연스럽게 음성인식(voice recog.)과 발화인식(speech recog.) 사이에도 구분이 들어가게 되는데, 거기서 거기처럼 보이는 이 둘 사이의 차이점을 안다는 것은 더 많은 범위의 음성 입출력을 고려할 수 있게 해준다.


Microsoft Recite - Instruction

이번에 MWC에 나온 Microsoft Recite도 그런 사례로 삼게 되지 않을까 싶다. 우선 데모 동영상을 보면 (앞의 것이 설명은 잘 되어 있고, 실제 상황은 뒤의 동영상이다.) 다음과 같은데, 간단히 설명하자면 왼쪽 버튼을 눌러서 음성메모를 녹음하고, 오른쪽 버튼을 눌러서 그 메모를 음성으로 검색하는 것이다.





공식 웹사이트를 가보면 어느 정도 설명이 있지만, 결국 이건 일반적으로 말하는 음성인식(음성에서 특징점을 찾아서, 인식대상 문자열을 발화할 때의 일반적인 특징점과 비교함으로써, 가장 잘 맞는 문자열을 찾아내는 것)에서 '문자'에 대한 부분을 들어낸 기능이다. 결국 녹음된 음성의 특징점과 입력된 음성의 특징점만을 비교해서, 그 음성이 무슨 내용(문자열)인지와 상관없이 그냥 잘 맞는 내용을 제시하는 거랄까.

이런 방식은 이미 대량의 음성정보(라디오 뉴스 등)의 archive에서 특정 내용을 검색해 내려는 프로젝트에서도 사용되기도 했었으니(미국 워싱톤 근처 어디랑 관련이 있었는데 검색어가 떠오르질 않는다 -_ㅜ 그냥 치매일 뿐) 완전히 새로운 개념은 아니다. 문자열에 따른 특징점을 일반화/DB화 과정이 없으니 같은 사람이 같은 어조로 같은 단어를 말했을 경우에는 적확률이 꽤 높다는 장점이나, 같은 단어라고 해도 다른 사람이 말한 내용은 검색이 잘 안 된다는 단점은 이미 잘 알려져 있기도 하다.

그런데 위 동영상을 보면, 음성과 음성의 특장점을 그냥 일대일로 맞춘 것이 아니라, 검색 음성명령의 특정한 부분 - "What is...?" 라든가 - 은 잘라내고 나머지 부분만으로 matching을 수행하고 있는 걸 볼 수 있다. 이전까지의 voice matching/search가 단순히 특징점 비교였고, 구글의 음성검색이 음성을 문자로 바꿔서 검색하는 거 였다면, 이건 그 중간쯤의 안전한 지역을 선택했다고나 할까. 검색어를 골라내는 것은 음성인식(Speech-to-Text)의 기술을 이용하고, 정작 검색은 적확률이 높은 voice matching을 사용하고 있다.

이 Microsoft Recite는 Voice UI를 디자인할 때 무엇을 고민해야 하고, 어떻게 해결해야 하는지를 보여준 또 하나의 사례라고 생각한다. 비록 휴대기기 안에서만 사용할 수 있다거나 음성메모의 활용성이라든가 하는 단기적인 취약점이 보이긴 하지만, 상정한 범위 안에서 강력한 힘을 발휘하는 게 오히려 HTI의 나아갈 길이라는 점에서는 꽤 의미가 있어 보인다.
신고
Posted by Stan1ey
미국 T-Mobile에서 출시한 G1폰에, 온라인 업데이트를 통해서 음성인식 기능이 포함된다고 한다. 이 소식은 포털에만 올라와 있고 T-Mobile 공식 웹사이트에서는 찾아볼 수가 없는데, 그래서 구체적으로 어떤 종류의 음성명령이 가능한 건지는 알아볼 수가 없다. 일전에 나왔던 아이폰에서의 구글 음성인식 - 음성검색, 주소록검색, 주소검색 정도 - 이 그대로 안드로이드 버전으로 포팅되었을 가능성이 가장 높겠지만.

안드로이드는 초기부터 음성인식에 대한 준비는 다 되어있는 듯한 루머(?)가 많이 돌았는데, 만일 OS 수준에서 음성인식을 제대로 지원해준다면 이상적인 VUI를 실현할 가능성은 별도의 어플을 구매해야 하는 아이폰보다 훨씬 높다고 생각한다. 무엇보다 어플이기 때문에 접근할 수 없는 기반기능까지도 접근할 수 있을테니까. 이름을 부르면 화면에 전원이 들어오는 폰이 나온다면 얼마나 멋질까. :)

뭐 어쨋든, 사진도 뭣도 하나 없으니 그건 나중에 출시되면 어떻게든 알아보도록 하고, 일단 모처럼 음성 UI 소식이 올라와서 반가운 마음에 끄적.
신고
Posted by Stan1ey

Is VUI Born Evil?

2008.11.22 12:30
도시바에서 새로 나오는 프로젝터에서, 메뉴를 읽어주는 기능을 넣는다고 한다. 좀 생뚱맞기는 하지만, 가끔 화면이 나오지 않는 순간이 있다거나 메뉴가 상하좌우 뒤바뀌어 있는 경우에는 조금 유용할지도 모르겠다. "전구 좀 갈라니까!" 라는 오류메시지도 화면에 출력하는 것보다 주목을 끌 수 있을지도.

Toshiba X200U Projector with VUI

그런데 이 제품의 Voice UI 기능 탑재를 전하는 포털의 자세는 정말 악마의 재래를 전하는 듯 하다. 아직 음성이 어떤 순간에 어떤 어조로 쓰일지가 전혀 알려지지 않은 상황인데, 음성이 들어간다는 것만으로도 MS Office Assistant였던 Clippy와 비교당하고 있는 거다. 게다가 사실 Clippy는 음성UI가 아니다! 화면을 가리고 서서 당당히(?) 대화를 요구한 게 무엇보다 거슬리는 점이었던 건데, 오히려 화면이 아닌 음성을 사용하겠다는 데 이 부당한 처사는 무엇인지 원. ㅠ_ㅠ
신고
Posted by Stan1ey
일전에 소개했던 Google의 음성검색 서비스인 Google 411이, 오늘부터 iPhone 어플로 배포된다고 한다. 전에 봤던 소개 동영상을 떠올리며 원래 기사를 읽어보면 사실 기능을 아이폰에 넣었다는 게 요지인 것 같은데, 그렇다고 하더라도 위치인식이 가능한 기계에 지도검색을 주요골자로 한 음성인식을 넣었다는 것만으로 그 잠재력은 매우 커보인다. "꽃배달"이라고 하면 이 근방의 꽃집들을 지도에 찍어서 보여줄테고, Google 411의 원래 서비스대로라면 바로 VoIP를 통한 전화연결도 가능할 거다.

Google 411 - Voice Search on iPhone

아직 AppStore에서는 이 어플이 검색되지 않고 있지만, 일단 등록되면 바로 설치해볼 생각이다. 이미 발표된 Google Mobile App이라는 어플도 Gmail, Calendar, Docs 등으로의 링크에서 머물지 않고 아이폰 내의 주소록 검색 등으로 기능이 확장된 것처럼, 이 음성검색도 내부에 저장된 주소록이나 프로그램 이름으로까지 대상이 확장된다면... 거기에 간단한 follow-up task까지 음성으로 구현이 가능하다면 얼마나 좋을까. 믿는다 구글. :D


그나저나 구글도 참... 자주 이렇게 상식적이지 않은 짓을 하는 것이, 분명히 Android 기반의 G1 폰과 경쟁관계에 있는 Apple iPhone을 상대로 Google Map이나 Google Earth같은 자사의 주요 서비스를 참 잘도 오픈해서 내놓는다. 애당초 뭔가를 막거나 제약하거나 함으로써 돈을 번다는 생각 자체가 없는 듯. 뭐 우리도 이런 자세를 배워야 한다든가 하기에는 내가 세상을 너무 많이 아는 것 같고, 단지 이런 식으로도 잘 장사해서 먹고 살고 있으니 기특하고 고마울 뿐이다.
신고
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.