본문 바로가기

Voice UI50

Stupidest Call Contest 음성 입출력 시스템에서 독보적인 입지를 가진 Nuance사가, 2008. 9. 2.
English Way of Communication 일전에 모아서 올렸던 반자동화된 인간-시스템 대화와 동일한 서비스를, 영국에서도 광고하고 있는 걸 발견했다. 아마도 원래 이 동네에선 "118"로 전화하면 전화번호를 안내해 준 모양인데, 여기에서 새로 "118 118"로 전화를 하거나 문자로 질문을 남기면 그에 대한 답변을 문자로 보내주는 서비스를 시작했다. "Now you can ask us anything"이라는 메인 카피도 좀 세련미가 떨어지고, 내가 본 것도 그렇고 YouTube에 올라와 있는 TV 광고들도 하나같이 좀 "우스꽝"스럽다. ... 고작 며칠 간이긴 하지만, 이제까지 접한 이 나라의 대중문화라는 것은 그 키워드가 "우스꽝"이 아닐까 싶을 정도로 일관적을 성향을 보이고 있긴 하지만. 어쨌든 그래도 우리나라의 '엠톡언니'처럼 묘하게 여성.. 2008. 8. 2.
Conversation Works. Conversation Works. 이건 지금은 인터넷 한 구석에 숨어있는, 내가 1999년 말 혹은 2000년 초에 만들었던 홈페이지의 제목이다. 대화형 에이전트 conversational agent 와 대화 모델링 dialogue modeling 이라는 것을 어깨 너머로나마 접하고나서, 그리고 한창 음성인식/음성합성과 Microsoft Agent 를 이용한 대화형 사용자 인터페이스 작업을 하고 있던 참이라, 요거 참 새롭다 싶어서 당시 빠져있던 JavaScript로 구현해 본 거였다. ^^* ( 취향이 이상한 방문자로군. ㅡ_ㅡa;; ) 아래는 다양한 대화가 가능하고 여러가지 포즈를 표현할 수 있는, 실사형 대화형 에이전트(?)의 사례인 셈이다. 원래는 CG로 그린 그림을 바탕으로 GIF 애니메이션으.. 2008. 7. 17.
Naming UI for Sales (1/2) 마케팅하는 분들한테 볼멘소리를 하는 김에, 마침 오늘(글쓰기 시작한 날짜 기준이니, 지난 20일이다) 아침에 무가지 'metro'에 실린 광고성 기사에 대해서도 한마디 하게 됐다. (여하튼 한번 뭔가 심통이 나면 계속 관련된 게 눈에 밟힌다니깐...) 음성인식을 연구하는 조직에 (물론, 다른 훌륭한 HCI 기술들도 함께) 들어가게 되면서 들었던 이야기 중에, 과거 "본부" 폰의 실패에 대한 언급이 자주 있었다. 이 모델(SCH-370)에서 사용된 음성인식 기술은 모든 음성인식 대상 단어(주소록 상의 이름)들에 대해서 각각 발화자의 음성을 수차례 학습시키는 방식으로, 오늘날 음성인식의 가장 기초적인 단계인 "음운분석" 조차도 들어가 있지 않은 단순한 음향패턴 매칭 기술이라고 볼 수 있다. 사용자가 몇번 발.. 2008. 5. 25.
Microsoft SYNC on Ford Taurus 몇년 전부터 MS와 Ford가 꾸준히 개발하고 있는 차량 운전자용 음성인식 시스템, SYNC의 시승기(?)이다. 리뷰의 내용은 음성인식의 인식성능에 초점을 맞추고 있어서 일반 영어발음과 한국식, 일본식 영어발음 -_- 도 인식이 된다는 것을 매우 긍정적으로 표현하고 있다. 그외에는 SYNC를 통해서 다른 사람과 전화를 한다든가, 다른 기능들을 나열하고 있는데, 솔직히 뭘 할 수 있는가에 대한 것은 내겐 좀 질린 이야기다. 그냥 스크랩하는 기분으로 최근에 올라온 동영상을 링크. Voice UI 좀 하려고 했었던 -_- 입장에서 보면, 이 동영상에서 보여주는 VUI는 일반적인 VUI Design Guideline을 잘 따랐으나, 일부 부족한 부분이 있다. 동영상 중의 VUI 대화 사례를 보면 다음 몇가지 ".. 2008. 5. 22.
Another Clever Application of Voice Recognition: EZ-R 재미있는 회사가 있다. 자주 가는 (거의 상주하지만) 동호회에 올라온 뉴스를 따라서 들어갔다가 알게 된 "이지인터페이스 EZ interface"라는 회사인데, 음성인식 기술을 독창적으로 개발한 사례가 상당히 돋보인다. 음성인식 기술이라고는 하지만, 사실 이 회사가 가지고 있는 특허 "음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생 장치 및 그 방법"은 엄밀히 말해서 음성인식의 최초 전처리, 즉 입력된 음향(audio) 중에서 음성(voice)이 존재하는지 여부를 판정해서 구간을 정의하는(end point detecton) 과정만을 사용하고 있다. 문제는 이 방식을 기가 막히게 적합한 어플리케이션 - 라디오 방송에서 음악 부분을 찾아내서 저장하는 - 에 적용하는 생각을 했다는 것이다. 회사 웹사이트.. 2008. 4. 23.
Mobile VUI Booms Up with Crowdsourcing? ... 그럴 가능성이 보인다. Voice UI는 다른 GUI나 특히 Web UI와 달리 개인이 직접 입출력 기능을 구현할 수 있는 방법이 없다는 점 때문에 많이 개발되지도 확산되지도 않고 있었는데, 얼마 전에 Tellme에서 iPhone용 SDK를 개발하고 있다는 뉴스가 떴다. iPhone의 경우엔 마이크/스피커 달려있고, Wifi나 다른 데이터 통신도 되고, 무엇보다 많은 개인 개발자들이 이미 온갖 application을 만들어서 대부분 어둠의 경로로, 일부는 iTunes를 통해서 유료 혹은 무료로 배포하고 있는 상황이니만큼 이 SDK가 미칠 영향은 적지 않을 것이다. 이미 iPhone (혹은 iPod Touch)에 달려있는 수많은 센서들을 기발한 방법으로 사용한 많은 사례들이 나오고 있는데, 여기에 .. 2008. 4. 15.
Mental Model of Subway Platform 지하철을 기다릴 때마다 거슬리는 게 있는데, 바로 차가 들어올 때마다 나오는 안내방송이다. 목소리가 거슬리거나, 소리가 너무 크다거나 하는 게 아니다. 멘트 중에 딱 한 대목이 맘에 들지 않는다. UI 쟁이로서. (어쩌면 특히 Voice UI에 관심이 있는 사람으로서 일지도 모르겠다. =_=;; ) "... 안전선 밖으로 한걸음 물러서 주시기 바랍니다."내가 원래 삐딱한 인간이긴 하지만, 아무리 그걸 감안하더라도 난 저 안팎의 구분이 이해가 가질 않는다. 일단 저 방송의 사용자인, 플랫폼에서 전철이 들어오기를 기다리는 승객들은 안전선의 어느 한쪽에 - 살고싶다면 선로의 반대편에 - 서 있을 것이다. 그 경우 '사용자 중심의 관점'이라면, 안전선 '안쪽으로' 물러서는 게 자연스럽지 않은가! 난 저 안내방송.. 2008. 3. 29.
Quick Fix for Voice UI 한동안 Software UI 업계 - 요즘 식으로 말하자면 GUI 업계가 되겠지만 - 에 강림했다가 '상식'이 된 후에 버려진 많은 UI Design Guideline 들이 있다. 아직도 인터넷을 뒤져보면 많은 사례들이 있기도 하고... 특히 Yale Univ.의 Web Style Guide와 같이 나름 독자적인 전문 분야에서 꾸준히 편집과 갱신을 거듭하던, 줏대있는 사례도 있었다. 예전에는 이런 거 모아다가 비교해가면서 나만의 (절대적인 그러나 상대적인) UI 금과옥조를 만들기도 하고, 무슨 원칙이 무슨 원칙과 어떤 경우에 상충되는지를 분석하고 떠들어대곤 했는데 요즘도 그러는지 모르겠다. Voice UI 같은 경우에도, 이제 그런 사례가 적다고 말할 수는 없게 됐다. Voice UI 관련 서적들이 1년.. 2008. 3. 27.
Bill Opens the Gates for Speech 이제는 MS의 전 CEO인 빌 게이츠가 지난 2월 21일 CMU에서 있었던 강연에서, 음성 입출력 방식에 대해서 꽤 강조를 한 모양이다. "5년 내에 사람들은 키보드를 버리고 터치스크린과 음성으로 컴퓨터를 사용해서 웹을 서핑하거나 할 것이다"라고 했다니, 최근의 급변하는 UI 업계를 감안한다고 해도 좀 과격한 예측이다. (제목은 내가 지은 게 아니라, 원래의 기사에서 베꼈다.) 음성인식과 터치스크린이라... 이름은 많이 달라 보이지만, 사실 이 두가지는 모두 인식 알고리듬을 이용하므로 오인식의 가능성을 가지고 데다가, 기술 자체가 가지고 있는 문제도 무시할 수는 없을 것이다. 90%의 인식성공률을 가지고 있는 음성인식과 97%의 인식성공률을 가지고 있는 터치스크린을 잘만 조합하면 음성인식의 오류를 터치스.. 2008. 3. 6.
Will Voice Search be Usability Breakthrough in Mobile Phone? 오랜 질문에, 뻔한 주장이 담긴 글이다. 단지 음성검색의 장점에 대해서 reference가 궁했더 기억이 있기에 그냥 하나 scrap해 놓고 싶을 뿐이다. 하지만 결국 음성검색이 모바일 기기에 적용되면 좋을 당위성이라는 것이: 수많은 메뉴를 항행할 때 어려운 걸 쉽게 해준다. (메뉴 검색) 작은 창에서 한번에 보이지 않는 긴 목록 중에서의 선택을 쉽게 해 준다. (모바일에서 메뉴 말고 긴 목록이래봐야, 결국 이름이나 주소) 이 둘뿐이라면 영 발전이 없다. 물론 둘 다 음성인식의 근본적인 약점(결국 인식대상 단어 목록에 들어있어야 인식이 되며, 아무 말이나 한다고 죄다 인식하는 방법은 없다)과, '언제나 기대 이하'의 인식률을 그나마 올릴 수 있는 방법(구어로 자주 사용하는 말보다, 잘 .. 2008. 2. 17.
Machine Talks, Machine Sings, and ... '노래하는 TTS' ... 그런 이름의 연구과제를 어깨너머로 본 적이 있다. (TTS는 Text-To-Speech, 즉 음성합성이라는 뜻이다) 당시 소속되어 있던 연구실 뿐만 아니라 국내에서만도 몇몇 학교와 연구기관에서 연구하던 주제였다. 어느 정도 알아들을 수 있는 걸음마 수준의 음성합성기였지만, 떡잎부터 보였던 문제 중 하나는 그 '소름끼치는 목소리'였다. 분명 100% 기계적으로 합성한 초기의 음성합성 방식이 아님에도 불구하고, 사람 목소리 중에서 다양하게 사용할 수 있는 '중립적인' 음원을 중심으로 sampling하다보니 아무래도 강약도 높낮이도 없는 건조한 목소리가 되기 마련이고, 그렇게 합성된 음성에는 "공동묘지에서 들리면 기절하겠다"든가 "연변 뉴스 아나운서가 있다면 이렇지 않을까"라든가 하.. 2008. 2. 13.
반응형