본문 바로가기

Voice UI59

Another Clever Application of Voice Recognition: EZ-R 재미있는 회사가 있다. 자주 가는 (거의 상주하지만) 동호회에 올라온 뉴스를 따라서 들어갔다가 알게 된 "이지인터페이스 EZ interface"라는 회사인데, 음성인식 기술을 독창적으로 개발한 사례가 상당히 돋보인다. 음성인식 기술이라고는 하지만, 사실 이 회사가 가지고 있는 특허 "음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생 장치 및 그 방법"은 엄밀히 말해서 음성인식의 최초 전처리, 즉 입력된 음향(audio) 중에서 음성(voice)이 존재하는지 여부를 판정해서 구간을 정의하는(end point detecton) 과정만을 사용하고 있다. 문제는 이 방식을 기가 막히게 적합한 어플리케이션 - 라디오 방송에서 음악 부분을 찾아내서 저장하는 - 에 적용하는 생각을 했다는 것이다. 회사 웹사이트.. 2008. 4. 23.
Mobile VUI Booms Up with Crowdsourcing? ... 그럴 가능성이 보인다. Voice UI는 다른 GUI나 특히 Web UI와 달리 개인이 직접 입출력 기능을 구현할 수 있는 방법이 없다는 점 때문에 많이 개발되지도 확산되지도 않고 있었는데, 얼마 전에 Tellme에서 iPhone용 SDK를 개발하고 있다는 뉴스가 떴다. iPhone의 경우엔 마이크/스피커 달려있고, Wifi나 다른 데이터 통신도 되고, 무엇보다 많은 개인 개발자들이 이미 온갖 application을 만들어서 대부분 어둠의 경로로, 일부는 iTunes를 통해서 유료 혹은 무료로 배포하고 있는 상황이니만큼 이 SDK가 미칠 영향은 적지 않을 것이다. 이미 iPhone (혹은 iPod Touch)에 달려있는 수많은 센서들을 기발한 방법으로 사용한 많은 사례들이 나오고 있는데, 여기에 .. 2008. 4. 15.
Mental Model of Subway Platform 지하철을 기다릴 때마다 거슬리는 게 있는데, 바로 차가 들어올 때마다 나오는 안내방송이다. 목소리가 거슬리거나, 소리가 너무 크다거나 하는 게 아니다. 멘트 중에 딱 한 대목이 맘에 들지 않는다. UI 쟁이로서. (어쩌면 특히 Voice UI에 관심이 있는 사람으로서 일지도 모르겠다. =_=;; ) "... 안전선 밖으로 한걸음 물러서 주시기 바랍니다."내가 원래 삐딱한 인간이긴 하지만, 아무리 그걸 감안하더라도 난 저 안팎의 구분이 이해가 가질 않는다. 일단 저 방송의 사용자인, 플랫폼에서 전철이 들어오기를 기다리는 승객들은 안전선의 어느 한쪽에 - 살고싶다면 선로의 반대편에 - 서 있을 것이다. 그 경우 '사용자 중심의 관점'이라면, 안전선 '안쪽으로' 물러서는 게 자연스럽지 않은가! 난 저 안내방송.. 2008. 3. 29.
Quick Fix for Voice UI 한동안 Software UI 업계 - 요즘 식으로 말하자면 GUI 업계가 되겠지만 - 에 강림했다가 '상식'이 된 후에 버려진 많은 UI Design Guideline 들이 있다. 아직도 인터넷을 뒤져보면 많은 사례들이 있기도 하고... 특히 Yale Univ.의 Web Style Guide와 같이 나름 독자적인 전문 분야에서 꾸준히 편집과 갱신을 거듭하던, 줏대있는 사례도 있었다. 예전에는 이런 거 모아다가 비교해가면서 나만의 (절대적인 그러나 상대적인) UI 금과옥조를 만들기도 하고, 무슨 원칙이 무슨 원칙과 어떤 경우에 상충되는지를 분석하고 떠들어대곤 했는데 요즘도 그러는지 모르겠다. Voice UI 같은 경우에도, 이제 그런 사례가 적다고 말할 수는 없게 됐다. Voice UI 관련 서적들이 1년.. 2008. 3. 27.
Bill Opens the Gates for Speech 이제는 MS의 전 CEO인 빌 게이츠가 지난 2월 21일 CMU에서 있었던 강연에서, 음성 입출력 방식에 대해서 꽤 강조를 한 모양이다. "5년 내에 사람들은 키보드를 버리고 터치스크린과 음성으로 컴퓨터를 사용해서 웹을 서핑하거나 할 것이다"라고 했다니, 최근의 급변하는 UI 업계를 감안한다고 해도 좀 과격한 예측이다. (제목은 내가 지은 게 아니라, 원래의 기사에서 베꼈다.) 음성인식과 터치스크린이라... 이름은 많이 달라 보이지만, 사실 이 두가지는 모두 인식 알고리듬을 이용하므로 오인식의 가능성을 가지고 데다가, 기술 자체가 가지고 있는 문제도 무시할 수는 없을 것이다. 90%의 인식성공률을 가지고 있는 음성인식과 97%의 인식성공률을 가지고 있는 터치스크린을 잘만 조합하면 음성인식의 오류를 터치스.. 2008. 3. 6.
Bad Public UIs are EVIL. (부제: 03_ 버스카드 음모론) 나름 블로그라고 하나 운영하다 보니, 쓰다가 포기한 글도 이제 열 꼭지 가까이 된다. 어떤 글은 쓰다보니 내가 재미가 없어서 관두고, 어떤 글은 필요한 자료가 결국은 구해지지 않아서 미루다가 잊혀져 버리고, ... 그런 글 중에서, 제일 아까운 글은 "버스카드 음모론"이라는 제목의 글이다. 지난 2004년 7월부터 도입되어 통상 '버스카드'라고 불리는 교통카드 시스템은, 간단한 RFID 카드 접촉을 통해서 복잡한 과금 시스템을 이용할 수 있게 만든 우리나라 교통 행정의 도전적인 시도이다. 시내버스와 지하철, 최근에는 택시까지도 포괄하는 등 모든 교통수단을 엮는 하나의 지불방식과 환승할인(?), 그리고 새로운 담당업체와 신용카드 회사를 포함한 새로운 산업 구도의 창출 등 긍정적인 면도 없지 않은 게 사실이.. 2008. 3. 5.
Will Voice Search be Usability Breakthrough in Mobile Phone? 오랜 질문에, 뻔한 주장이 담긴 글이다. 단지 음성검색의 장점에 대해서 reference가 궁했더 기억이 있기에 그냥 하나 scrap해 놓고 싶을 뿐이다. 하지만 결국 음성검색이 모바일 기기에 적용되면 좋을 당위성이라는 것이: 수많은 메뉴를 항행할 때 어려운 걸 쉽게 해준다. (메뉴 검색) 작은 창에서 한번에 보이지 않는 긴 목록 중에서의 선택을 쉽게 해 준다. (모바일에서 메뉴 말고 긴 목록이래봐야, 결국 이름이나 주소) 이 둘뿐이라면 영 발전이 없다. 물론 둘 다 음성인식의 근본적인 약점(결국 인식대상 단어 목록에 들어있어야 인식이 되며, 아무 말이나 한다고 죄다 인식하는 방법은 없다)과, '언제나 기대 이하'의 인식률을 그나마 올릴 수 있는 방법(구어로 자주 사용하는 말보다, 잘 .. 2008. 2. 17.
Machine Talks, Machine Sings, and ... '노래하는 TTS' ... 그런 이름의 연구과제를 어깨너머로 본 적이 있다. (TTS는 Text-To-Speech, 즉 음성합성이라는 뜻이다) 당시 소속되어 있던 연구실 뿐만 아니라 국내에서만도 몇몇 학교와 연구기관에서 연구하던 주제였다. 어느 정도 알아들을 수 있는 걸음마 수준의 음성합성기였지만, 떡잎부터 보였던 문제 중 하나는 그 '소름끼치는 목소리'였다. 분명 100% 기계적으로 합성한 초기의 음성합성 방식이 아님에도 불구하고, 사람 목소리 중에서 다양하게 사용할 수 있는 '중립적인' 음원을 중심으로 sampling하다보니 아무래도 강약도 높낮이도 없는 건조한 목소리가 되기 마련이고, 그렇게 합성된 음성에는 "공동묘지에서 들리면 기절하겠다"든가 "연변 뉴스 아나운서가 있다면 이렇지 않을까"라든가 하.. 2008. 2. 13.
Speech Recognition Comes to the Mac NY Times의 David Pogue가 이번에는 맥용 음성인식기 - 정확하게는 dictator - 를 소개했다. 기본적으로 말하는 대로 받아적고, 음성으로 프로그램 명령을 할 수 있는 등 일반적인 음성인식 보조 어플리케이션과 다를 건 없지만, 훌륭한 선례를 만들어가고 있는 PC용 어플리케이션인 Nuance사의 Dragon NaturallySpeaking 9과 비교하면 몇가지 좋은 Voice UI feature가 빠져 있다. (그나저나 이 PC용 음성인식기는 회사를 합병하고 부서를 팔아넘기고 하는 와중에도 절대 이름을 줄이거나 바꾸지 않고 고집스럽게 지켜서, 참 어려운 이름으로도 1등을 하고 있다. -_-;; ) 다른 기사에서 소개한 바에 따르면 이 회사에서도 앞으로는 Nuance사의 엔진을 licens.. 2008. 1. 31.
Persona or Personal... That's the Question GUI 위주의 UI를 하다가 Voice UI를 접하게 되면, 가장 친숙하게 다가오는 게 바로 persona라는 개념이다. VUI의 다른 측면들은 대부분 음성대화에 대한 분석과 조합에 대한 것이고, 입출력 기술의 제약조건과 그에 따르는 생소한 설계 지침이나 tip들은 아무래도 시각적인 것이 없어서 거리감이 느껴지게 마련이다. 그에 비해서 이 persona라는 것은 그 구축 방법에서부터 어떤 사람의 모습을 상정하기 때문에 뭔가 사진이라도 하나 띄워놓을 수 있고, 기존의 UI 디자인에서도 Persona 구축을 통한 사용자 상(像)의 공감대 형성이 하나의 방법론으로서 인기가 있기 때문에 언뜻 "아, 이건 아는 거야!" 라고 접근할 수 있는 거다. (상품기획이나 UI.. 혹은 다른 종류의 디자인을 위한 Perso.. 2008. 1. 18.
Apple's New Patents, Again 특정 회사에서 출원(file)한 특허가 공개(publish)되거나 등록(grant)될 때마다 이렇게 신제품 좋아하는 사람들과 특히 UI 업계가 들썩거리는 건 생각보면 참 웃기는 일이다. 회사에서 내는 특허는 향후 제품개발에 도움이 되리라 생각되는 것도 있지만, 그냥 확보해두면 좋지 않을까 싶은 것도, 혹시나 등록되면 다음에 특허분쟁이 붙었을 때 어거지 부릴 수 있겠다 싶은 것도, 심지어 자의건 타의건 연구원이 어쩔 수 없이 짜낸 것도 있게 마련이다. 그리고 공개된 특허 중 어떤 것은 심사 과정에서 탈락해서 등록되지 않으므로, 사실 출원자의 자산이 되지 못하고 공개되어 공유된 기술이 되어 버린다. 특히 정작 중요한 특허는 내용을 공개하지 않을 수 있기 때문에, 세상에 본문이 알려진 특허는 그 회사에서 별도.. 2008. 1. 11.
With Voice or Not, Mobile Apps Sucks. 도시 한복판에서 저녁먹을 곳을 찾는 사람들이 있다. 가장 좋은 시나리오는 뭘까? (1) PDA의 LBS 서비스로 근처의 식당을 지도에 표시한다. (2) 휴대폰을 꺼내 음성인식 서비스로 식당을 찾는다. (3) 그냥 지나가는 사람들한테 물어본다. 뭐 보기를 보면 답이 보이긴 하겠지만, 이걸 실제로 경험한 글이 VUI Blog에 올라왔다. 서비스를 만드는 입장에서 이런 경험을 당한다는 것은 참 재미있는 동시에 좌절스러운 일이 될 거다. ㅋㅋ 링크: No wonder mobile apps take so long to get adopted 2008. 1. 7.
반응형