미국 T-Mobile에서 출시한 G1폰에, 온라인 업데이트를 통해서 음성인식 기능이 포함된다고 한다. 이 소식은 포털에만 올라와 있고 T-Mobile 공식 웹사이트에서는 찾아볼 수가 없는데, 그래서 구체적으로 어떤 종류의 음성명령이 가능한 건지는 알아볼 수가 없다. 일전에 나왔던 아이폰에서의 구글 음성인식 - 음성검색, 주소록검색, 주소검색 정도 - 이 그대로 안드로이드 버전으로 포팅되었을 가능성이 가장 높겠지만.

안드로이드는 초기부터 음성인식에 대한 준비는 다 되어있는 듯한 루머(?)가 많이 돌았는데, 만일 OS 수준에서 음성인식을 제대로 지원해준다면 이상적인 VUI를 실현할 가능성은 별도의 어플을 구매해야 하는 아이폰보다 훨씬 높다고 생각한다. 무엇보다 어플이기 때문에 접근할 수 없는 기반기능까지도 접근할 수 있을테니까. 이름을 부르면 화면에 전원이 들어오는 폰이 나온다면 얼마나 멋질까. :)

뭐 어쨋든, 사진도 뭣도 하나 없으니 그건 나중에 출시되면 어떻게든 알아보도록 하고, 일단 모처럼 음성 UI 소식이 올라와서 반가운 마음에 끄적.
Posted by Stan1ey

댓글을 달아주세요:: 네티켓은 기본, 스팸은 사절

  1. 2009.02.17 21:58 신고
    댓글 주소 수정/삭제 댓글
    혹시 오페라라는 웹 브라우저를 아시나요? 오페라에는 음성인식 명령 기능을 쓸 수 있어서 한 번 사용해봤는데, 이거 사람 많은 장소에서는 쓸만한 것이 아니더군요. ^^ 인식률도 좀 떨어져서 말도 잘 안듣고. 인식률도 인식률이지만 말하자면 좀 창피하달까요? 음성인식은 한 30년 전부터 된다고 했다고 하는데, 요근래 수준은 어떤지 궁금합니다.
    • 2009.02.17 22:59
      댓글 주소 수정/삭제
      인식률이나 환경소음은 이제 좋은 솔루션을 찾을 수 있는 수준이 된 것 같습니다. 대용량 DB와 빠른 처리속도가 필요한 화자독립형 인식기는 서버기반으로 전화서비스(IVR)로 많이 들어가고 있고요, PC에 설치되는 버전은 화자종속형으로 사전 학습과정은 필요하지만 인식율은 만족할만한 수준인 것 같아요. 모바일 기기에 포함된 내장형 버전들은 아직 좀 그렇지만, 그래도 모바일 기기의 제한적인 기능과 인식대상을 고려하면 못쓸 정도는 아니고요.

      단지 여전히 주변의 '음성 잡음'에는 취약하고, 무엇보다 음성의 특성상 (지적하셨다시피) 개인공간을 파괴한다는 태생적/근본적인 단점은 없어지지 않고 있습니다. 여러 개의 마이크를 이용해서 특정 지점의 음성만 잡아낸다든가, 접촉형 마이크를 이용해서 다른 사람이 들을 수 없는 속삭임을 인식한다든가 하는 사례가 나와있긴 하지만, 아직 대중적인 용도로 사용되는 상용화 사례는 나오지 않고 있네요. ^^*

      Voice UI 관점에서도, 아직 기존의 WIMP-GUI와 병용하는 것보다도 VUI에 맞는 GUI/AUI를 개발해서 성공사례를 만드는 게 시급하다고 봅니다. 너무 컴퓨터스럽지 않고, 동시에 이전의 Agent 기반 UI를 상기시키지 않을 수 있는 방법으로요.

      하지만 문제는... 역시 위의 사례는 영어에만 해당이 되고, 한국어 인식기는 '상대적으로' 갈 길이 좀 먼데다가, 그 길을 갈 사람도 그닥 없다는 점입니다. (한국어 시장은 좁아서 투자가치가 너무 적어요... ㅠ_ㅠ )
    • 2009.02.17 23:02
      댓글 주소 수정/삭제
      참, 오페라는 물론 알죠. :> 음성인식 플러그인은 안 써봤지만, 웹브라우저를 음성으로 조작하는 것은 해봤습니다. 사용후의 감상은 youngjr님과 같습니다. :-/
  2. htruth
    2009.02.18 08:35
    댓글 주소 수정/삭제 댓글
    음성인식은 보조적으로 특정 상황에 사용될때 매우 유용한듯 해요.(구태의연한 발언이네요.)
    요즘들어 드는 생각은 인식기의 성능이 100% 나오는것은 근본적으로 불가능한 것 아닐까 해요. 사람들과 이야기하는 세월이 길어질수록 내용이 예측불가능한 것들이 포함될 수록 저 자신의 인식기 성능도 떨어지네요.
    인식기는 이미 100% 성능인데 화자인 사람들의 입이 75% 정도의 성공율로 발언하는건 아닐까요?
    (녹음해서 같은 소스로 돌려보면 나오는 성능이 진정한 인식기의 성능?)
    두번째로는 역시.. 언어의 특성상 인터페이스 도구로 매우 잘 맞으면서도 매우 어렵다는 생각이 들고요. 회의하면서 아주 간단한 지시를 하고 듣고 수행하고.. 하는 일이 인식율이 떨어지는건 아닌데 서로 피곤하다는 생각이 부쩍 드네요. 기계야 피곤할 일이 없겠지만, 입으로 명령을 내리는 사람은 뇌의 작동 원리에 의해서 결국은 그냥 손으로 하는 편에 비해서 어느정도 부하가 걸리겠죠.
    언어는 지능의 가장 고도화된 표식이잖아요.
    당연하게 입밖으로 소리를 꺼내면 주변에 들린다는 문제도 있겠죠. 주변에 들려도 상관없는 명령보다 상관있는 명령들이 제법 많네요. 주소록, 사전, 검색어 입력과 관련해 생각해봐도 내가 그런 단어를 찾고 있다는것 자체가 그다지 자랑스럽지는 않은 경우가 많아서.. -.-
    궁극의 AUI 어플리케이션은 무엇일까요?
    • 2009.02.18 18:39
      댓글 주소 수정/삭제
      구구절절이 맞는 (그리고 왠지 익숙한?) 말씀입니다. :D

      아시다시피 인간의 인식성능이 70~80%인 걸 생각해 보면, 지금 기계는 인간대비 100% 이상의 성능을 보이고 있어요. 인간의 발화성공률을 이야기하는 건 뭔가 인식률 측정 자체를 무의미하게 만들 수 있지만, 분명히 인식기 성능 자체는 (토박이 영어 기준) 이미 더이상 올라갈 곳도 올라갈 필요도 없어 보입니다.

      음성언어가 기계에게로의 입력(혹은 심지어 출력)으로 적합한가..에 대해서는 아래 기사에서 비슷한 언급을 한 적이 있고요, 말씀하신 내용들을 고민하던 끝에 처한 상황이 "식상한 application 말고는 딱이 적용하기가 어렵다"는 거 였습니다. 물론 Speech UI와 Voice UI의 범위 차이를 생각해 보면 가능성은 조금 더 넓어지기는 하죠. ^_^*

      (기사: http://portal.acm.org/citation.cfm?id=348990 )

      혹시 필요하다면, 당시 팀장님(아시죠?)께 Hybrid VUI, STIC(VUI응용기준), 그리고 VUI Design Guideline 관련 파일을 요청해 보세요.
  3. htruth
    2009.02.19 08:17
    댓글 주소 수정/삭제 댓글
    이런 반응 그립습니다. 무지한 코멘트에 이런 레퍼런스와 정확한 이해를 가지고 대응해주는것.
    그래도 요즘은 늘 긴장감을 주는 후배가 팀원으로 들어와 살만은 합니다. ^^
    • 2009.02.19 22:49
      댓글 주소 수정/삭제
      아마 거기가 세계에서 가장 머리좋은 사람들이 많이 모여있는 기업(학교/연구소는 제외해야겠죠?)일텐데요. 잘 찾아보면 좋은 협력자를 구할 수 있을 겁니다.

      그리고 제 경험상으로도, 긴장감을 주는 후배가 있다는 건 정말 큰 도움이 되더군요. ;-> 그 후배한테도 안부 전해 주세요.


BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.