본문 바로가기
Voice UI

Bill Opens the Gates for Speech

by Stan1ey 2008. 3. 6.
이제는 MS의 전 CEO인 빌 게이츠가 지난 2월 21일 CMU에서 있었던 강연에서, 음성 입출력 방식에 대해서 꽤 강조를 한 모양이다. "5년 내에 사람들은 키보드를 버리고 터치스크린과 음성으로 컴퓨터를 사용해서 웹을 서핑하거나 할 것이다"라고 했다니, 최근의 급변하는 UI 업계를 감안한다고 해도 좀 과격한 예측이다.
(제목은 내가 지은 게 아니라, 원래의 기사에서 베꼈다.)


음성인식과 터치스크린이라... 이름은 많이 달라 보이지만, 사실 이 두가지는 모두 인식 알고리듬을 이용하므로 오인식의 가능성을 가지고 데다가, 기술 자체가 가지고 있는 문제도 무시할 수는 없을 것이다. 90%의 인식성공률을 가지고 있는 음성인식과 97%의 인식성공률을 가지고 있는 터치스크린을 잘만 조합하면 음성인식의 오류를 터치스크린이 보완한다든가 하는 multi-modal disambiguration이 가능하니 이론상 99.7% 의 성공률을 갖는 시스템도 만들 수 있겠지만, 만일 단순한 조합으로 만들어진다면 '사용자의 입력이 잘못 적용될 확률'이 90% 혹은 87.3%로 떨어질 수도 있는 것이다.

뭐 자주 하는 비유로, 키보드를 10번 치면 한번은 다른 글자가 나온다고 생각하면 어떤 느낌인지 알기 쉽지 않을까. ㅡ_ㅡ;;;

그래도 영어 음성인식/합성 기술의 수준을 생각해 보면, 그리고 이미 multi-modal disambiguration에 대한 실용적인 연구/적용 사례가 많이 나와있다는 것을 감안하면, 현재의 기술로도 충분히 usable한 장치를 만들 수 있을 것 같기도 하다. 우리나라도 이제 텔레뱅킹이나 텔레증권(?) 등을 시작으로 Telephony Voice UI (T-VUI) 사례는 좀 늘어나고 있는 것 같지만, 미국과 같이 빠른 속도로 ARS나 call center를 대체하고 있는 상황은 아니다. 이 상황에서 영어를 native 발음으로 하는 사람만 쓸 수 있는 모바일 기기가 나온다면 점점 한국은 그동안 "시장이 작아서"라는 이유로 음성 입출력 기술을 키우지 못한 대가를 치뤄야 하는 게 아닐지 모르겠다.

힘들게 명맥을 이어가고 있는 토종 음성 입출력 기술 업체가 기회를 갖게 될지, 대자본과 든든한 reference sites, 그리고 의외로 많은 한국어 인력을 보유한 외국계 회사가 모든 걸 잠식하게 될지 - 매우 걱정스런 눈으로 - 지켜보는 중이다.
반응형