본문 바로가기
Voice UI

Yet More Speech Apps on iPhone

by Stan1ey 2008. 10. 22.

며칠 전에 iPhone에서 구동되는 무료 HTI 어플들을 정리했는데, 한메일에 들어갔다가 한 블로거가 음성인식 어플을 소개해 놓은 동영상을 퍼다놓은 걸 보게됐다. 역시 놓친 게 있었던 듯. ㅎㅎ 이미 김은 새버렸으니 굳이 주절주절 적을 기운은 없고, 유투브에 들어가 보니 이 회사(AppStore에는 Excuse Me Services라고 되어 있고, 프로그램 첫 화면에는 Dial Directions 라고 되어 있다. 어느 쪽이냐 -_-; )에서 올린 동영상이 몇개나 있다. 현재는 Say Who라는 음성 다이얼링 서비스만 AppStore에 올라와 있는데, Say Where도 곧 올라올 듯. 유투브 동영상들 중 각각의 어플에 대한 동영상 설명은 다음과 같다.

Say Who (주소록 음성 검색 및 "번호인식")



Say Where (구글 맵 주소 검색)


음성인식의 데모 동영상은 늘 왠지 사람을 시니컬하게 만드는 것 같다 -_-;;;

전에 소개했던 Cactus Voice Dialer에 비해서 좋은 점이라면 역시 Say Who에서 음성으로 숫자인식이 된다는 거겠다. 숫자란 게 대부분 짧고, 그러다보니 상대적으로 비슷비슷한 발성들이 있을 수 있다. (우리말의 경우엔 "일"과 "이"와 "오", "삼"과 "사" 등이 그렇다) 따라서 인식오류도 많을 수 밖에 없고, 게다가 입에 익지 않은 숫자열을 기억해내며 발화하는 게 얼마나 어려운 일인지 생각해보면, 키패드와 비교해서 장점이 거의 없다고도 할 수 있겠다. 그럼에도 누구나 생각하는 기능인지라 휴대폰에 음성인식을 탑재하면서 늘상 고민이 많이 됐고, 몇가지 다른 방식이 비교되기도 한다. ... 이거 오래 이야기하자면 끝이 없다. -_ㅜ

어쨋든 그래서 한번 해봤다.

Say Who by Dial Directions, Splash Screen Say Who by Dial Directions, Press While Speaking Say Who by Dial Directions, Network Error???

... 어이. -_-;;; 왜 '네트워크' 에러인 거냐고. Say Where라면야 구글 맵과 연동해야 하니까 그렇다고 해도, Say Who는 로컬에서 돌리는 게 아니었나? -_- 아니었나보다. 이 소프트웨어는 아마도 한때 꽤나 회자되던 distributed speech recognition 모델을 사용하는 것 같다. iPhone에 설치된 소프트웨어는 (어째 용량이 작다 했건만) 음성에서 특징(feature vector)만 잡아서 작은 양의 디지털 정보로 바꿔 서버로 전송하고, 그 전처리된 정보를 방대한 DB - 이를테면, 미국내의 도시 이름 목록 - 와 비교해서 적합한 목록을 뽑아내는 건 빵빵한 성능을 가진 서버가 하는 거다.

흠... 우선은 Say Who에서도 그러고 있는 거라면 내 개인 주소록 정보가 서버로 흘러가고 있는 건 아닌지 우려가 되고, Say Where만 생각하더라도 이 어플이 무료로 풀릴 경우 (Say Who는 무료 어플이다) 그 막대한 서버부하를 감당할 수 있을런지가 의심스러운 대목이다. 게다가 비록 지금은 1년동안 네트워크를 무료로 사용하는 약정이 되어 있지만 (영국 신규사용자의 경우), 그 이후엔 그 네트워크 비용 때문에 자주 쓰지 않게 되지 않을까... 싶기도 하고.

iPhone Apps - Say Who
뭐 그럼에도 불구하고... iPhone 어플 중에 음성인식을 지원하는 또 다른 어플이 있다는 것, 게다가 그게 숫자인식을 지향하고 있고, (어쩌면) 다른 인식모델을 지원해서 장단점을 비교할 수 있는 환경이 되었다는 건 꽤 흥미로운 일이다. Cactus에 비해서 옵션이 적다는 건 단점이 되겠지만, 그만큼 그냥 단순히 사용할 수 있도록 만든 어플이라는 의미도 되니까. 부가적이지만 말하기 버튼을 눌렀을 때 화면 전체가 뻘개진다는 것도 마음에 든다. Cactus에서는 손가락에 눌려 가려진 버튼이 눌렸는지 어쨌든지를 확인하기가 어려웠거든.

iPhone VUI Apps - Say Who & Cactus (as of 19 Oct 2008)



자... 하지만 내가 기대하는 건, 만일 모바일 음성인식 시장이 진짜라면 당연히 그 시장을 잡아먹으려고 덤빌 주요 회사들의 등장이다. (이미 VoiceSignal은 어플이 완성되어 있는 걸 알고 있는데 -_-+ ) 그 회사들이 AppStore에 떠서 실질적인 시장 형성이 시작돼야 VUI가 유용한지 어떤지에 대해서 엄정한 판정을 받을 수 있을 것 같으니까 말이지. 어쩌면 모바일 음성인식의 final round가 될지도 모르지만, 어쨋든 아직은 음성과 대화의 힘을 믿는 마음으로 기다리는 중이다.



이 글을 쓰고나서 하루이틀 후에, Say Who가 업데이트되었다. 글 다 썼는데 고쳐야 하나... 하면서 보니 non-alphabetical character 때문에 문제가 생겼다고 그걸 고쳐서 업데이트했다고 하는데, 조금 다른 오류메시지도 종종 나오지만 전반적인 오류현상은 똑같다. 이뭥미. 오히려 같은 조건(=똑같이 영어 못하는 주인)에서 테스트했을 때는 현재는 Cactus가 훨씬 낫다. 인식률 20% 정도로. ㅡ_ㅡa;;;;


좀 더 테스트해본 후에 말 바꾸기:
정정. 안정적인 WiFi가 연결된 상태에서 테스트해보니, Say Who의 인식률은 대략 80% 정도? (앞의 테스트는 출퇴근 길에 한 거라서, 3G 네트워크의 문제일 수도 있다.) 종종 'network timeout' 오류는 났지만 인식되기만 하면 꽤 정확하게 응답하고 있었다. 혹시나 해서 iPhone을 비행기 탑승 모드(모든 네트워크 차단)로 바꾸고 테스트해보니 음성명령이 끝나기가 무섭게 바로 'network problem'을 보고한다. (아래 첫번째 화면) 확실히 분산형 인식을 쓰는 건 맞는 것 같은데, 그렇다면 어느 정도의 개인정보는 항상 서버로 흘러가고 있다는 거다. 어쩌면 Apple에서 '원격삭제' 기능을 발동할지도 모르겠는 걸...

Say Who - with Possible Privacy Violence? Say Who - with Possible Privacy Violence? Say Who - with Possible Privacy Violence?

그렇게 가까스로 본 결과화면(두번째 화면)은 조금 더 아이폰 UI 스럽게 되어 있는 점은 마음에 들지만, 인식이 된 경우에도 휴대폰 정보가 없으면 마치 오류 메시지같은 팝업 창이 뜨는 점(세번째 화면)은 확실히 초보적인 실수처럼 보인다.

어쨋든 인식률에 대해서는 분명히 정정해야 하겠지만, 그건 역시 서버의 도움을 받을 수 있는 분산형 인식의 장점으로 봐야 할 거다. 순수하게 UI 관점에서 보면 사실은 둘 다 엉망이지만 -_-a;; VUI 관점에서 인식기술의 장단점을 좀더 잘 반영한 것은 역시 Cactus Voice Dialer의 손을 들어주고 싶다.

(장점)
- 인식결과 옵션이 충분하다. (인식대안 표시, 대표번호, 바로 걸기)
- 말하기 버튼이 모든 화면에 있어 오류 시 바로 다시 재시도할 수 있다.
- (UI 이슈는 아니지만) Embedded 인식엔진이므로 개인정보가 안전하다.

(단점)
- 버튼이 작고 손가락에 가려 눌렸다는 피드백이 잘 보이지 않는다.
- 인식률이 (많이 -_- ) 떨어진다.
- UI의 시각적 완성도가 (심히 -_- ) 떨어진다.
- (UI 이슈는 아니지만) 숫자음 인식이 제공되지 않는다.

이상 아무도 원한 적 없는 장단점 정리. ㅡ_ㅡa;;;

결론이 오락가락한다고 뭐라기 없기. 개인 블로그니까 주인장 맘바뀌면 내용 바뀌는 건 지극히 정상이라고나 할까... ㅋㅋ
반응형