1년 전쯤 삼성 휴대폰 인스팅트(Instinct)가 미국에 Sprint 망으로 출시되면서, iPhone(당시 2G)과의 비교광고를 대대적으로 했던 모양이다. 스프린트에서 올린 동영상들을 뒤늦게 발견했는데, 비교광고에 익숙하지 않아서 그런지, 광고의 뉘앙스 ("쟤네는 이거 안 되요~ 메롱메롱") 때문인지, 그다지 잘 만든 광고 캠페인이라는 생각은 안 든다. (사실은 그냥 애플 빠심이 발동 ;ㅁ; )

흥미로운 것은 모두 5편의 동영상 중에 Voice UI가 두 편이나 나온다.

우선 첫번째는 음성명령 기능. 음성으로 전화를 거는 모습을 보여주면서, iPhone은 없지롱..이라고 하고 있다.



삼성 휴대폰에 통화 관련된 음성인식 기능이 들어간 건 꽤 역사가 오래 됐고, 해외에서 출시되는 휴대폰에는 거의 대부분 포함되어 있다. 그래봐야 이제는 매뉴얼에서 반페이지나 차지할까 싶게 무시당하는 기능인데 이때는 또 이렇게 부각시켜서 나서던 때가 있었나보다. 참 감개무량하고 결국 달면 삼키고 쓰면 뱉고.. 그런 게 당연한가 싶기도 하고 그렇다. 여전히 다른 기능으로 확대하기 위한 노력은 무산되고 있는 것 같은데 말이지. 게다가 여기에서 보여주고 있는 음성명령기를 만든 VoiceSignal사(지금은 Nuance에 합병)는 재작년에 이미 아이폰에서 음성명령/검색을 개발하기도 했다.

여기에 자극을 받았는지 어쨌는지, iPhone도 3GS부터는 "Voice Control"이라는 이름으로 음성명령을 지원하고 있다. 통화 뿐 아니라 음악재생과 관련된 기능까지를 포함해서.



VUI와 (조금 억지로) 관련될만한 다른 동영상은 GPS 기능이다. 인스팅트에서는 음성 가이드가 나오는데, 아이폰에서는 나오지 않는다는 걸 부각시키고 있다.



우리나라에서도 같은 사례가 있어서, 모 회사에서 음성 안내를 넣으면서 Voice UI라고 주장하던 시절이 있었다. (과연 이걸 과거형으로 말해도 될지는 자신이 없다.) 마치 그래픽 화면이 들어갔으니 GUI 라는 격이랄까. 뭐 예전의 GUI는 실제로 그렇게 이야기하기도 했으니까 어쩌면 발전의 단계일지도.

iPhone에서의 GPS는 아직도 화면만 지원하고 있는데, 음성지원을 못해서 안 하는 건지 그냥 등떠밀려 개발한 GPS라 제대로 만들 생각이 없는 건지는 모르겠다.



어쨋든 굳이 이런 것도 voice 운운해 가면서 짚어 주었다니 우쭐해지는 마음이 없잖아 있지만, 그 내용을 보면 몇년이 지나도 확장되지 않은 Voice UI의 영역에 한켠이 씁쓸한 것도 사실이다.

점심시간 동안 후딱 적다보니 앞뒤가 없다. 원래 그냥 스크랩이나 해두려고 한 것일 뿐...이라고 애써 생각하기로 하자. ㅡ_ㅡa;;;
신고
Posted by Stan1ey

며칠 전에 iPhone에서 구동되는 무료 HTI 어플들을 정리했는데, 한메일에 들어갔다가 한 블로거가 음성인식 어플을 소개해 놓은 동영상을 퍼다놓은 걸 보게됐다. 역시 놓친 게 있었던 듯. ㅎㅎ 이미 김은 새버렸으니 굳이 주절주절 적을 기운은 없고, 유투브에 들어가 보니 이 회사(AppStore에는 Excuse Me Services라고 되어 있고, 프로그램 첫 화면에는 Dial Directions 라고 되어 있다. 어느 쪽이냐 -_-; )에서 올린 동영상이 몇개나 있다. 현재는 Say Who라는 음성 다이얼링 서비스만 AppStore에 올라와 있는데, Say Where도 곧 올라올 듯. 유투브 동영상들 중 각각의 어플에 대한 동영상 설명은 다음과 같다.

Say Who (주소록 음성 검색 및 "번호인식")



Say Where (구글 맵 주소 검색)


음성인식의 데모 동영상은 늘 왠지 사람을 시니컬하게 만드는 것 같다 -_-;;;

전에 소개했던 Cactus Voice Dialer에 비해서 좋은 점이라면 역시 Say Who에서 음성으로 숫자인식이 된다는 거겠다. 숫자란 게 대부분 짧고, 그러다보니 상대적으로 비슷비슷한 발성들이 있을 수 있다. (우리말의 경우엔 "일"과 "이"와 "오", "삼"과 "사" 등이 그렇다) 따라서 인식오류도 많을 수 밖에 없고, 게다가 입에 익지 않은 숫자열을 기억해내며 발화하는 게 얼마나 어려운 일인지 생각해보면, 키패드와 비교해서 장점이 거의 없다고도 할 수 있겠다. 그럼에도 누구나 생각하는 기능인지라 휴대폰에 음성인식을 탑재하면서 늘상 고민이 많이 됐고, 몇가지 다른 방식이 비교되기도 한다. ... 이거 오래 이야기하자면 끝이 없다. -_ㅜ

어쨋든 그래서 한번 해봤다.

Say Who by Dial Directions, Splash ScreenSay Who by Dial Directions, Press While SpeakingSay Who by Dial Directions, Network Error???

... 어이. -_-;;; 왜 '네트워크' 에러인 거냐고. Say Where라면야 구글 맵과 연동해야 하니까 그렇다고 해도, Say Who는 로컬에서 돌리는 게 아니었나? -_- 아니었나보다. 이 소프트웨어는 아마도 한때 꽤나 회자되던 distributed speech recognition 모델을 사용하는 것 같다. iPhone에 설치된 소프트웨어는 (어째 용량이 작다 했건만) 음성에서 특징(feature vector)만 잡아서 작은 양의 디지털 정보로 바꿔 서버로 전송하고, 그 전처리된 정보를 방대한 DB - 이를테면, 미국내의 도시 이름 목록 - 와 비교해서 적합한 목록을 뽑아내는 건 빵빵한 성능을 가진 서버가 하는 거다.

흠... 우선은 Say Who에서도 그러고 있는 거라면 내 개인 주소록 정보가 서버로 흘러가고 있는 건 아닌지 우려가 되고, Say Where만 생각하더라도 이 어플이 무료로 풀릴 경우 (Say Who는 무료 어플이다) 그 막대한 서버부하를 감당할 수 있을런지가 의심스러운 대목이다. 게다가 비록 지금은 1년동안 네트워크를 무료로 사용하는 약정이 되어 있지만 (영국 신규사용자의 경우), 그 이후엔 그 네트워크 비용 때문에 자주 쓰지 않게 되지 않을까... 싶기도 하고.

iPhone Apps - Say Who
뭐 그럼에도 불구하고... iPhone 어플 중에 음성인식을 지원하는 또 다른 어플이 있다는 것, 게다가 그게 숫자인식을 지향하고 있고, (어쩌면) 다른 인식모델을 지원해서 장단점을 비교할 수 있는 환경이 되었다는 건 꽤 흥미로운 일이다. Cactus에 비해서 옵션이 적다는 건 단점이 되겠지만, 그만큼 그냥 단순히 사용할 수 있도록 만든 어플이라는 의미도 되니까. 부가적이지만 말하기 버튼을 눌렀을 때 화면 전체가 뻘개진다는 것도 마음에 든다. Cactus에서는 손가락에 눌려 가려진 버튼이 눌렸는지 어쨌든지를 확인하기가 어려웠거든.

iPhone VUI Apps - Say Who & Cactus (as of 19 Oct 2008)



자... 하지만 내가 기대하는 건, 만일 모바일 음성인식 시장이 진짜라면 당연히 그 시장을 잡아먹으려고 덤빌 주요 회사들의 등장이다. (이미 VoiceSignal은 어플이 완성되어 있는 걸 알고 있는데 -_-+ ) 그 회사들이 AppStore에 떠서 실질적인 시장 형성이 시작돼야 VUI가 유용한지 어떤지에 대해서 엄정한 판정을 받을 수 있을 것 같으니까 말이지. 어쩌면 모바일 음성인식의 final round가 될지도 모르지만, 어쨋든 아직은 음성과 대화의 힘을 믿는 마음으로 기다리는 중이다.



이 글을 쓰고나서 하루이틀 후에, Say Who가 업데이트되었다. 글 다 썼는데 고쳐야 하나... 하면서 보니 non-alphabetical character 때문에 문제가 생겼다고 그걸 고쳐서 업데이트했다고 하는데, 조금 다른 오류메시지도 종종 나오지만 전반적인 오류현상은 똑같다. 이뭥미. 오히려 같은 조건(=똑같이 영어 못하는 주인)에서 테스트했을 때는 현재는 Cactus가 훨씬 낫다. 인식률 20% 정도로. ㅡ_ㅡa;;;;


좀 더 테스트해본 후에 말 바꾸기:
정정. 안정적인 WiFi가 연결된 상태에서 테스트해보니, Say Who의 인식률은 대략 80% 정도? (앞의 테스트는 출퇴근 길에 한 거라서, 3G 네트워크의 문제일 수도 있다.) 종종 'network timeout' 오류는 났지만 인식되기만 하면 꽤 정확하게 응답하고 있었다. 혹시나 해서 iPhone을 비행기 탑승 모드(모든 네트워크 차단)로 바꾸고 테스트해보니 음성명령이 끝나기가 무섭게 바로 'network problem'을 보고한다. (아래 첫번째 화면) 확실히 분산형 인식을 쓰는 건 맞는 것 같은데, 그렇다면 어느 정도의 개인정보는 항상 서버로 흘러가고 있다는 거다. 어쩌면 Apple에서 '원격삭제' 기능을 발동할지도 모르겠는 걸...

Say Who - with Possible Privacy Violence?Say Who - with Possible Privacy Violence?Say Who - with Possible Privacy Violence?

그렇게 가까스로 본 결과화면(두번째 화면)은 조금 더 아이폰 UI 스럽게 되어 있는 점은 마음에 들지만, 인식이 된 경우에도 휴대폰 정보가 없으면 마치 오류 메시지같은 팝업 창이 뜨는 점(세번째 화면)은 확실히 초보적인 실수처럼 보인다.

어쨋든 인식률에 대해서는 분명히 정정해야 하겠지만, 그건 역시 서버의 도움을 받을 수 있는 분산형 인식의 장점으로 봐야 할 거다. 순수하게 UI 관점에서 보면 사실은 둘 다 엉망이지만 -_-a;; VUI 관점에서 인식기술의 장단점을 좀더 잘 반영한 것은 역시 Cactus Voice Dialer의 손을 들어주고 싶다.

(장점)
- 인식결과 옵션이 충분하다. (인식대안 표시, 대표번호, 바로 걸기)
- 말하기 버튼이 모든 화면에 있어 오류 시 바로 다시 재시도할 수 있다.
- (UI 이슈는 아니지만) Embedded 인식엔진이므로 개인정보가 안전하다.

(단점)
- 버튼이 작고 손가락에 가려 눌렸다는 피드백이 잘 보이지 않는다.
- 인식률이 (많이 -_- ) 떨어진다.
- UI의 시각적 완성도가 (심히 -_- ) 떨어진다.
- (UI 이슈는 아니지만) 숫자음 인식이 제공되지 않는다.

이상 아무도 원한 적 없는 장단점 정리. ㅡ_ㅡa;;;

결론이 오락가락한다고 뭐라기 없기. 개인 블로그니까 주인장 맘바뀌면 내용 바뀌는 건 지극히 정상이라고나 할까... ㅋㅋ
신고
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.