사실 시리즈물도 아니고 컨테스트는 더욱 더 아니었는데, 본의 아니게 대상이 등장해서 제목을 그렇게 해 봤다. 뜬금없이 등장한 Free HTI Apps의 내맘대로 대상작은, 바로 "Shazam"이라는 이름의 어플리케이션 되겠다.

이름이 이렇다보니 처음에 눈에 띄지 않은 것도 당연하달까. 이 어플의 주요 기능은 바로 듣고 있는 음악을 iPhone에 들려주면(이걸 음악을 tag 한다고 표현하고 있다), 그걸 인식해서 가수/앨범/장르 등 기본적인 정보를 알려주는 것이다. 음악이 충분히 클 경우 인식률은 놀랄 정도로 높았지만, 역시 미국 노래 외에는 충분히 인식하지 못하는 것 같았다.

iPhone Apps - Shazam: ListeningiPhone Apps - Shazam: Music Recognition ResultiPhone Apps - Shazam: Tagged Music

이 어플의 가장 훌륭한 점은, 아이폰이 바로 iTunes Music Store와 연결되어 있다는 거다. 즉 언제 어디서나 들리는 음악을 바로 구입할 수 있는 가장 커다란 시장으로의 관문역할을 하면서 이 단순한 '무료' 어플의 가능성은 상당히 크다고 본다. 아마도 현재 나와있는 장난감 같은 HTI 어플에 비해서, 이건 실제로 장치의 본래 목적에 가장 부합하는 "기본 기능"이 될 것 같다. 애플과 협상하기에 따라서 수익모델은 생길 수 있을 것 같고.

이 어플에 대해서 한가지 더 마음에 든 게 있다면, 음악을 녹음하려고 아이폰을 갖다대면 화면에 타이머(파이 모양의)가 표시되는데, 비록 마이크가 아이폰의 앞면이 아니라 아랫면에 있다고 해도 아무래도 사용자들은 화면을 스피커쪽으로 향하게 되고, 따라서 타이머는 표시되어 봐야 보이질 않는다. 이 어플은 녹음이 끝나면 진동을 주기 때문에, 사용자는 언제까지 녹음이 끝나고 결과가 나오는 때를 화면을 보지 않고도 알 수 있는 것이다. 자칫 안 좋아질 수 있는 상황을 잘 타개한 UI 디자인이라고 생각한다.

이제까지로 보면, 이 어플이 아이폰 AppStore에 올라온 것들 중에서 제일 중에서 가장 주목 받은 어플이 되지 않을까 싶다. (순전히 HTI 관점에서 ㅎㅎ )



그나저나 사실 iPhone을 이용한 음악인식은 일전에 VUI 관련 글의 댓글에서 제안한 적이 있는데, 방대한 음악 DB를 대상으로 한 인식을 별도의 인식서버를 둠으로써 해결했다. 결국 전의 글에서 말한 distributed voice recognition에서와 같이 분산음악인식 시스템을 구성한 듯.

확실히
thinker든 talker든, 결국 doer를 못 따라간다. 반성+제길.

신고
Posted by Stan1ey

며칠 전에 iPhone에서 구동되는 무료 HTI 어플들을 정리했는데, 한메일에 들어갔다가 한 블로거가 음성인식 어플을 소개해 놓은 동영상을 퍼다놓은 걸 보게됐다. 역시 놓친 게 있었던 듯. ㅎㅎ 이미 김은 새버렸으니 굳이 주절주절 적을 기운은 없고, 유투브에 들어가 보니 이 회사(AppStore에는 Excuse Me Services라고 되어 있고, 프로그램 첫 화면에는 Dial Directions 라고 되어 있다. 어느 쪽이냐 -_-; )에서 올린 동영상이 몇개나 있다. 현재는 Say Who라는 음성 다이얼링 서비스만 AppStore에 올라와 있는데, Say Where도 곧 올라올 듯. 유투브 동영상들 중 각각의 어플에 대한 동영상 설명은 다음과 같다.

Say Who (주소록 음성 검색 및 "번호인식")



Say Where (구글 맵 주소 검색)


음성인식의 데모 동영상은 늘 왠지 사람을 시니컬하게 만드는 것 같다 -_-;;;

전에 소개했던 Cactus Voice Dialer에 비해서 좋은 점이라면 역시 Say Who에서 음성으로 숫자인식이 된다는 거겠다. 숫자란 게 대부분 짧고, 그러다보니 상대적으로 비슷비슷한 발성들이 있을 수 있다. (우리말의 경우엔 "일"과 "이"와 "오", "삼"과 "사" 등이 그렇다) 따라서 인식오류도 많을 수 밖에 없고, 게다가 입에 익지 않은 숫자열을 기억해내며 발화하는 게 얼마나 어려운 일인지 생각해보면, 키패드와 비교해서 장점이 거의 없다고도 할 수 있겠다. 그럼에도 누구나 생각하는 기능인지라 휴대폰에 음성인식을 탑재하면서 늘상 고민이 많이 됐고, 몇가지 다른 방식이 비교되기도 한다. ... 이거 오래 이야기하자면 끝이 없다. -_ㅜ

어쨋든 그래서 한번 해봤다.

Say Who by Dial Directions, Splash ScreenSay Who by Dial Directions, Press While SpeakingSay Who by Dial Directions, Network Error???

... 어이. -_-;;; 왜 '네트워크' 에러인 거냐고. Say Where라면야 구글 맵과 연동해야 하니까 그렇다고 해도, Say Who는 로컬에서 돌리는 게 아니었나? -_- 아니었나보다. 이 소프트웨어는 아마도 한때 꽤나 회자되던 distributed speech recognition 모델을 사용하는 것 같다. iPhone에 설치된 소프트웨어는 (어째 용량이 작다 했건만) 음성에서 특징(feature vector)만 잡아서 작은 양의 디지털 정보로 바꿔 서버로 전송하고, 그 전처리된 정보를 방대한 DB - 이를테면, 미국내의 도시 이름 목록 - 와 비교해서 적합한 목록을 뽑아내는 건 빵빵한 성능을 가진 서버가 하는 거다.

흠... 우선은 Say Who에서도 그러고 있는 거라면 내 개인 주소록 정보가 서버로 흘러가고 있는 건 아닌지 우려가 되고, Say Where만 생각하더라도 이 어플이 무료로 풀릴 경우 (Say Who는 무료 어플이다) 그 막대한 서버부하를 감당할 수 있을런지가 의심스러운 대목이다. 게다가 비록 지금은 1년동안 네트워크를 무료로 사용하는 약정이 되어 있지만 (영국 신규사용자의 경우), 그 이후엔 그 네트워크 비용 때문에 자주 쓰지 않게 되지 않을까... 싶기도 하고.

iPhone Apps - Say Who
뭐 그럼에도 불구하고... iPhone 어플 중에 음성인식을 지원하는 또 다른 어플이 있다는 것, 게다가 그게 숫자인식을 지향하고 있고, (어쩌면) 다른 인식모델을 지원해서 장단점을 비교할 수 있는 환경이 되었다는 건 꽤 흥미로운 일이다. Cactus에 비해서 옵션이 적다는 건 단점이 되겠지만, 그만큼 그냥 단순히 사용할 수 있도록 만든 어플이라는 의미도 되니까. 부가적이지만 말하기 버튼을 눌렀을 때 화면 전체가 뻘개진다는 것도 마음에 든다. Cactus에서는 손가락에 눌려 가려진 버튼이 눌렸는지 어쨌든지를 확인하기가 어려웠거든.

iPhone VUI Apps - Say Who & Cactus (as of 19 Oct 2008)



자... 하지만 내가 기대하는 건, 만일 모바일 음성인식 시장이 진짜라면 당연히 그 시장을 잡아먹으려고 덤빌 주요 회사들의 등장이다. (이미 VoiceSignal은 어플이 완성되어 있는 걸 알고 있는데 -_-+ ) 그 회사들이 AppStore에 떠서 실질적인 시장 형성이 시작돼야 VUI가 유용한지 어떤지에 대해서 엄정한 판정을 받을 수 있을 것 같으니까 말이지. 어쩌면 모바일 음성인식의 final round가 될지도 모르지만, 어쨋든 아직은 음성과 대화의 힘을 믿는 마음으로 기다리는 중이다.



이 글을 쓰고나서 하루이틀 후에, Say Who가 업데이트되었다. 글 다 썼는데 고쳐야 하나... 하면서 보니 non-alphabetical character 때문에 문제가 생겼다고 그걸 고쳐서 업데이트했다고 하는데, 조금 다른 오류메시지도 종종 나오지만 전반적인 오류현상은 똑같다. 이뭥미. 오히려 같은 조건(=똑같이 영어 못하는 주인)에서 테스트했을 때는 현재는 Cactus가 훨씬 낫다. 인식률 20% 정도로. ㅡ_ㅡa;;;;


좀 더 테스트해본 후에 말 바꾸기:
정정. 안정적인 WiFi가 연결된 상태에서 테스트해보니, Say Who의 인식률은 대략 80% 정도? (앞의 테스트는 출퇴근 길에 한 거라서, 3G 네트워크의 문제일 수도 있다.) 종종 'network timeout' 오류는 났지만 인식되기만 하면 꽤 정확하게 응답하고 있었다. 혹시나 해서 iPhone을 비행기 탑승 모드(모든 네트워크 차단)로 바꾸고 테스트해보니 음성명령이 끝나기가 무섭게 바로 'network problem'을 보고한다. (아래 첫번째 화면) 확실히 분산형 인식을 쓰는 건 맞는 것 같은데, 그렇다면 어느 정도의 개인정보는 항상 서버로 흘러가고 있다는 거다. 어쩌면 Apple에서 '원격삭제' 기능을 발동할지도 모르겠는 걸...

Say Who - with Possible Privacy Violence?Say Who - with Possible Privacy Violence?Say Who - with Possible Privacy Violence?

그렇게 가까스로 본 결과화면(두번째 화면)은 조금 더 아이폰 UI 스럽게 되어 있는 점은 마음에 들지만, 인식이 된 경우에도 휴대폰 정보가 없으면 마치 오류 메시지같은 팝업 창이 뜨는 점(세번째 화면)은 확실히 초보적인 실수처럼 보인다.

어쨋든 인식률에 대해서는 분명히 정정해야 하겠지만, 그건 역시 서버의 도움을 받을 수 있는 분산형 인식의 장점으로 봐야 할 거다. 순수하게 UI 관점에서 보면 사실은 둘 다 엉망이지만 -_-a;; VUI 관점에서 인식기술의 장단점을 좀더 잘 반영한 것은 역시 Cactus Voice Dialer의 손을 들어주고 싶다.

(장점)
- 인식결과 옵션이 충분하다. (인식대안 표시, 대표번호, 바로 걸기)
- 말하기 버튼이 모든 화면에 있어 오류 시 바로 다시 재시도할 수 있다.
- (UI 이슈는 아니지만) Embedded 인식엔진이므로 개인정보가 안전하다.

(단점)
- 버튼이 작고 손가락에 가려 눌렸다는 피드백이 잘 보이지 않는다.
- 인식률이 (많이 -_- ) 떨어진다.
- UI의 시각적 완성도가 (심히 -_- ) 떨어진다.
- (UI 이슈는 아니지만) 숫자음 인식이 제공되지 않는다.

이상 아무도 원한 적 없는 장단점 정리. ㅡ_ㅡa;;;

결론이 오락가락한다고 뭐라기 없기. 개인 블로그니까 주인장 맘바뀌면 내용 바뀌는 건 지극히 정상이라고나 할까... ㅋㅋ
신고
Posted by Stan1ey
모든 게 불안한 세상이다. 모든 경제 체제가 무너지는가 싶을 정도로 한동안은 주식시장이 폭락하고 환율이 요동을 치더니, 한동안은 또 언제 그랬나 싶게 잠잠하기도 하다. 얼마 전에는 GM을 비롯한 제조업의 상징 같은 회사들의 주가가 20~30%나 곤두박질 치던데, 사실은 IT 업계도 위험해서 이미 곳곳에서 인원감축 소식이 들려오고 있다.

이럴 때 눈에 띄는 것이 아무래도 이런 위기에 초연한 듯한 행보를 보이는 회사일 것이다. 그런 의미에서 얼마전, 이런 경제상황에서 음성 입출력 기술 시장을 대부분 석권하고 있는 Nuance 사가 Philips의 음성인식 자회사를 합병한 것은 참 신기한 일이다. 많은 회사가 사업을 줄이고, 지분을 팔아서라도 정부의 지원을 받아 부도를 막고 있는 상황에서 말이다.

전에 필립스의 음성인식 엔진을 탑재해서 팔리고 있는 Mac OS 용의 받아쓰기 dictation 소프트웨어에 대해서 소개하면서 앞으로는 Nuance사의 엔진을 사용할 계획이라는 이야기를 한 적이 있는데, 설마 애당초 이럴 계획은 아니었겠지. -_-;;;

어쨋든 한 술 더 떠서, 한켠에서는 경제위기가 오히려 음성시장 확대를 가속화시키고 있다며 세미나를 열고 있다. 무슨 내용인지는 잘 몰라도, 아마 경쟁이 심해지면서 서비스 경쟁이 되고, 그 와중에 서비스의 중추인 Call Center에 들어가는 인건비를 줄일 수 있는 음성 서비스 도입이 주목받는다는 소리 아닐까. 시간이 안 맞아서 세미나를 듣기는 힘들 것 같지만, 그래도 제목만큼은 꽤나 희망적이다.

솔직히 기대는 많이 되지 않지만, 시장이 작고 아직은 성장곡선을 타고 있는 VUI 분야가 무슨 핑계든 이득을 본다면 개인적으로 듣기 좋은 이야기다.



P.S. 아, 근데 이번 경제위기를 영국방송을 통해서 접하면서 이런 게 진짜 민주주의구나... 라는 느낌이 든 적이 있다. 주요 은행들이 줄줄이 위기를 맞으면서 정부에서 거금을 투자해서 지분을 구입하는 형식으로 구제정책을 펴는데, 이때 투입하는 돈은 절대 (한국 뉴스에서 말하듯) "공적자금" 따위의 누구 건지 모르겠는게 아니라, 항상 "tax-payer's money"라고 불린다. 그 돈을 누가 원래 뭐 하라고 준 건지가 명확해지는 순간이다. 몇달 안 됐지만 세금을 내는 사람으로서 관심도 더 가고, 저게 그냥 날려버리는 건 아닌가 신경도 쓰인다. ... 그래서 그런지, 자세한 부가설명을 해주는 기자도 "So, WE owns 60% of the bank." 라는 식으로 우리 (국민)이 은행을 소유하게 되었음을 강조하고, 어떤 영향력을 미치게 되었는지를 설명해 준다. 세금으로 낸 돈이 도대체 어디로 가 버렸는지가 늘 궁금했던 사람으로서는 그게 이만큼 공공연히 언급되는 게 상당히 고무적이었다.
신고
Posted by Stan1ey
얼마전 Apple이 iPod nano의 4세대 모델과 touch의 2세대 모델, iTunes 8 등을 발표했다. 황당한 부고기사까지 나돌았던 스티브 잡스는 그 기사를 농담꺼리로 삼으며 재치있게 발표를 시작했지만, 지난 일년간 부쩍 노쇠해진 모습은 여전히 안타깝다.

이번에 발표된 제품군들은 비록 몇건의 사전누설 '루머'로 좀 김이 빠지긴 했지만, 애플의 엔지니어링 철학이라고 생각되는 "we are selling software, in a beautiful box"에 그야말로 부합되는 내용이었다고 생각한다. 유출된 내용들은 대부분 그 껍데기의 모양이 어떻다는 것에 대해서 였지만, 발표 내용은 주로 새로운 기능에 대한 것이었고, 그에 대해서는 여전히 놀라운 새로운 경험 일색이었으니까 말이다.



그런데, 며칠 늦게서야 키노트 연설 발표를 모두 들을 수 있는 시간이 생겨서 한번 쭉~ 틀어보던 중에 조금 석연치 않은 부분이 눈에 띄었다. iTunes 8에서 앞으로 HD 방송을 볼 수 있다는 이야기를 하고 나서다.

New Features in iTunes 8, including Accessibility

iTunes의 새로운 4가지 특징들을 소개하면서, 앞서 소개한 HD 컨텐트 외에 접근성 Accessibility 이 개선되었으며, 새로운 브라우징 방식이 도입되었고, "Genius"라는 새로운 음악추천 기능이 포함되었음을 소개하고 있다. 그리고 나서 잡스는 접근성에 대해서 간단히 몇마디 언급한 다음, "그럼 다른 2개의 기능에 대해서 자세히 봅시다" 라고 하고 훌쩍 넘어가 버린다. 왜 (최소한 나에게는 괜시리) 중요한 접근성만 그냥 얼렁뚱땅 넘어가는 건데, 잡스옹! ㅡ_ㅡ;;;

흠... 뭔가 미심쩍다. 애플이 이제까지 Mac OS X에서 장애인을 위한 접근성 옵션을 위해서 그렇게 노력한 걸 생각하면 그냥 그렇게 어물쩍 넘어갈 것 같지 않은데, 게다가 발표 뒷부분으로 가면 iPod 제품이 환경에 미치는 영향에 대해서도 그렇게 강조하고 있으면서 말이다. 그래서 웹사이트를 뒤져서 관련 정보를 좀 알아봤다.

Website on the New Features of iTunes 8
우선, Mac OS X에는 MS Windows XP/Vista와 마찬가지로 음성합성 엔진이 내장되어 있다. 기본적으로는 영어 뿐이지만, 그래도 시각장애를 가지고 있는 사람이라면 이 기능을 이용해서 OS의 다양한 기능들을 이용하거나, 웹사이트를 읽어주는 screen reader 소프트웨어로 인터넷을 돌아다닐 수 있는 것이다. iTunes에서는 8 버전부터 내장된 iTunes Music Store(ITMS)와 음악 리스트에서도 screen reader를 지원한다고 한다. iTunes의 기본 기능들 자체는 이미 Mac OS X의 "VoiceOver" 기능으로 지원하고 있었겠지만, 사실 그것만으로는 음악 컨텐트 관리 프로그램으로서의 의미가 없었던 셈이다. 그런데 이번에 실질적인 컨텐트 수준에서도 음성을 지원함으로써 '다른 누구보다도 청각적 니즈가 절실한' 시각장애인들에게 iTunes와 iPod의 편리함이 '접근 가능하게'  됐다.

그런데, 사실은 웹사이트를 더 뒤적이다 보니, 이외에도 더 추가된, 심지어 발표에서는 언급조차 되지 않은 기능이 iPod의 접근성을 향상시키고 있었다. iPod를 사용할 때 메뉴나 곡명 등을 음성으로 읽어주는 "spoken menu" 기능이 이번부터 새로 옵션으로 들어간 것이다. 메뉴나 다른 정보를 음성으로 읽어주는 MP3 Player가 기존에 없었던 것은 아니지만 내장형 embedded 음성합성기를 이용했거나, 녹음된 메뉴이름(만)을 지원했거나, 혹은 그냥 번들로 제공되는 PC용 음성합성기가 MP3 파일을 만들어 줘서 그걸 플레이어에 다운로드 받을 수 있다는 정도였다. (앞의 사례들은 기억이 확실치 않다...) 그에 비해서, 이번에 애플에서 지원하는 방식은 조금 특이한 구성을 가지고 있다.

Spoken Menu - New Feature on iTunes 8 and iPod nano
이 기능은 새로운 4세대 iPod nano를 iTunes 8에 연결시켰을 때 사용할 수 있으며, 왼쪽 그림과 같이 연결화면에서 아래의 4번째 옵션(고해상도 이미지가 없다... 그만큼 관심들이 없는 듯 -_ㅜ )을 보면 "Enable spoken menus for accessibility"라는 항목을 체크할 수 있고, 이를 체크함으로써 iPod에 들어있는 메뉴와 곡명에 해당하는 음성파일을 PC에서 합성(이때 MS Windows에서도 Mac OS X에서도 기본 제공되는 음성합성엔진 형식을 사용하게 된다!)해서 iPod에 다운로드하게 되는 것이다. 이에 따라서 iPod의 용량이 다소 줄어들게 되고 (각 곡명이나 아티스트에 대한 것일테니 그다지 크진 않겠다) 음성합성과 추가된 음성파일의 다운로드를 위해서 Sync 시간은 좀더 늘어나게 된다.

이렇게 iPod + iTunes라는 시스템을 이용해서, 그것도 시스템 기본사양인 음성인식엔진을 활용함으로써 합성음의 품질도 보장할 수 있는 방식으로 제공된다는 것은 Voice UI 입장에서 무척 고무적인 일이다. 비록 많이 향상되었다고 하지만 음성합성을 위한 DB의 용량이 곧 합성음의 품질에 영향을 미치는 것을 생각해 보면 (많이 주관적인 기준이 되겠지만, '듣기 좋은 소리'로 그럭저럭 용납되기 위해서는 압축과 최적화를 거친다고 해도 1GB 이상이 필요하다고 보면 된다) embedded 버전의 음성합성은 아무래도 DB 용량과 이를 관리하기 위한 CPU의 효율성에 있어서 한계가 있다. 하지만 PC에 설치되어 있는 비교적 고사양의 음성합성기를 사용함으로써 (이것마저 충분히 듣기좋은 소리인지는 잘 모르겠고, 무엇보다 고유명사와 은어가 난무하는 음악의 곡명 등에 최적화되기는 불가능하지만;; ) 좋은 음성을 서비스할 수 있게 된 것이다.

애플은 왜 이런 접근성에서의 큰 향상을 이루어 놓고서는, 그렇게 대충 발표하고 넘어간 것일까? iPod touch나 classic에는 못 넣고 nano에만 넣은 게 미안해서? 발표를 듣는 사람들이 대부분 눈이 잘 보이는 일반적인 프로그래머들이어서? 아니 아무리 그래도 이 정도 노력을 기울였다면 "주머니에 넣고도 조작할 수 있습니다!" 라는 핑계를 대서라도 대서특필 했어야지! ㅡ_ㅡ=3 응?



가만 ... 그러고보니, 한가지가 더 마음에 걸리기 시작한다. 이번에 함께 발표된 iPod의 기능 중 하나로 'Voice Recorder'를 넣었다. 사실 뭐 대단할 것도 없는 기능이고, 기존에도 마이크와 함께 파는 3rd party software를 사면 사용할 수 있었던 기능이다. 물론 기존의 iPod에는 마이크가 없었기 때문에, 이번에 함께 발표된 이어폰 2종류는 볼륨조절, 재생, 멈춤, 앞뒤이동 기능이 달린 컨트롤러 뒷면에 마이크가 포함되어 있는 채로 출시되었다.

Headphone with microphone ... for nano?Voice Recorder on Mic-less iPod nano 4G

애플이 마이크라는 하드웨어 단가상승을 감수하고 넣은 게 기껏 음성을 녹음할 수 있는 기능이라고? 그 이어폰을 '우연히' 음성입력이 별 필요없고 분명히 니즈도 크지 않은 iPod nano와 함께 발표했다고? 그나마 음성인식기능은 기본 탑재되어 있고 마이크 달린 이어폰은 돈 주고 사야 돼? 애플이 이렇게 생뚱맞은 기능이 추가되는 그런 기획을 하는 회사였던가?

그럴리가 없다... 뭔가 있어... -_-+ ☜ 애플빠돌이 ㅋㅋ

물론 간단히 생각할 수 있는 것은, 헤드폰과 iPhone과의 관련성이다. 이번 발표는 주로 iPod 위주였고, 따라서 iPhone의 핸즈프리 hands-free set 로도 사용할 수 있다고 굳이 언급하지 않았을 뿐이라고 생각할 수 있겠다. 물론 사실 그도 그렇겠고 나름대로 기대되는 조합이지만, 왜 하필 nano와 함께 발표하게 된 걸까?



순전히 나의 개인적인 기대일수도 있지만, 어쩌면 조만간 iPod nano는 주머니 속에 넣은 채로, 음성인식을 통해서 조작되게 되지 않을까 싶다. 혹시나 싶어서 특허를 뒤져보니 음성인식과 음악감상을 연결시킨 것은 사실 찾아볼 수 없었다. (단지 위의 음성메뉴 기능은 2003년에 출원했다가 아직 등록이 안 되고 있다;; ) 그냥 죽은 VUI XX 만지기가 될지도 모르겠지만, 그래도 이번에 발표된 내용에 숨어있는 이야기를 조합해 보면, 다음 애플의 주요 발표에 과연 어떤 것이 들어갈지, 혹은 최소한 App Store를 통해서 출시될 제품들이 이 마이크를 이용해서 어떤 짓을 할지가 무척이나 기대된다. 특히 일전에 iPhone에 음성인식기를 넣은 사람들, 모든 iPod에 적용되는 표준화된 마이크를 보고 얼마나 눈을 반짝이고 있을지는 익히 상상이 된달까. ㅎㅎ


... ㅠ_ㅠ (註: 피눈물)
신고
Posted by Stan1ey

Stupidest Call Contest

2008.09.02 13:31
음성 입출력 시스템에서 독보적인 입지를 가진 Nuance사가, <Can't Stop Stupid Calls>라는, 굉장히 이상한 공모전(?)의 접수를 며칠 전에 마쳤다. 웹사이트에 들어가서도 볼 수 있는 동영상은 아래와 같다.



콜센터라는 게 생긴 이후에 고객과 콜센터 간의 황당한(=stupid?) 통화 내용은 많은 우스개를 낳기는 했지만, 그걸 따로 모아서 뭘 어쩌려고? 게다가 Nuance는 IVR 시스템을 만드는, 말하자면 사람이 전화를 받아 고객을 응대하는 것을 자동화된 음성입출력 기술로 대화 시스템을 만들어 대체하려고 노력하는 회사다. 일단 회사에서 내세우고 있는 이 '공모전'의 취지는 다음과 같다.

Nuance is in the business of helping organizations better support, communicate with, and understand their customers. We realize however, that despite the best technology, and the best training, call center agents will sometimes deal with customers who call with situations, problems and questions that are, well, just stupid.

Nuance, through its comprehensive set of automated inbound, outbound, analytics and caller authentication solutions, helps with a lot of the world’s customer care interactions. In fact, we support over 8 billion around the world annual. Nuance help solve a lot of customer interaction challenges, but we just can’t stop the stupid calls.

Nuance's <Can't Stop Stupid Calls > Contest
흠... 양의 탈을 쓴 늑대같은 느낌이랄까. 사실은 콜센터에 근무하는 사람 수를 줄여서 예산을 낮출 수 있으면서도 표준화된 대화로 통화완성률을 높이겠다는 홍보자료를 배포하고 있으면서, 한쪽에서는 콜센터를 지원하는 회사인 것처럼 컨테스트를 열고 있는 거다. -_-a;;

게다가 이 공모전의 목적이라는 것도 사실 수상쩍다. 책임자의 공식적인 입장에 따르면 "누굴 바보 만들려는 게 아니고, 그냥 고객응대 담당자들이 자신의 이야기를 할 수 있는 장을 제공하려는 겁니다. 그리고 좀 재미있자는 거죠. 정말 그것 뿐입니다." 라고 엄청나게 부자연스럽게 말하고 있지만, 사실은 그게 더 수상하다. ㅎㅎ 갑자기 '없애고 싶은 대상인' 콜센터 자체를 지원하는 데에 관심이 생겼다기 보다, 자동화된 기계적인 대화로는 좀처럼 얻을 수 없는, 그야말로 상대방이 인간일 때만 가능한 야생의 대화를 수집하고 싶은 게 아닐까 싶다. 다른 이유라면 뉘앙스사에 대한 콜센터 직원들의 경계심이 좀 누그러질 거라는 생각이 아닐까? 공모전의 제목조차도 왠지 콜센터 직원들의 입장에서 이름지어 진 것 같고, 공모전을 통해 수여하는 3가지 상의 이름도 "You’ve Got to Be Kidding Me", "Sounds Like Fiction", "Vacation Day Earned" 라고 하니 뭐. ㅎㅎ
 
그래도 책임자의 말이 거짓말은 아닐테고, 사실 대화가 많이 수집될 거라고 생각되지도 않는다. 그래도 어떤 회사에서 저런 이벤트를 수행할 수 있는 여유가 있다는 것은 멋진 일이 아닌가! 게다가 Voice UI에 관심이 있는 사람으로서 그 결과가 궁금한 것도 사실이다. ... 결국 '사용자'인 '고객' 혹은 '전화 건 사람'을 "stupid"라고 하는 것에 대해선 좀 마음에 걸리지만.
신고
Posted by Stan1ey

일전에 모아서 올렸던 반자동화된 인간-시스템 대화와 동일한 서비스를, 영국에서도 광고하고 있는 걸 발견했다. 아마도 원래 이 동네에선 "118"로 전화하면 전화번호를 안내해 준 모양인데, 여기에서 새로 "118 118"로 전화를 하거나 문자로 질문을 남기면 그에 대한 답변을 문자로 보내주는 서비스를 시작했다.

118 118 - Now you can ask us anything

"Now you can ask us anything"이라는 메인 카피도 좀 세련미가 떨어지고, 내가 본 것도 그렇고 YouTube에 올라와 있는 TV 광고들도 하나같이 좀 "우스꽝"스럽다. ... 고작 며칠 간이긴 하지만, 이제까지 접한 이 나라의 대중문화라는 것은 그 키워드가 "우스꽝"이 아닐까 싶을 정도로 일관적을 성향을 보이고 있긴 하지만.



어쨌든 그래도 우리나라의 '엠톡언니'처럼 묘하게 여성화된 서비스가 아니라, 118(=114) 서비스의 확장된 버전으로 서비스하고 있다는 차이점을 가진 서비스다. 아직 휴대폰이 없어서 - 현지에 있음에도 불구하고 - 써보지 못한 채로 소개하는 게 좀 아쉽지만, 그래도 일단 최대한 빨리 뭔가 올리고 싶은 마음에 하나. ㅎㅎ

신고
Posted by Stan1ey

Conversation Works.

2008.07.17 05:52

Conversation Works. 이건 지금은 인터넷 한 구석에 숨어있는, 내가 1999년 말 혹은 2000년 초에 만들었던 홈페이지의 제목이다. 대화형 에이전트 conversational agent 와 대화 모델링 dialogue modeling 이라는 것을 어깨 너머로나마 접하고나서, 그리고 한창 음성인식/음성합성과 Microsoft Agent 를 이용한 대화형 사용자 인터페이스 작업을 하고 있던 참이라, 요거 참 새롭다 싶어서 당시 빠져있던 JavaScript로 구현해 본 거였다. ^^*

Conversation Works Homepage

[○] 엽기적인 광경을 좋아한다면...





이 홈페이지를 만들 때에도 물론 그랬고, 지금까지도 '인간의 대화'라는 것은 내가 끼고 사는 가장 큰 화두 중의 하나다.

태초(?)에 GUI가 있었을 때에는 "대화창 dialog pop-up"이 나와 과연 삭제를 할 것인가 말 것인가 하는 철학적인 질문에 대해 아주 단편적인 - Yes or No - 답변을 강요하던 시절도 있었지만, 이제는 음성인식이나 합성 기술의 발달로 인해 인간의 말을 문자로 바꾸고 문자를 말로 바꿀 수 있게 됐고, 자연어 처리 기술(NLP; natual language processing)이 발달함에 따라 문자로 입력된 말(단어, 문장, 문단, ...)의 구조와 약간의 의미를 알 수 있게 되었다. 즉 기계와 음성으로 대화를 한다는 것이 아주 불가능하지는 않게 된 거다.

하지만 그건 사실 위 홈페이지를 만들었던 1999년에도 10년째 가능했던 기술이고, 그 기술적 수준이 또다시 10년간 많이 발전했음에도 불구하고 상용화를 목표로 한다면 아직 멀고도 먼 갈 길이 남아있는 기술이다. (이 말은 1~2년 내로 '비겁한 변명'이 될 소지가 크다 ;ㅁ; )
HAL from <2001: A Space Odyssey>
1968년 영화 <2001: A Space Odyssey>에서 시작된, 인간과 기계가 방대한 상식과 주제를 가지고 자유로운 음성대화를 한다는 것은 40년이 지난 지금도 연구실에서 제한된 목적과 방법으로 이루어지는 데모의 수준에 그치고 있다. 물론 몇가지 음성대화형 시스템이 상용화되고 있기는 하지만, 이것들은 대체로 태초의 dialog box 에서 보여준 UI와 크게 다르지 않게 느껴질 정도로 단순하고 제한된 (음성) 입출력만을 가능케 하고 있다. 현재로선 기술의 발전이 더디거나 한 것이 아니라, 그야말로 방대하고 변화무쌍한 다양성을 갖는 인간의 음성과 언어를 처리하기 위한 높은 사양의 컴퓨팅 환경이 나타나기를 기다리고 있는 것에 가깝다고 한다. 어쩌면 앞서 말한 음성대화형 시스템들이 제한한 범위 하에서라도 등장하기 시작한다는 것이 그 희망적인 전조일지도 모르겠다.


그런데, 사실 인간과 시스템이 의사소통하는 방법에는 버튼을 클릭하는 것과 음성으로 대화하는 것 사이에도 수많은 대안들이 있다. 이를테면 음성이 아닌 '문자'로 대화하는 방법이 있을 수 있으며, 시스템은 꼭 엄청나게 똑똑할 필요 없이 '사람들'이 그 역할의 일부를 대신해도 된다. 최근에, 그런 사례가 몇가지 보여서 모아봤다. 미국의 사례는 David Pogue의 최근 NY Times 컬럼과 블로그(6월 5일자 및 7월 10일자)에서 얻은 정보를 추가했다.


(1) Google Voice Search (GOOG-411)
GOOG-411, Google's Voice (Phone Book) Search

구글 정도의 검색능력을 갖춘 곳에서 음성검색을 한다면, 우선은 등골이 서늘한 느낌이 든다. "이거 이럼 더 할 일이 없는 거 아닌가..."하고 말이다. 하지만 다행히도(?), 구글의 음성검색은 411 서비스, 즉 전화번호부 검색 서비스와 약간의 부가 서비스에 그치고 있다. 위의 웹페이지 이미지에 설명되어 있듯이, 이 서비스의 사용 시나리오는 다음 대화(Pogue 컬럼에서 인용)에 잘 나와있다.

Google: “GOOG411. What city and state?”
Caller: “New York, New York.”
Google: “New York, New York. What business name or category?”
Caller: “Empire State Building.”
Google: “Empire State Building! Searching. Top listing: Empire State Building on Fifth Avenue. I’ll connect you.”

즉, 지역 이름과 직종 분류를 거친 후에 나오는 결과 중에서 첫번째 아이템을 설명해주는 듯 하며, 결과가 여러 항목이 있을 경우라든가("다음, 다음, ..."), 음성인식 오류가 발생하는 경우에 대해서는 전혀 언급이 없다. 그래도 전화 연결 전에 "Details" 라고 명령해서 검색된 항목에 대한 자세한 정보 - 주소와 전화번호 - 를 확인할 수 있도록 한다던가, "Text message"라고 말해서 그 정보를 내 휴대폰에 SMS로 보낼 수 있는 기능이 있다던가 하는 것은 음성검색의 불안함 -_-;; 을 보완하는 훌륭한 부가 서비스라고 생각한다.

(사실 이 서비스에 대해서 가장 부러운 것은, Google에 voice researcher라는 사람이 일하고 있다는 거다. 물론 이 서비스 발표 후에 아무 업데이트가 없는 걸 보면 초큼 걱정도 되고 불안하기도 하고 그렇지만. ㅎㅎ )



(2) Yahoo oneSearch with Voice
Yahoo! oneSearch with Voice

Yahoo oneSearch Screen shot
모바일 기기에서 사용할 수 있도록 만들어진 Yahoo oneSearch는 인터넷에 접속된 휴대폰이나 PDA에서 검색어를 입력하면 작은 화면에서도 검색결과를 간편하게 확인할 수 있도록 설계된 서비스이다. (사실 2000년쯤에 이런 서비스의 구조와 운영에 대한 BM 특허를 준비한 적이 있었는데, 제대로 된 첨단기술이 들어가지 않는다는 이유로 ;ㅁ; 기각된 적이 있었다. 쩝... 이제 와서 보면 좀 아쉽게 됐다. ㅎ )

Yahoo! oneSearch with Voice - Task Flow
(그러고보니 인식을 시작하는 방식도 내 VUI 특허 중 하나와 동일하다 -_- )

이러한 oneSearch의 앞단에 서버 기반 음성인식기를 넣은 것이 "oneSearch with Voice"라는 서비스다. 서버 기반 음성인식이므로 네트워크 비용이나 컴퓨팅 노력은 많이 들지만, 휴대기기에 embed 되어 있는 버전보다 그만큼 월등한 인식범위와 성능을 가질 수 있다. David Pogue의 경험을 그대로 인용하자면 (난 이 사람의 사업적 중립성에 대해서는 안 믿기 때문에 -_- ), 음성인식이라는 기술이 태생적으로 절대 인식할 수 없는 경우, 즉 고유명사를 제외하고는 대부분 올바르게 음성 검색어를 인식하고 검색결과를 제시했다고 한다.

사실 이 경우는 대화라고 하기가 좀 그렇다. 사용자가 말하는 것은 딱이 사람에게 하듯이 제시하는 문장이 아니라 검색어 조합에 가깝고, 그에 대한 '응답'도 대화체가 아닌 검색결과를 나열화면이다. 하지만 사용자가 뭔가를 음성으로 요청할 수 있다는 것은, 여전히 이 시스템이 단순한 정보입출력 이상의 인터랙션을 취하고 있다고 생각하게 만든다.


(3) 심심이
Simsimi, dialogue learning 2.0

앞서서 간단하게 언급했던 대화 모델링의 기본은, 입력된 사용자의 대사에 적합한 응답을 시스템이 얼마나 잘 도출해 내느냐에 달려있다. 원칙적으로 하자면 상대방이 말한 말을 구문적으로는 물론 그 의미와 대화 맥락 상의 의도까지 이해한 후에, 일반적인 인간이 가지고 있는 방대한 사회적/자연과학적 상식과 해당 대화 주제에 대한 어느 정도의 지식을 바탕으로 응답을 도출하여 이를 올바른 문법적인 구조를 가진 문장으로 생성해내야 한다. ... 하지만 이건 이 길다란 문장 만큼이나 어려운 일이고, 실제로 최초의 성공적인 대화 시스템으로 꼽히는 MIT의 ELIZA는 물론 오늘날 매년 Turing Test에 도전하고 있는 대화 시스템들도, 그 주된 접근은 "상대방 대사의 대략의 구조에 대해서 미리 학습된 응답을 하는" 방식을 되도록 많이 모아서 사용하는 방식을 취한다. (인간은 그렇게 많은 대화경험을 언어적 구조를 파악함으로써 축약활용하지만, 컴퓨터는 그냥 엄청 방대한 DB를 운영함으로써 대신한다고 이해할 수 있겠다... 인간의 언어학습에 대한 이야기는 그냥 대충 넘어가기로 하고... ㅡ_ㅡ;; )

Teaching dialogue pairs to Simsimi
말이 다른 쪽으로 엄청 길어졌지만, (인터넷을 검색해보니) 2003년부터 그 흔적을 찾아볼 수 있는 "심심이"는 바로 이런 대사-응답 쌍의 학습을 인터넷을 통해서 공개적으로 수행하는 방식으로 많은 관심을 끌었다. 처음에는 MSN 메신저의 자동대화 시스템이었다가, 2006년 후부터는 휴대폰 문자메시지 SMS를 통한 사업모델을 찾아서 오늘날까지 이어오고 있다. 특히 "이모/삼촌들이 심심이에게 말을 가르쳐주세요"라는 컨셉은 참 서비스의 본질을 적절하게 녹인 마케팅 방법이었다고 생각한다.

당연히 서비스가 오픈되지마자 불거진 사용자들의 오용 - 음담패설이나 욕설을 심심이에게 "가르치거나" 하는 - 을 막기 위해서, 현재의 심심이 사이트는 잘못된 대사-응답 쌍을 판단하게 하는 "재판소" 시스템을 만들어, 대화 학습은 물론 그 moderation까지도 네티즌에 의해 이루어지도록 하고 있다. 게다가 최근 시작한 듯한 "대화하기 2-1" 이라는 게임스러운 서비스는 아무래도 ESP Game의 아이디어를 따온 듯 한데, 아무래도 회원가입이 안 되니 확인할 길이 없다. ^^;;

Dialogue Training Game for Simsimi
Image Tagging Game (ESP Game)


심심이는 작게 시작해서 참 끈질기게도 (ㅈㅅ) 명맥을 유지하고 있는 서비스인 동시에, 개인적으로는 매우 훌륭한 '공개적 대화시스템 구축 사례'라고 생각한다.


(4) ChaCha
ChaCha, Human-powered Search Engine
ChaCha at its BETA
원래 "human-powered search engine" 이라는 이름으로 베타서비스를 시작했던 "차차"라는 서비스는, 이제 모바일 서비스 중심으로 방향을 바꾼 것 같다. 검색을 전문으로 하는 많은 사람들을 연결해서 사용자가 원하는 답을 준다는 점은 처음의 취지와 같지만, 초창기 채팅을 통해서 원하는 검색 내용을 확인한 후 정확한 검색 결과 하나를 제시하겠다는 것과 달리 SMS 문자메시지로 받은 질문에 대한 검색결과를 SMS로 답해주는 방식으로 모바일 시장을 겨냥하고 있다. (물론 PC 앞에 앉아있는 사람들은 자신이 직접 검색하는 편이 더 직성이 풀릴테니까, 굳이 채팅을 하고 시간을 보내야 할 필요가 없겠다.)

How ChaCha Works... or Fails.
결국 이 서비스는 대화의 입출력도 인공지능도 사람이 대신하는 셈인데, 그러다보니 불성실한 응답자도 있는 모양이다. 운영사에서는 질문 하나에 답하는 데 20센트씩을 제공한다고 하는데, 대답의 만족도를 평가할 수 있는 (돈이 들지 않는) 방법이 주어지지 않는다면 장기적인 서비스는 곤란할 듯 하다.


(5) 엠톡
mTalk, Human-powered Dialogue Service

최근에 출퇴근 버스에 광고를 실으면서 내 관심의 대상이 된 "엠톡" 서비스는, 앞서 말한 ChaCha와 같은 개념의 서비스라고 할 수 있겠다. 광고의 내용만 보자면 "아무거나 물어보면 아무거나 대답해준다"는 컨셉은 그대로인 것 같지만, 사실 응답해주는 대상을 이렇게 헐벗은 젊은 여성으로 상정하고 있는 걸 보면 솔직히 성인전화방 대화 서비스의 사업확장으로 생각하고 있는 건 아닌지 심히 우려가 된다.
Print Ad of mTalk, in the Bus
Print Ad of mTalk, in the Bus


그게 이 "인공지능 대체 기술"의 한국적 사업모델이라면 어쩔 수 없겠지만, -_-;; 그래도 기왕이면 ChaCha의 그것처럼 네이버 지식인을 언제 어디서나 찾아서 요약해서 보내드립니다~라든가 하는 정보 서비스의 탈을 써주면 안 되겠니?


(6) Jott
Jott.com, a dictation service

이 영단어는 참 민망스런 발음 때문에 자주 쓰이지 않아서 다행이다 싶었는데, "Jott"이라는 서비스가 대놓고 시작하는 바람에 좀 자주 보게 될지도 모르겠다. ;ㅁ;

문자입력이 얼마나 어려운지는 몰라도, 이 서비스는 그걸 대신해줌으로써 인생을 쉽게 만들어준다는 게 모토인 듯 하다. 사용법에 대해서는 저어기 맨 위의 David Pogue의 컬럼에 붙은 동영상에서 잘 보여주고 있지만, 전화를 걸어 메모해 두고 싶은 내용이나 보내고 싶은 메시지를 말하면, 저쪽에서 그 내용을 누군가 받아적어서 텍스트 메시지나 이메일 등으로 보내준다는 컨셉이다. (아마 그 받아적는 누군가는 인도에나 필리핀에 앉아있을지도 모른다)

Jott: “Who do you want to Jott?”
Caller: “Myself.”
Jott: “Jott yourself.”
Caller: “Great idea for Act 2! Doing the laundry, Minna finds lipstick on her husband’s collar and sues the detergent company.”

Jott for iPhone -_-;;;
이 서비스는 특히 iPhone을 위한 전용 프로그램까지 제공하고 있는데, 이 경우엔 녹음 메시지를 데이터 통신망으로 보내고 받아 적어져서 돌아온 내용을 관리하는 기능까지 포함하고 있다.

직접 노트를 적거나 메시지를 쓰지 않고, 전화요금을 써가면서 다른 사람(기계나 시스템으로 치부한다 쳐도)에게 받아적게 한다는 것은 왠지 쉽게 이해가지 않는 사업모델이지만, 중세 유럽에서 편지나 책을 받아적는 직업이 존재했다거나 특별한 상황에서는 문자입력이 쉽지 않을 수 있다거나 하는 걸 생각해 보면 (아주 좁지만) 나름의 니즈는 있을 것 같기도 하다.


(7) ReQall
ReQall, dictating reminder service
이외에도  David Pogue의 컬럼에서는 "ReQall"이라는, "Jott"와 거의 동일하지만 알림 시간이 포함된 reminder 중심의 서비스도 언급되고 있다. 하지만 ReQall이나 Jott이나 대화라기보다는 일반적인 내용 전달과 받아적기 dictation 에 대한 것이므로 사실 내 관심사인 "대화"의 개념과는 다소 거리가 있다. 그러니 그냥 링크만 걸어놓고 통과. (아, 그런데 ReQall도 iPhone application을 제공한다! 이 방식인 사용자로 하여금 전화요금 부담을 덜 느끼게 한다고 생각하는 듯.)



... 언제나 그렇지만, 이렇게 모아놓고 정리하다보니 또 제풀에 지쳐버렸다. 그래서 급 마무리. ㅡ_ㅡ;;; 어차피 최근에 자꾸 눈에 밟히는 서비스가 자꾸 쌓여서, 한데 모아놓고 싶었을 뿐이다. (먼산 '-')y~oO
신고
Posted by Stan1ey
'Haptic Consumer' article on tabloid
마케팅하는 분들한테 볼멘소리를 하는 김에, 마침 오늘(글쓰기 시작한 날짜 기준이니, 지난 20일이다) 아침에 무가지 'metro'에 실린 광고성 기사에 대해서도 한마디 하게 됐다. (여하튼 한번 뭔가 심통이 나면 계속 관련된 게 눈에 밟힌다니깐...)


음성인식을 연구하는 조직에 (물론, 다른 훌륭한 HCI 기술들도 함께) 들어가게 되면서 들었던 이야기 중에, 과거 "본부" 폰의 실패에 대한 언급이 자주 있었다.


TV Ads of Samsung's first speech recognition cell phone (SCH-370)

이 모델(SCH-370)에서 사용된 음성인식 기술은 모든 음성인식 대상 단어(주소록 상의 이름)들에 대해서 각각 발화자의 음성을 수차례 학습시키는 방식으로, 오늘날 음성인식의 가장 기초적인 단계인 "음운분석" 조차도 들어가 있지 않은 단순한 음향패턴 매칭 기술이라고 볼 수 있다. 사용자가 몇번 발성한 "홍길동"이라는 음향과 나중에 발성한 음향을 나란히 비교해서, 두 음향이 비슷한 정도를 가지고 그 음향이 "홍길동"인지 아닌지를 파악하는 것이다. 따라서 다른 사람이 "홍길동"이라고 해도 거의 인식되지 않으며, 굳이 나눈다면 소위 "화자의존 speaker dependent 방식"의 음성인식기에 해당할 것이다.

이 휴대폰 상에서의 최초의 음성인식은 그래도 전례가 없고 상상력을 자극하는 기능이었기 때문에, 나름대로 많은 이야깃꺼리가 되었던 기억이 난다. 이 휴대폰을 소재로 한 한때의 우스갯소리 중에는 지하철 안에서 스님이 휴대폰을 붙잡고 "절!, 절!" 하더라는 이야기도 있었고(음성명령이 짧으면 비교할 정보 자체가 짧으므로 인식률이 더 떨어진다), "개○끼!" 라고 하고나서 "예, 부장님..." 하는 월급쟁이의 비애에 대한 이야기도 나온 적이 있다. (등록된 이름을 바탕으로 한 음운분석을 하는 것이 아니라 아무 음성명령이나 학습시킬 수 있었기에 가능한 사용 사례이다)

문제는 사용자들이 음성 단어를 등록하고 엔진을 훈련시키는 순간의 환경소음과, 실제로 사용할 때의 환경소음이 당연히 다르기 때문에, 실제로 사용하려고 하면 인식이 잘 되지 않는 경우가 비일비재 했다. 게다가 휴대폰 자체의 정보처리 성능이나 마이크의 설계가 지금보다 나빴던 시절이니 인식률은 말 그대로 운에 맡겨야 하는 수준이었다고 한다. 물론 그렇게 제한된 하드웨어 상에서 최선의 결과를 낼 수 있는 방법으로 단순 음향매칭 음성인식기를 사용했지만, SF 영화를 제외하고는 최초로 접하는 음성인식 기능임에도 불구하고 사용자의 평가는 엄정했다.

  "음성인식이요... 전에 본부폰 써 봤는데요, 잘 안 되던데요?"

... Voice UI에 대한 FGI나 다른 사용자 조사를 하면서, 혹은 심지어 사내에서 음성인식 기능의 필요성을 주장하면서, 저 이야기를 얼마나 많이 들었는지 모른다. 음성인식이라고 하면 무조건 "본부폰"을 떠올리기 때문에, 음성인식 기술이 그때보다는 훨씬 좋아졌다고 해봐야 영 믿지를 않더라는 거다. 게다가 당연히 100%에 못미치는 음성인식기가 오류를 내면, "이것 보세요~" 하면서 음성인식에 대한 확정적인 불신을 갖게 되는 모습을 자주 목격하게 되었다.

본부폰 SCH-370 ... 이 모델은 최초의 음성인식 적용 휴대폰으로 역사에 남을지 모르겠지만, Voice UI의 대표적인 실패사례로서 음성인식기술이 다시 적용되기까지 더 많은 시간이 필요하게 만든 장본인이고, 결국 다시 적용되었을 때에조차도 완전하게 복권되어 당당한 대표기능이 아닌 한 구석에 숨겨진 기능으로 들어가게 만든 원흉이라고 본다.

아직 기술적으로 완전히 준비되지 않았음에도 불구하고, "본부폰"은 훌륭한 마케팅으로 제법 주목을 받은 사례이다. 하지만, 바로 그 예상되었던 기술적인 불완전성으로 인해서, 이후에 그 기술이 보다 완성된 후에 그 잠재적인 성장을 고사시킨 가슴 아픈 사례이기도 하다. 예전에 언급했던 첨단 기술의 Hype Curve Model에 비유하자면, 시장의 기대에 비해 턱없이 부족한 기술을 마케팅으로 채워서 물건을 파는 데까지는 성공했으나, 결국 기대에 미치지 못해 "환멸의 골 trough of disillusionment"을 더욱 깊게 했다고 말할 수 있겠다.


쓰다보니 글이 길어졌다. 아무래도 VUI가 나오니 -_-a;;
하려고 했던 말(;;;;;)은 다음 글에 계속 쓰자.
신고
Posted by Stan1ey

몇년 전부터 MS와 Ford가 꾸준히 개발하고 있는 차량 운전자용 음성인식 시스템, SYNC의 시승기(?)이다. 리뷰의 내용은 음성인식의 인식성능에 초점을 맞추고 있어서 일반 영어발음과 한국식, 일본식 영어발음 -_- 도 인식이 된다는 것을 매우 긍정적으로 표현하고 있다. 그외에는 SYNC를 통해서 다른 사람과 전화를 한다든가, 다른 기능들을 나열하고 있는데, 솔직히 뭘 할 수 있는가에 대한 것은 내겐 좀 질린 이야기다. 그냥 스크랩하는 기분으로 최근에 올라온 동영상을 링크.



Voice UI 좀 하려고 했었던 -_- 입장에서 보면, 이 동영상에서 보여주는 VUI는 일반적인 VUI Design Guideline을 잘 따랐으나, 일부 부족한 부분이 있다. 동영상 중의 VUI 대화 사례를 보면 다음 몇가지 "좋은 설계"를 확인할 수 있다.

1. 시작할 때, 메뉴 상의 현재 위치를 알림(orientation)
    - "Main Menu"

2. 사용자 발화를 반복해서 확인(echoing)
    - "Audio System"

3. 인식정확률이 낮으면 재확인
    - 사용자: "사토라이또 라지오!"
    - 시스템: "Satellite Radio: is that correct?"

4. Sound Prompt의 일관된 사용
    - (Ding!)

5. Navigation과 Function의 부드러운 연결
    - 시스템: "USB. Please say your command."

하지만, 다음 몇가지 "나쁜 설계"는 조금 아쉽다. 뭔가 사정이 있었는지는 모르겠지만, 조금 더 수정했더라면 더 낫지 않았을까.

1. Navigation이 depth를 갖는다.
    - "Main Menu" >> "Audio System" >> "User Device"
    = 음성인식의 가장 큰 장점 (겸 단점) 중 하나가 depth 무시하고
      바로 해당 기능으로 들어갈 수 있다는 것인데, 왜 주된 사용방식으로
      3단계 씩이나 되는 위계구조를 넣었는지 모르겠다. 이제 기껏해야
      수십개의 기능 명령을 가지고 인식률이 떨어질 고민을 하거나 그러는
      시대는 지났을 텐데...

2. Echoing 원칙이 무시되는 경우가 있다.
    - 사용자: "User Device"
    - 시스템: "USB"
    = 이러면 안 되지~! 이를테면 "User Device, is, USB" 라고 해야
      사용자가 안 놀라고 계속 사용할 수 있을 거 아니냐고.

3. Sound Prompt와 Confirmation Earcon이 조금 유사하다.
    - Sound Prompt: (Ding!)
    - Confirmation Earcon: (Drring~)
    = 뭐 충분한 비교실험을 거쳤겠지만, 그래도 소음이 많은 상황에서 너무
      비슷한 음향을 사용한 거 아닐까?

4. Sound Prompt의 끄트머리가 살짝 길다.
    = 저러다가 사용자 발화가 sound prompt 끄트머리를 밟을 수 있겠다.

그냥... 요새 Voice UI를 물어오는 전화를 받고 있는데다가, 마침 동호회 게시판에 또 이런 게 뜨길래 한번 보면서 이것저것 되새김질 해 봤다. 이제 슬슬...ㅎㅎ

동호회 게시판 링크
원래 글 링크



리뷰의 말미에, "IT 강국인 우리나라에서 왜 이런 시스템을 개발해 내지 못했는가?" 라며 우리나라 기업의 창의성과 철학에 대한 아쉬움을 매우 강하게 내비치고 있는데, 참 이제 뭐라 할말도 없고 그냥 편안~하다.

신고
Posted by Stan1ey
재미있는 회사가 있다. 자주 가는 (거의 상주하지만) 동호회에 올라온 뉴스를 따라서 들어갔다가 알게 된 "이지인터페이스 EZ interface"라는 회사인데, 음성인식 기술을 독창적으로 개발한 사례가 상당히 돋보인다.

음성인식 기술이라고는 하지만, 사실 이 회사가 가지고 있는 특허 "음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생 장치 및 그 방법"은 엄밀히 말해서 음성인식의 최초 전처리, 즉 입력된 음향(audio) 중에서 음성(voice)이 존재하는지 여부를 판정해서 구간을 정의하는(end point detecton) 과정만을 사용하고 있다. 문제는 이 방식을 기가 막히게 적합한 어플리케이션 - 라디오 방송에서 음악 부분을 찾아내서 저장하는 - 에 적용하는 생각을 했다는 것이다.

회사 웹사이트에 올라와 있는 설명과 위의 특허 청구항에 따르면, 이 기술은 라디오(물론, TV 음성이라고 안 되는 건 아닐 것이다) 방송 중 음성 부분을 제외하고 음악 구간을 인식해서 미리 녹음하고 있다가, 사용자가 '녹음' 버튼을 눌렀을 때 해당 음악을 파일로 저장해 주는 내용이다. 즉 듣고 있는 음악이 좋아서 '녹음'을 누르면 자신의 MP3 Player에서 들을 수 있는 거다.

EZ-R: How to grab a music

얼핏 생각하면, 두가지 의문이 떠오를 수 있다.

우선은 "라디오에서 음악을 녹음한다니, 너무 구태의연한 '테이프 시대' 발상이 아닐까?" 라는 말이 나오는 건 자연스러운 일일 거다. 실제로 나도 소시적에는 라디오에서 나오는 음악을 녹음해 모아놓은 오디오 테이프를 십여개나 가지고 있었지만, 요즘은 그거 녹음할 시간에 인터넷 P2P에서 검색하는 게 훨씬 빠르고, 품질도 좋다고 생각한다. 하지만 우리가 P2P에서 다운 받을 수 있는 녹화된 TV 방송이나 MP3 음악 파일들은 사실 디지털 방송이나 디지털 매체에서 복사된 것이다. 디지털 방송의 잠재력까지 고려한다면, 방송에서 음악을 '다운로드'한다는 건 의외로 많은 문제를 해결할 수 있는 - 개인 감상을 위한 것으로 제한한다면 저작권 문제 없고, 음악 구하기 쉬우므로 사용자도 좋고, 라디오 시청율을 통한 광고수입이 있으므로 돈은 결국 방송국과 음악의 저작권자들에게 흘러갈꺼고 - 좋은 방법일 수 있다.

두번째 의문은, "음악과 멘트를 구분하는 게 음성인식기술이었나?" 라는 건데, 물론 "본부!"라든가 "키트! 빨리와!" 같은 음성명령을 인식하는 것과는 사뭇 차이가 있어 보이는 게 사실이다. 하지만 음성인식기술은 많은 요소기술들의 조합인데, 사실 그 하나하나도 상당 수준의 인공지능을 구현한 것이며, 나름의 쓸모를 찾아보면 괜찮은 어플리케이션이 나올 수 있다.
Nintendo DS - Touch Catch Youshi
  이를테면 닌텐도의 NDS 게임기에서는 마이크에서 들어오는 소리가 어떤 음역에서 들려오는가를 봐서 음성인지 아닌지를 판단하고 있는데, 이걸 반대로 '전 음역에서 소리가 균등하게 들어오는지'를 판단해서 마이크를 입으로 부는 것을 인식하는 데 사용하고 있다. 이를 이용해서 게임에서는 화면 상의 구름이나 낙엽 등을 불어 날리거나, 비누방울을 부는 조작이 가능해졌으며, 독창적이면서도 매력적인 플레이를 제공하는 데에 큰 역할을 하고 있다.

따라서 이 새로운 기술 - EZ-R - 도 음성인식 요소기술을 적절히 활용하여 "음성인지 아닌지", 혹은 "음성 외의 음향이 얼마나 포함되어 있는지"를 판단함으로써 훌륭한 기능(음악만 녹음해 두는)을 구현한 사례라고 생각한다.


물론 모든 다른 인식 기술과 마찬가지로, 이 방식도 실용적으로는 적잖은 문제점을 가지고 있을 것이다. 이를테면 요즘 음악들은 워낙 구성이 다양해서, 음성과 음성 외 음향의 비중은 그야말로 천차만별이다. 즉 노래 앞이나 뒤, 혹은 노래 중에 랩이나 나레이션을 하는 경우에는 왠만해선 음악 구간을 잡는 데에 오류가 있을 수 밖에 없을 것이다.
   또한, 방송의 진행자 역시 남녀노소 다양한 목소리 톤을 가지고 있으며, 개성이 강한 진행자일수록 일반적인 음성대역(100∼5000 Hz 라고들 한다)의 끄트머리를 오가는 발성을 하곤 한다. 그런 진행자를 좀더 포괄하려고 하면 할수록, 음성영역과 음악영역을 구분할 때의 오류는 심해질 것이다.
   인식 기술 상의 오류 외에도, 예전에 테이프로 음악을 녹음해 모아본 사람은 누구나 알고 있듯이, 방송이라는 것이 음성과 음악을 정확히 구분할 수 있도록 제공되지 않는다는 것도, 근본적으로 이 서비스를 어렵게 하는 부분이 될 것이다.

하지만 이 모든 단점에도 불구하고, 2002년 기술 개발 및 특허출원에서부터 시작해서 필요한 기술을 필요한 만큼 찾아내서 훌륭한 적용사례를 만들어 주었다는 점에서, 이 회사에게는 감사와 박수를 보내고 싶다.
신고
Posted by Stan1ey

BLOG main image
by Stan1ey

카테고리

분류 전체보기 (347)
HTI in General (45)
User eXperience (11)
Voice UI (50)
Vision UI (14)
Gesture UI (25)
Tangible UI (28)
Robot UI (14)
Public UI (9)
Virtuality & Fun (56)
Visual Language (15)
sCRAP (70)

글 보관함



www.flickr.com
This is a Flickr badge showing public photos and videos from Stan1ey. Make your own badge here.