마케팅하는 분들한테 볼멘소리를 하는 김에, 마침 오늘(글쓰기 시작한 날짜 기준이니, 지난 20일이다) 아침에 무가지 'metro'에 실린 광고성 기사에 대해서도 한마디 하게 됐다. (여하튼 한번 뭔가 심통이 나면 계속 관련된 게 눈에 밟힌다니깐...)
음성인식을 연구하는 조직에 (물론, 다른 훌륭한 HCI 기술들도 함께) 들어가게 되면서 들었던 이야기 중에, 과거 "본부" 폰의 실패에 대한 언급이 자주 있었다.
이 모델(SCH-370)에서 사용된 음성인식 기술은 모든 음성인식 대상 단어(주소록 상의 이름)들에 대해서 각각 발화자의 음성을 수차례 학습시키는 방식으로, 오늘날 음성인식의 가장 기초적인 단계인 "음운분석" 조차도 들어가 있지 않은 단순한 음향패턴 매칭 기술이라고 볼 수 있다. 사용자가 몇번 발성한 "홍길동"이라는 음향과 나중에 발성한 음향을 나란히 비교해서, 두 음향이 비슷한 정도를 가지고 그 음향이 "홍길동"인지 아닌지를 파악하는 것이다. 따라서 다른 사람이 "홍길동"이라고 해도 거의 인식되지 않으며, 굳이 나눈다면 소위 "화자의존 speaker dependent 방식"의 음성인식기에 해당할 것이다.
이 휴대폰 상에서의 최초의 음성인식은 그래도 전례가 없고 상상력을 자극하는 기능이었기 때문에, 나름대로 많은 이야깃꺼리가 되었던 기억이 난다. 이 휴대폰을 소재로 한 한때의 우스갯소리 중에는 지하철 안에서 스님이 휴대폰을 붙잡고 "절!, 절!" 하더라는 이야기도 있었고(음성명령이 짧으면 비교할 정보 자체가 짧으므로 인식률이 더 떨어진다), "개○끼!" 라고 하고나서 "예, 부장님..." 하는 월급쟁이의 비애에 대한 이야기도 나온 적이 있다. (등록된 이름을 바탕으로 한 음운분석을 하는 것이 아니라 아무 음성명령이나 학습시킬 수 있었기에 가능한 사용 사례이다)
문제는 사용자들이 음성 단어를 등록하고 엔진을 훈련시키는 순간의 환경소음과, 실제로 사용할 때의 환경소음이 당연히 다르기 때문에, 실제로 사용하려고 하면 인식이 잘 되지 않는 경우가 비일비재 했다. 게다가 휴대폰 자체의 정보처리 성능이나 마이크의 설계가 지금보다 나빴던 시절이니 인식률은 말 그대로 운에 맡겨야 하는 수준이었다고 한다. 물론 그렇게 제한된 하드웨어 상에서 최선의 결과를 낼 수 있는 방법으로 단순 음향매칭 음성인식기를 사용했지만, SF 영화를 제외하고는 최초로 접하는 음성인식 기능임에도 불구하고 사용자의 평가는 엄정했다.
"음성인식이요... 전에 본부폰 써 봤는데요, 잘 안 되던데요?"
... Voice UI에 대한 FGI나 다른 사용자 조사를 하면서, 혹은 심지어 사내에서 음성인식 기능의 필요성을 주장하면서, 저 이야기를 얼마나 많이 들었는지 모른다. 음성인식이라고 하면 무조건 "본부폰"을 떠올리기 때문에, 음성인식 기술이 그때보다는 훨씬 좋아졌다고 해봐야 영 믿지를 않더라는 거다. 게다가 당연히 100%에 못미치는 음성인식기가 오류를 내면, "이것 보세요~" 하면서 음성인식에 대한 확정적인 불신을 갖게 되는 모습을 자주 목격하게 되었다.
본부폰 SCH-370 ... 이 모델은 최초의 음성인식 적용 휴대폰으로 역사에 남을지 모르겠지만, Voice UI의 대표적인 실패사례로서 음성인식기술이 다시 적용되기까지 더 많은 시간이 필요하게 만든 장본인이고, 결국 다시 적용되었을 때에조차도 완전하게 복권되어 당당한 대표기능이 아닌 한 구석에 숨겨진 기능으로 들어가게 만든 원흉이라고 본다.
아직 기술적으로 완전히 준비되지 않았음에도 불구하고, "본부폰"은 훌륭한 마케팅으로 제법 주목을 받은 사례이다. 하지만, 바로 그 예상되었던 기술적인 불완전성으로 인해서, 이후에 그 기술이 보다 완성된 후에 그 잠재적인 성장을 고사시킨 가슴 아픈 사례이기도 하다. 예전에 언급했던 첨단 기술의 Hype Curve Model에 비유하자면, 시장의 기대에 비해 턱없이 부족한 기술을 마케팅으로 채워서 물건을 파는 데까지는 성공했으나, 결국 기대에 미치지 못해 "환멸의 골 trough of disillusionment"을 더욱 깊게 했다고 말할 수 있겠다.
쓰다보니 글이 길어졌다. 아무래도 VUI가 나오니 -_-a;;
하려고 했던 말(;;;;;)은 다음 글에 계속 쓰자.
음성인식을 연구하는 조직에 (물론, 다른 훌륭한 HCI 기술들도 함께) 들어가게 되면서 들었던 이야기 중에, 과거 "본부" 폰의 실패에 대한 언급이 자주 있었다.
이 모델(SCH-370)에서 사용된 음성인식 기술은 모든 음성인식 대상 단어(주소록 상의 이름)들에 대해서 각각 발화자의 음성을 수차례 학습시키는 방식으로, 오늘날 음성인식의 가장 기초적인 단계인 "음운분석" 조차도 들어가 있지 않은 단순한 음향패턴 매칭 기술이라고 볼 수 있다. 사용자가 몇번 발성한 "홍길동"이라는 음향과 나중에 발성한 음향을 나란히 비교해서, 두 음향이 비슷한 정도를 가지고 그 음향이 "홍길동"인지 아닌지를 파악하는 것이다. 따라서 다른 사람이 "홍길동"이라고 해도 거의 인식되지 않으며, 굳이 나눈다면 소위 "화자의존 speaker dependent 방식"의 음성인식기에 해당할 것이다.
이 휴대폰 상에서의 최초의 음성인식은 그래도 전례가 없고 상상력을 자극하는 기능이었기 때문에, 나름대로 많은 이야깃꺼리가 되었던 기억이 난다. 이 휴대폰을 소재로 한 한때의 우스갯소리 중에는 지하철 안에서 스님이 휴대폰을 붙잡고 "절!, 절!" 하더라는 이야기도 있었고(음성명령이 짧으면 비교할 정보 자체가 짧으므로 인식률이 더 떨어진다), "개○끼!" 라고 하고나서 "예, 부장님..." 하는 월급쟁이의 비애에 대한 이야기도 나온 적이 있다. (등록된 이름을 바탕으로 한 음운분석을 하는 것이 아니라 아무 음성명령이나 학습시킬 수 있었기에 가능한 사용 사례이다)
문제는 사용자들이 음성 단어를 등록하고 엔진을 훈련시키는 순간의 환경소음과, 실제로 사용할 때의 환경소음이 당연히 다르기 때문에, 실제로 사용하려고 하면 인식이 잘 되지 않는 경우가 비일비재 했다. 게다가 휴대폰 자체의 정보처리 성능이나 마이크의 설계가 지금보다 나빴던 시절이니 인식률은 말 그대로 운에 맡겨야 하는 수준이었다고 한다. 물론 그렇게 제한된 하드웨어 상에서 최선의 결과를 낼 수 있는 방법으로 단순 음향매칭 음성인식기를 사용했지만, SF 영화를 제외하고는 최초로 접하는 음성인식 기능임에도 불구하고 사용자의 평가는 엄정했다.
"음성인식이요... 전에 본부폰 써 봤는데요, 잘 안 되던데요?"
... Voice UI에 대한 FGI나 다른 사용자 조사를 하면서, 혹은 심지어 사내에서 음성인식 기능의 필요성을 주장하면서, 저 이야기를 얼마나 많이 들었는지 모른다. 음성인식이라고 하면 무조건 "본부폰"을 떠올리기 때문에, 음성인식 기술이 그때보다는 훨씬 좋아졌다고 해봐야 영 믿지를 않더라는 거다. 게다가 당연히 100%에 못미치는 음성인식기가 오류를 내면, "이것 보세요~" 하면서 음성인식에 대한 확정적인 불신을 갖게 되는 모습을 자주 목격하게 되었다.
본부폰 SCH-370 ... 이 모델은 최초의 음성인식 적용 휴대폰으로 역사에 남을지 모르겠지만, Voice UI의 대표적인 실패사례로서 음성인식기술이 다시 적용되기까지 더 많은 시간이 필요하게 만든 장본인이고, 결국 다시 적용되었을 때에조차도 완전하게 복권되어 당당한 대표기능이 아닌 한 구석에 숨겨진 기능으로 들어가게 만든 원흉이라고 본다.
아직 기술적으로 완전히 준비되지 않았음에도 불구하고, "본부폰"은 훌륭한 마케팅으로 제법 주목을 받은 사례이다. 하지만, 바로 그 예상되었던 기술적인 불완전성으로 인해서, 이후에 그 기술이 보다 완성된 후에 그 잠재적인 성장을 고사시킨 가슴 아픈 사례이기도 하다. 예전에 언급했던 첨단 기술의 Hype Curve Model에 비유하자면, 시장의 기대에 비해 턱없이 부족한 기술을 마케팅으로 채워서 물건을 파는 데까지는 성공했으나, 결국 기대에 미치지 못해 "환멸의 골 trough of disillusionment"을 더욱 깊게 했다고 말할 수 있겠다.
쓰다보니 글이 길어졌다. 아무래도 VUI가 나오니 -_-a;;
하려고 했던 말(;;;;;)은 다음 글에 계속 쓰자.
반응형