본문 바로가기
Visual Language

시각언어 학습과 이해에 대한 신경망 관점의 고찰

by Stan1ey 2006. 12. 12.
이것은 대학에서 관련 강의를 듣고 기말고사로 제출한 글이다. 앉은 자리에서 3시간동안 손으로 써내려간 글이니만큼 짜임새가 있거나 내용에 깊이가 있을리 없다. (나의 신경망에 대한 전문성이 무식에 가까운 것을 생각해보면 분명히 그렇다) 그럼에도 불구하고 굳이 이 글을 올려두는 이유는, 내가 스스로 자주 읽어보면서 반성하고 다른 아이디어들과 함께 짜맞추기 위해서이다. (2007.1.9.)



시각언어의 학습과 이해에 대한 신경망 관점의 고찰

인간이 어떤 매체를 통해 시각적 자극을 접하고 그 의미를 파악하는 것이 일종의 커뮤니케이션 활동이라고 한다면, 이에 사용된 내용인 시각 자극은 '언어'라고 불리는 범주에 들어가며, 즉 '시각 언어'라고 불릴 수 있을 것이다.

시각언어는 기존의 일반적인 '언어'와는 많은 부분이 다른데, 시간축보다 공간축의 위상이 더 큰 의미를 갖는다거나, 언어의 구성이 음소나 의미의 표현보다 형태, 색상, 위치 등으로 훨씬 더 다차원적이라는 것 등이 대표적이다.

기존의 시각언어는 그래픽적인 작품으로서 일방향적으로 '작가'가 '관람자'에게 의미를 전달하는 데에 주안점을 두면 됐지만, 오늘날의 시각언어는 GUI로 대변되는 사용자 인터페이스의 주요 수단으로, 시각언어를 통해 주어진 의미를 사용자 - 관람자 - 가 제대로 파악하지 못할 경우 잘못된 사용자 반응(조작 오류)을 야기하여 경우에 따라서는 심각한 사고의 원인이 되기도 한다. (계기의 내용을 잘못 판단하여 벌어진 항공기 사고나 원자력 발전소의 누출위험 등이 그렇다.)

기존의 시각언어 생성은 설게자의 직관에 그 세부적인 판단과 의사 결정을 맡기고 사후평가를 통해 이를 검증 및 수정했으나, 이러한 방법으로는 많은 오류를 그 중요도와 관계없이 놓칠 수 있다는 것은 확률적으로 자명하다. 따라서 시각언어의 학습 및 이해에 대한 세부적인 원리 - 시각언어의 어휘, 문법 등 - 의 공통분모를 알 수 있다면 보다 논리적으로 구체적인 근거를 포함한 설계와 검증이 가능할 것이다.


신경망 연구는 인공지능과 달리 뇌의 동작원리에 대한 고찰에 근거한 여러 수준의 모델을 제시해 왔다. 지난 한 한기동안 나름대로는 큰 용기를 내어 알쏭달쏭한 수학 공식과 생서한 이 분야의 철학들과 싸우면서, 본인은 '시각언어'라는 연구주제에 대해서 다음과 같은 두가지 주제에 대한 해답을... 아니 힌트를 얻고자 했다.

  (1) 시각언어는 실제로, 다른 일반적인 언어(말, 글)와 그 동작원리나
       구조, 구성, 혹은 다른 특징을 공유하는가?

  (2) 시각언어의 학습과 이해를 일반적으로 설명할 수 있는 신경망 모델은
       존재하는가?


(1) 시각언어는 다른 언어와 구성원리를 공유하는가?

"'시각언어'가 '언어'인가?"라고 다시 이해할 수 있는 이 의문에 대해서, 적어도 본인이 이해한 범위 안에서는, 해답을 얻기보다 오히려 이는 신경망 연구의 일차적인 고려사항은 아니라는 생각이 들었다. 많은 신경망 모델은 일련의 학습을 통해 내재적 분류기준을 세우고, 이 기준(뉴런 간의 연결강도의 총체)이 어떤 입력을 분류해낼 때 의도한대로 맞게 동작하는지에 관심을 갖는다. 이는 심리학에서 말하는 '지각'이나 '재인' 혹은 '분류화'에 대한 것으로, 언어적 관심영역인 의미나 논리 영역에 대한 설명과는 거리가 있다.

그러나, "우선 언어가 뭔가?"라는 데에 생각이 미치면 얘기가 달라진다. 언어는 의미소와 그 연결방식에 대한 논리적 해석을 통해서 성립하며, 이 연결방식은 문자언어의 경우 <글자-단어-문장-맥락> 정도로 위계적인 체계를 갖고 있다. 또한 이 위계적인 체계는 그 구조 안에서 매우 유연함을 갖고 있으며, 따라서 어순, 강세, 사투리, 액센트 등의 변화에 매우 강인하다. (한국말을 갓배운 외국인과의 대화를 연상할 수 있다.)

신경망의 Neo-Cognitron 모델이 광학적 문자인식을 대표적인 사례로 제시하고 있으나, 그 다층적이고 위계적인 구조를 글자가 인식된 이후 크게 (아주 크게) 확장한다면 단어의 인식이나 문장의 구성을 인지하고 맥락 하에서의 의미를 파악하는 것 또한 Neo-Cognitron 모델로 설명할 수 있을 것이다. (물론 개념적이고 현 단계에서는 구현과 검증이 어렵겠다.) 그렇다면 이 모델은 '시각언어'와 '언어'의 공통적인 구성원리를 설명하는 모델이 아닐까?

여기에는 한가지 문제가 남는다. 그렇다면 - Neo-Cognitron 모델로 시각언어가 언어적 속성을 갖고 있다고 설명할 수 있다면 - 세상에 언어가 아니라고 말할 수 있는 인지활동이 과연 있겠느냐는 것이다. 이는 신경망의 (단층 Perceptron과 같이 단순한 모델을 제외한다면) 다층적 속성과 언어의 구조적 측면을 구분해서 볼 수 있는 새로운 신경망 모델을 필요로 하는 논의가 된다.


(2) 시각언어 활동을 설명할 수 있는 신경망 모델은 무엇인가?

시각언어의 학습과 이해는 한가지 신경망 모델로 설명되지 않으며, 이는 신경망 연구가 인간(또는 다른 생물)의 행동을 설명할 때 취하는 사례의 범주를 봐도 알 수 있다.

눈에 비친 물체의 외곽을 감지해서 구분해낼 수 있는 망막세포의 지각활동은, 측면억제를 통한 자기조직화 모델인 SOM의 사례를 통해 설명할 수 있을 것이다. 또한 색상을 구분하고 명명할 수 있으며 그 해상도에 개인차가 있는 것은 다층 Perceptron 이후 발현한 많은 모델들의 초기 학습값과 지역 최소값 구렴의 관계로 이해될 수 있다. 일단 분류 및 학습이 이루어진 경우라 할지라도 오랜 시간에 걸쳐 익숙해진(annealing) 경우 연상이 강해지는 것은 연상기억(associative memory)의 동작원리와 무관하지 않을 것이다.

즉, 시각언어의 학습과 이해에 있어서 지각-인지-기억-인출-이해 등의 각 단계는 마치 Neo-Cognitron의 여러 층처럼 구성되어 있으면서 그 층에 부여된 역할에 따라 다른 신경망 모델처럼과 같이 (혹은 몇개의 모델의 혼합처럼과 같이) 동작한다고 볼 수 있다.


그러나 이러한 비유적(?) 설명에서도 해결할 수 없는 하나의 문제는 시간 축에서의 신경망 활동에 대한 것이다. 신경망 연구의 모델들은 학습(종종 재학습 개념이 있는 ART와 같은 모델이 있기는 하지만)이 완료된 후의 분류 판정을 독립된 하나의 활동으로 정의하지만, 실제 인간의 활동에 있어서 학습이 충분히 완성되거나 분류 판정에 필요한 시간이 (그것필요한 시간이 매우 짧더라도) 충분히 주어지지 않는 경우가 많다.

시각언어의 이해를 통해 행위를 결정해야 하는 사용자 인터페이스 상황에서는 특히 부족한 인지자원과 시간만으로 이러한 판단을 해야하므로, 기존의 완성된 신경망 구조(및 연결강도)가 아닌 실시간으로 학습과 분류가 이루어지는 모델이 고안될 필요가 있다.

새로운 모델은 학습의 중간에 분류 판정이 이루어지거나 새로운 입력이 (의도적이든 아니든) 들어오는 경우를 포괄해야 하며, 그것이 신경계 개념적인 다층구조 중에서 어느 층에서든 이루어질 수 있도록 해야 한다. 이를 통해서 신경망 연구는 정적인 세상에 대한 학습과 판단이 아닌, 실제의 동적인 세상에서의 실시간 학습과 판단, 그리고 무엇보다도 인지활동 중의 외부자극에 의한 오류를 설명할 수 있게 되리라 생각한다.



... 여기까지다. 굳이 교수님께 답안지를 요청해서 적어봤지만, 이건 뭐 -_- 정말 내용이 없어도 이렇게 없었나 싶다. 게다가 뒤로 갈수록 악필에 오타(손으로 썼는데!)까지... 결국 몇개는 못 참고 고쳤다. 아무도 못 보게 구석에 잘 짱박아 둬야지.
반응형