
기존의 키보드, 마우스, 터치스크린 등에 비해서 사람과 사람 사이의 의사소통 방식인 대화를 자연스럽게 구현해 낼 수 있는 음성 대화 인터페이스는 분명 매력적이다. 그러나 음성 대화 처리 기술은 대표적인 High-risk high-return의 기술로, 성공할 경우 매력적이기는 하지만 어느 정도 충분한 수준에 도달하기 전까지는 많은 사용자들의 호응을 얻지 못할 수도 있다. 음성 대화 시스템이 사용자에게 친근하게 다가가기에 충분한 신뢰도를 확보하고, 다양한 사용자들이 제각각 이야기하는 방식을 적절하게 받아들이고 처리하기 위해서는 아직도 많은 연구가 필요하지만 이 기술이 제대로 무르익어 실생활에 파고든다면 그 파급효과는 실로 어마어마할 것이라 기대된다.
이 때문에 애플, 구글, 마이크로소프트, IBM 등 세계 최고의 IT 기업들이 심혈을 기울여 음성 및 자연어 처리 기술 개발에 투자하고 있다.
그러나 고유의 언어를 사용하는 민족으로서 한국어 음성/자연어 인터페이스를 개발하고 발전시키는 책임은 국내 연구진에 있다. 국내에서 이러한 부분에 대한 투자가 없다면 한국어의 처리 기술은 상대적으로 외국에 의존·종속적이 될 가능성이 있기 때문에 이 분야에 대한 지속적이고 광범위한 투자가 시급하다고 할 수 있다.
터치 인터페이스를 대체할 음성 변화 인터페이스
최근 대두되고 있는 스마트폰, 스마트 TV를 위시한 각종 스마트 가전들은 다양한 기능을 제공하며 터치스크린을 적극적으로 활용한 인터페이스를 도입함으로써 많은 사용자들에게 호응을 얻고 있다. 하지만 이러한 터치 인터페이스의 편리함도 어느 순간 한계를 드러낼 것은 자명하다. 이근배 교수는 이를 대체 또는 보조할 수 있는 수단으로 사람의 말을 이용하는 음성 대화 인터페이스를 지목하였다. 지금까지 시험적으로나마 상용화된 음성 인터페이스는 구글의 음성 검색 등과 같이 사람이 말한 내용을 그대로 텍스트로 옮겨 주는 원초적인 것이었다. 이에 덧붙여 기계가 언어의 의미를 분석하여 사용자의 말을 자연스럽게 알아듣고 응답하여, 궁극적으로는 대화를 만들어내는 기술이 바로 음성 대화 시스템이라 할 수 있다. 이러한 기술의 상용화에 첫 발을 디딘 사례로 최근 애플이 발표한 Siri를 들 수 있다.
포스텍 지능소프트웨어 연구실은 이러한 음성 대화 시스템에 관해서는 세계 최고의 기술을 보유하고 있다. 현재 상용화 되어 선보인 대화 시스템은 제한적으로 단문을 이해하고 짧은 대화를 주고받을 수 있는 수준의 기술을 적용하고 있다. 이 교수는 “우리 연구실에서 그동안 해온 고도의 대화처리 시스템의 관심사는 이미 이러한 수준을 넘어 더 길고 복잡한 대화를 처리하는 방법, 여러 가지 주제가 뒤섞인 대화를 이어나가는 방법, 음성과 함께 다른 제스처를 조합하여 의도를 해석하는 방법, 시스템이 사용자의 말을 제대로 알아듣지 못했을 때 반응하는 방법 등을 연구하고 있다”고 밝혔다. 이러한 기능들이 구현된 초기 버전의 소프트웨어들의 시연은 유투브에서 iSoft Postech을 검색하여 확인할 수 있다.
몰입형 영어교육과 영어 자동 평가/피드백 시스템

몰입형 영어 게임이란 학생이 컴퓨터에 구현된 가상의 캐릭터와 자연스럽게 대화를 주고받으며 영어를 익혀나가는 게임이다. 기존의 일반적인 게임 상에서 구현된 가상 캐릭터는 게이머가 다가가면 미리 정해진 응답을 내놓는 고정적이고, 수동적인 캐릭터였지만 여기에 대화 시스템을 결합시킴으로써 사용자의 말에 따라 다양하게 반응하며 실제로 대화하는 느낌을 주고, 문법에 어긋나거나 대화의 흐름에 부합하지 않는 말을 하는 경우에는 이를 정정해 줌으로써 대화를 이끌어 나가며 과제를 부여한다. 이 교수는 “흔히 학창시절 해봤음직한 상상인 ‘놀면서 공부하기’를 실현시킬 수 있는 재미있는 발상이다”며 몰입형 영어 게임에 대한 자부심을 드러냈다.
이 교수는 “음성 인터페이스의 또 다른 응용으로서, 앞으로 실시될 국가 영어시험(NEAT)이나 TOEFL 등의 채점에 발음, 운율, 문법 등의 항목을 자동으로 평가해서 틀린 곳을 고쳐주는 교육용 소프트웨어인 영어 자동 평가/피드백 시스템을 개발하고 있다”고 밝혔다. 최근 들어 말하기 능력에 대한 평가가 국가적으로 매우 중요하게 떠오르고 있다. 말하기 능력을 평가하기 위한 답안은 실제 사람의 목소리를 녹음한 파일이므로 기존의 객관식 시험과 같이 채점·평가할 수 없어서 많은 채점자들이 분량을 나누어 채점하는 방식을 택하고 있다.
또한 이 같은 시험에 대비하고 연습하기 위해서는 채점자들에 상응하는 전문가들의 도움이 필요하고 이러한 수요는 곧 사교육 경쟁을 불러일으키는 원인이 될 수 있다. 이 교수는 “음성 처리 기술을 응용하면 말하기의 연습과 실력 평가의 과정이 자동화됨으로써 많은 비용을 절감할 수 있고, 컴퓨터를 사용할 수 있는 모든 학생들이 실제 시험과 동일한 환경에서 자신의 실력을 평가받고 문제점을 개선할 수 있게 된다”고 피력했다. 이러한 연유로 음성 평가 기술이 교육의 형평성을 높이는 데에도 크게 기여할 것이라 기대된다.
“애플의 Siri나 구글의 음성 검색 능가 하겠다”
이 교수는 “현재에 만족하지 않고 우리가 가지고 있는 기술을 더욱 확장시키고 발전시켜서, 애플의 Siri나 구글의 음성 검색 등을 능가하는 자연어 인터페이스를 실제 생활에 파고들도록 만드는 것이 목표”라고 강조하며 “국내․외 유수의 기업들과 연계하여 스마트 폰, 스마트 TV, 내비게이션, 로봇 등은 물론, 궁극적으로 모든 플랫폼에 대해서 음성 대화 인터페이스를 보급하여 국내 소프트웨어의 경쟁력을 강화하고 스마트 기기를 사용하는 모든 사용자들에게 혁신적인 사용자 경험을 제공할 수 있도록 노력 하겠다”고 피력했다. 이번 포스텍 지능소프트웨어 연구실에서 연구 중인 대한민국 영어교육을 획기적으로 바꾸어 놓을 수 있는 방법, 즉 몰입형 영어교육과 영어 자동 평가/피드백 시스템이 전국 학교에 공급되어, 다가오는 글로벌 시대에 세계로 비상하는 대한민국을 만들어가는 초석이 되길 기대해 본다.
