ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 음성인식 (speech recognition) 기술의 종류
    언어공학 (Language Science)/음성언어처리 (Spoken Language Processing) 2020. 3. 14. 01:08
    반응형

     

    2016년, 이세돌 9단과 알파고의 대국이 세계의 이목을 끌면서 인공지능(A.I.)에 대한 관심도 급증하게 되었습니다. 여러가지 경우의 수를 생각해야 하는 바둑에서 컴퓨터는 비로소 인간을 이기게 되었고 이는 인류에게 큰 충격을 주었습니다. 또한 단순한 충격을 넘어서 인류의 미래에 대한 걱정까지 안겨주었습니다.

     

    사실 인공지능에 대한 연구는 그 이전부터 계속되었지만 뛰어난 성능을 보여주지는 못했죠. 하지만 딥러닝(deep learning)에 대한 연구가 진행되면서 인공지능은 엄청난 발전을 이루게 되었습니다.

     

    인공지능에는 여러가지 분야들이 있습니다. 대표적으로 자율주행, 자동통번역 등을 꼽을 수 있겠군요.

    오늘은 그 중에서도 음성인식 기술에는 어떤 것들이 있는지 살펴보도록 하겠습니다.

     

     

    음성인식 (speech recognition)

     

    음성인식은 말 그대로 사람의 발화를 인식하는 것을 의미합니다. 잘 설계된 모델일수록 발화를 잘 인식해내겠죠. 음성인식 모델의 성능은 단어 오류율 (word error rate)로 판단을 합니다. 2012년만 해도 오류율을 15~20% 정도였지만 현재는 오류울이 5% 이내로 사람에 맞먹는 성능을 보여주고 있습니다. 

     

    음성인식의 하위분야에는 정말 다양한 주제들이 있습니다. 요즘 매우 핫한 종단간 음성인식 (end to end speech recognition)은 음성으로부터 바로 결과를 내도록 모델을 간소하게 만들었고 모델링을 하는데 있어서 필요한 전문지식을 최소화하였습니다. 또한 잡음(noise)이 섞인 상황에서도 음성인식이 잘 될 수 있도록 연구가 진행되고 있으며 표준어가 아닌 지역방언(accent)이 섞인 발화에 대한 음성인식 연구도 하나의 주제로 뽑을 수 있겠습니다. 

     

    이외에도 여러가지 주제들이 있지만 늘어놓다 보면 끝이 없기 때문에 오늘은 간단히 소개드리고 나중에 speech recognition에 대해서만 더욱 깊이 살펴보도록 하겠습니다.

     

    화자인식 (speaker recognition)

     

    화자인식 분야는 크게 화자식별 (speaker identification)과 화자인증 (speaker verification)으로 나뉠 수 있습니다.

     

    - 화자식별: 미리 등록된 데이터베이스를 기반으로 현재 입력되고 있는 발화가 어느 화자의 발화인지를 알아내는 작업입니다. 예를 들어 화자식별 기술을 이용하여 자동 회의록 작성 프로그램을 만들 수가 있습니다.

     

    - 화자인증: 입력으로 들어오는 발화가 등록 화자인지 아니면 사칭자인지를 판단합니다. 지문, 홍채 뿐만 아니라 음성도 개인의 고유한 특성으로 여겨지는데 음성을 이용하여 제한 구역에 출입을 한다든가 핸드폰의 잠금을 풀 수도 있겠습니다. 이 때, 화자인증 기술은 현재 입력되는 음성을 등록 화자의 음성으로 인식할 경우 승인을 해주고 사칭자로 인식할 경우 거부하게 되겠습니다.

     

    언어식별 (language identification)

     

    현재 입력으로 들어오는 발화가 어느 언어인지를 알아내는 작업입니다. 예를들어 어디선가 들었던 단어가 어떤 언어인지를 알아낼 수도 있으며 뿐만 아니라 자동 번역을 할 때 입력 음성이 어떤 언어인지를 빠르게 판단하고 번역을 진행할 수 있습니다.

     

    감정인식 (emotion recognition)

     

    화자의 발화를 인식하여 화자의 감정이 현재 어떤 상태인지를 알아냅니다. 컴퓨터가 사람의 감정을 인식하는 것은 정말 어려운 일이라고 할 수 있겠습니다. 아쉽게도 현재 감정을 인식하는 작업은 그렇게 좋은 성능을 보이지는 않고 있습니다. 따라서 감정인식은 활발히 연구되고 있는 분야이기도 합니다. 만약 컴퓨터가 화자의 감정을 완전하게 인식한다면 영화 '그녀 (her)' 처럼 사람이 컴퓨터에게 위로를 받고 또한 사랑에 빠지게 되는 상황이 다가올 수도 있습니다. 

     

    음성 전처리 (speech preprocessing)

     

    음성 전처리를 잘 하는것도 매우 중요한 일입니다. 전처리가 잘 된 음성데이터를 사용한다면 좋은 성능을 내는 모델을 만들 수 있는 가능성이 높아지기 때문이지요. 전처리 작업 중 하나인 음성구간검출 (voice activity detection)은 음성이 아닌 구간은 제외시키고 음성인 구간만을 뽑아내는 작업을 의미합니다. 또한 음성 강화 (speech enhancement)는 음성신호를 명료하게 만들어 주어 후에 작업을 하기 편리하게 만들어줍니다.

     

    컴퓨터 기반 언어교육 (computer assisted language learning)

     

    음성기술을 언어교육과도 접목시킬 수가 있습니다. 그 중에서도 컴퓨터를 이용하여 학습자의 발음훈련 (computer aided pronunciation training)을 진행할 수 있습니다. 컴퓨터를 이용한 발음교육은 크게 세가지 스텝으로 진행이 됩니다.

     

    (1) 자동발음평가 (automatic pronunciation scoring): 학습자의 발화를 인식하여 학습자가 어느정도의 수준을 가지고 있는지를 자동으로 평가합니다.

     

    (2) 오류 검출 (error detection): 학습자의 발화를 인식하여 어느 부분에서 오류가 발생하였는지를 알려줍니다.

     

    (3) 오류 진단 (error diagnosis): 오류가 발생한 부분을 어떻게 교정해야할지를 알려줍니다.

     

    이러한 음성기술은 토플 (TOEFL)과 같은 공인영어시험에 적용될 수 있겠습니다

     

     

    사실 지금까지 소개드린 기술 이외에도 음성기술에 관한 주제들은 많습니다. 오늘은 그 중에서도 많이 연구되는 기술들을 빠르게 살펴보았는데요. 도움이 되셨으면 좋겠습니다!ㅎㅎ.

    다음에 더 좋은 주제로 찾아뵙도록 하겠습니다. 감사합니다.

     

    반응형

    댓글

Designed by Tistory.