음성인식
- 개요: 입력된 음성을 단어열 혹은 문장으로 바꿔주는 기술로, 스마트폰이나 AI 스피커, 자율주행 자동차 등으로 인해 입력 도구로의 비중이 매우 커짐
- 연구: 고수준의 신경망 기반 음성인식 시스템, 종단간 (End-to-end) 음성인식, 딥 러닝 기반 원거리/잡음 음성 개선(향상) 및 음성구간 검출, 재귀신경망 및 임베딩 벡터 기반 언어모델링 등
음성합성
- 개요: 입력된 문장을 음성으로 바꿔주는 기술로, 최근 필요성이 증대된 데 비해 자연스럽게 들리는 합성음을 만드는 기술적 난이도가 높음
- 연구: LSTM seq2seq 기반 연속적 감정 표현 음성합성, 특정 화자의 음색/운율 모방 합성음, 종단간 음성합성 시스템, 문장 불일치 음원에 대한 음색변환, DNN 운율 모델 응용 가창 음원 합성 등
화자인식
- 개요: 크게는 등록된 화자 중 누구인지 구분하는 기술 (화자식별)과 인증 화자의 진위여부를 확인하고 유사도를 수치화하는 기술 (화자검증)으로 나뉨
- 연구: 딥 러닝 기반 임베딩 통한 화자검증, 키워드/호출방향 인식과 통합된 화자식별, 화자인식용 임베딩에 기반한 음성인식 시스템의 성능향상 등
기타 음성/음향 처리 관련 연구
- 위험상황 감지 : 고효율 신경망 모델을 통해 비정상적 상황임을 인식. CCTV 사각을 보완하는 데 응용
- 음성감정인식 : 딥러닝 기반 화자인식 시스템을 응용해 화자 감정상태 추적
- 마비말장애 음성인식 : 비장애인과 다른 음소특징을 반영하는 것에 특화된 딥러닝 기반 모델 설계