스마트 스피커 등의 voice agent의 등장으로 인해 음성 인터페이스의 중요도가 점점 커지고 있음
먼저 1) 화자를 인식하여 voice agent를 wake하고, 2) 음성을 입력으로 받아 디바이스를 제어하고,
명령을 실행한 결과 또한 3) 음성 합성을 통해 출력됨
이 과정과 관렫된 주요 task로는 크게 세가지가 있음
Sound 분야에서는 Speech Classification과 Auto-tagging이 있고,
Speech 분야에서는 음성인식(STT), 음성합성(TTS), 음성변환(STS) 등이 있음
dcase라는 챌린지의 task 중 하나로 Acoustic Scene Classification이 있음
다양한 device로부터 소리가 입력으로 주어질 때, 어떤 장소인지를 예측하는 문제
사용자가 위치하고 있는 장소 및 맥락을 이용하여 알맞은 서비스를 제공하는 데 활용될 수 있음