Vocoder ๋ฐฐ๊ฒฝ์ง์ : Mel-spectrogram ๋ฃ์ผ๋ฉด Wave ๋ง๋๋ ์น๊ตฌ → ๊ณต๋ถํ์ BACKGROUND ํฉ์ฑ์ ์์ง์ ๊ฒฐ์ ํ๋ ์์ (Neural Speech Synthesis ๊ด์ ) ์ฃผ์ด์ง ํ ์คํธ๋ก ๋ฉ ์คํํธ๋ก๊ทธ๋จ์ ์ผ๋ง๋ ์ ์์ฑํด ๋ผ ์ ์๋๊ฐ ๋ฉ ์คํํธ๋ก๊ทธ๋จ์ผ๋ก๋ถํฐ ์์ฑ์ ํํ์ ์ผ๋ง๋ ์ ๋ช ํ๊ฒ ํฉ์ฑํ ์ ์๋๊ฐ → Vocoder ๐ก Audio → Mel-spectrogram 1. audio๋ฅผ ์ฃผํ์ ์์ญ์์ ๋ถ์ํ๊ธฐ ์ํด STFT ์ํ, ์ฃผํ์ ์ฑ๋ถ ํน์ง์ ์ ์ถ์ถํ๋ค. 2. ๊ทธ ์ค ํฌ๊ธฐ ์ฑ๋ถ์ ํด๋นํ๋ magnitude ๊ฐ์ ์ด์ฉํด Mel-filterbank ์ ์ฉํ๋ค. 3. ์ด๋ฅผ Mel-scale๋ก ๋ณํ์์ผ Mel-spectrogram์ ์ป๋๋ค. ์์ ๊ฐ์ ๊ณผ์ ์ผ๋ก ๋ฉ์คํํธ๋ก๊ทธ๋จ์ ..