728x90
๋ฐ˜์‘ํ˜•

MPD 1

[ ํฌ์Šคํ… ์ธ๊ณต์ง€๋Šฅ์—ฐ๊ตฌ์› ์—ฐ๊ตฌ์ธํ„ด ] HiFi-GAN ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ / Vocoder ๊ฐœ๋… ์„ค๋ช… ๋ฐ ์ •๋ฆฌ

Vocoder ๋ฐฐ๊ฒฝ์ง€์‹ : Mel-spectrogram ๋„ฃ์œผ๋ฉด Wave ๋งŒ๋“œ๋Š” ์นœ๊ตฌ → ๊ณต๋ถ€ํ•˜์ž BACKGROUND ํ•ฉ์„ฑ์Œ ์Œ์งˆ์„ ๊ฒฐ์ •ํ•˜๋Š” ์š”์†Œ (Neural Speech Synthesis ๊ด€์ ) ์ฃผ์–ด์ง„ ํ…์ŠคํŠธ๋กœ ๋ฉœ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ƒ์„ฑํ•ด ๋‚ผ ์ˆ˜ ์žˆ๋Š”๊ฐ€ ๋ฉœ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ์œผ๋กœ๋ถ€ํ„ฐ ์Œ์„ฑ์˜ ํŒŒํ˜•์„ ์–ผ๋งˆ๋‚˜ ์„ ๋ช…ํ•˜๊ฒŒ ํ•ฉ์„ฑํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€ → Vocoder ๐Ÿ’ก Audio → Mel-spectrogram 1. audio๋ฅผ ์ฃผํŒŒ์ˆ˜ ์˜์—ญ์—์„œ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด STFT ์ˆ˜ํ–‰, ์ฃผํŒŒ์ˆ˜ ์„ฑ๋ถ„ ํŠน์ง•์ ์„ ์ถ”์ถœํ•œ๋‹ค. 2. ๊ทธ ์ค‘ ํฌ๊ธฐ ์„ฑ๋ถ„์— ํ•ด๋‹นํ•˜๋Š” magnitude ๊ฐ’์„ ์ด์šฉํ•ด Mel-filterbank ์ ์šฉํ•œ๋‹ค. 3. ์ด๋ฅผ Mel-scale๋กœ ๋ณ€ํ™˜์‹œ์ผœ Mel-spectrogram์„ ์–ป๋Š”๋‹ค. ์œ„์™€ ๊ฐ™์€ ๊ณผ์ •์œผ๋กœ ๋ฉœ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ์„ ..

728x90
๋ฐ˜์‘ํ˜•