728x90
반응형

대외활동/포스텍 인공지능연구원 연구인턴 & 연장 11

[ 포스텍 인공지능연구원 연구인턴 ] HiFi-GAN Reproducing 코드 구현

https://hae-koos.tistory.com/79 [ 포스텍 인공지능연구원 연구인턴 ] HiFi-GAN 논문 리뷰 / Vocoder 개념 설명 및 정리 [ 포스텍 인공지능연구원 연구인턴 ] HiFi-GAN 논문 리뷰 / Vocoder 개념 설명 및 정리 Vocoder 배경지식 : Mel-spectrogram 넣으면 Wave 만드는 친구 → 공부하자 BACKGROUND 합성음 음질을 결정하는 요소 (Neural Speech Synthesis 관점) 주어진 텍스트로 멜 스펙트로그램을 얼마나 잘 생성해 낼 수.. hae-koos.tistory.com https://github.com/jik876/hifi-gan [ Official Repository ] HiFi-GAN: Generative Advers..

[ 포스텍 인공지능연구원 연구인턴 ] HiFi-GAN 논문 리뷰 / Vocoder 개념 설명 및 정리

Vocoder 배경지식 : Mel-spectrogram 넣으면 Wave 만드는 친구 → 공부하자 BACKGROUND 합성음 음질을 결정하는 요소 (Neural Speech Synthesis 관점) 주어진 텍스트로 멜 스펙트로그램을 얼마나 잘 생성해 낼 수 있는가 멜 스펙트로그램으로부터 음성의 파형을 얼마나 선명하게 합성할 수 있는가 → Vocoder 💡 Audio → Mel-spectrogram 1. audio를 주파수 영역에서 분석하기 위해 STFT 수행, 주파수 성분 특징점을 추출한다. 2. 그 중 크기 성분에 해당하는 magnitude 값을 이용해 Mel-filterbank 적용한다. 3. 이를 Mel-scale로 변환시켜 Mel-spectrogram을 얻는다. 위와 같은 과정으로 멜스펙트로그램을 ..

[ 포스텍 인공지능연구원 연구인턴 ]AUTOVC 코드 리뷰 및 Reproducing

코드 파헤치기 🔥 make_spect.py : Generate spectrogram data from the wav files npy 형태로 melspectrogram이 생성됨 make_metadata.py : Generate speaker embeddings and metadata for training 위에서 만든 ./spmel 폴더에 train.pkl 생성 metadata.pkl 생성 main.py : Run the main training script & Converges when the reconstruction loss is around 0.0001 conversion.ipynb : Download pre-trained AUTOVC model and run it autovc.ckpt 로드하고,..

[ 포스텍 인공지능연구원 연구인턴 ]Attention Is all You Need 논문 리뷰와 설명

2017년 겨울에 나온 논문으로 NIPS에 등재된, 기계번역을 공부한다면 공부했을 논문이다. 학부생 인턴 때도 공부하려다가 어영부영 넘어갔던 논문,, 드디어 각 잡고 공부하여 정리했다. 입력 문장을 하나의 벡터로 압축하는 과정없이, RNN과 CNN 구조를 활용하지도 않고 오직 Attention 기법을 적용한 Encoder, Decoder를 반복하였다. 이를 통해 연산량을 줄이고, 성능 역시 개선시킨 Transformer에 대한 논문이다. 모델 아키텍처는 위 사진과 같다. 가장 먼저 좌측과 우측에 각각 N번씩 반복되는 인코더와 디코더 구조가 눈에 띈다. 그림에서도 확인할 수 있듯이 Transformer 구조의 핵심은 다음과 같이 정리된다. Positional Encoding Encoder Self-Att..

[ 포스텍 인공지능연구원 연구인턴 ] Acoustic Feature, MelGAN 논문 정리 및 코드 실습

Acoustic Feature Audio File Structure Channel : Mono(1) / Stereo(2) Length : 60s, 1m, 1h … Sampling Rate : 1초당 샘플의 빈도수 (44.1kHz - 1초에 샘플 수가 44,100개 들어있다.) Bit Depth : 음의 강도를 얼마나 세분화하여 표현할 것인지 (24 bit - 2^24개의 높낮이를 표현할 수 있다.) Bit Rate : 오디오로 전송되는 데이터의 양 (CHANNEL # x SAMPLING RATE x BIT DEPTH) import matplotlib.pyplot as plt from scipy.io import wavfile as wav fs, data = wav.read('./3sec.wav') pri..

[ 포스텍 인공지능연구원 연구인턴 ] 블랙박스 영상 내 흔들림 탐지

2. CNN Feature Map + MSE 현재 가지고 있는 데이터는 다양한 형태의 충돌 장면을 담은 블랙박스 영상으로 낮밤, 차종, 충돌정도, 충돌상황 등 상황이 다양했다. 이에 사수 연구원님의 Approach에도 MSE를 활용하여 t번째 프레임과 t+1번째 프레임의 차이가 커지는 순간을 충돌로 판단하는 방법론이 대부분이었다. 여기에 전처리를 어떻게 하는냐의 차이. 가장 성능이 좋은 알고리즘이 Canny Edge Detection을 활용한 방법론이었고, 나는 CNN을 통해 얻은 Feature Map에 이를 적용하면 어떨까 싶어 시도하기로 했다. 문제정의부터 - ! 문제정의 '흔들림'을 판단하는 영상학적 근거가 무엇일까 이전 프레임과의 차이를 봐야하는 것은 변함이 없을것. 다만, 몇개의 프레임을 기준..

728x90
반응형