5월 12일, 13일에 걸쳐 제주도로 가족여행을 다녀와서 또 다시 바로 짐을 쌌다.
1월 말부터 아카데미 기간 내내 간다만다 했었던 포항을 수료 후 연구인턴 신분으로 가게
되었다. 근무지는 포항공과대학교 인공지능대학원 연구부. 처음 맞이한 주말에 대전으로
친구를 만나러 가느라 이제서야 기록하게 되었다. 또 마침 처음으로 해야할 일이 없다..
글을 쓰는 오늘은 5월 26일 목요일. 5월16일, 그러니까 지난주 월요일이 첫 출근이었다.
아카데미 같은 반원들도 있었지만 다른 반원들도 있었는데 줌으로 얼굴을 한번씩 봐서
그런지 익숙한 얼굴들이었다. 계약서부터 쓰고, 너도나도?? 아이스 브레이킹 게임도 하고,
그 결과로 선발된 황반장님, 보고 계시죠 ~~ :)
여차저차 업무 분담과 자리 배정까지 오전중에 촥촥 진행되었다. 9명의 연구인턴은
크게 A팀과 B팀, 각 팀 내에서 또 같은 업무를 맡는 두 명이 한 팀이 되어 연구를 진행한다.
아, 예외도 있다. (힘내렴.. ^^ ㅠ) 나는 아카데미 우리반이었던, 1조 조장이었던 형과 같은
팀이 되어 '블랙박스 영상 내 흔들림 탐지'라는 컴퓨터 비전 냄새가 훌훌 나는 업무를 맡았다.
업무배정을 받고 학생회관으로 밥을 먹으러 갔던것 같다. 학식 가격이라고 믿을수 없는
가격에, 그 가격 음식이라고도 믿을수 없는 치킨마요덮밥을 그냥저냥 먹고 나왔는데
학교는 참 예뻤다. 저때만 날씨가 좋았거니 했는데 포항에 도착해서 지금까지 날씨가
안좋았던 적이 없다. 비 오는 걸 매우 좋아하는 나에게는 그냥저냥.
그래도 꾸리꾸리보다는 좋다.
다시 연구로 돌아와서,, 사수 연구원님께서 지금까지 시도하셨던 5가지 방법론들을 정리한
내용들을 보고 해당 내용을 개선시켜도 좋고, 새로운 방법을 서치 및 코드까지 돌려봐도
좋다고 하셨다. (내 업무 만족도의 가장 큰 이유는 사수 연구원님이다 ㅎ) 그렇게 처음
찾아본 방법부터 이번주 초까지 총 6가지 정도 방법론을 시도했고, 원하는 결과를 얻어
오늘 오전에 연구개발계획서에 짧게나마 들어갈 내용을 정리하여 드렸다. 뿌-듯-
1. Future Frame Prediction for Anomaly Detection
가장 처음 알아본 방법은 사실 뺑소니 접촉사고 탐지를 위한 모델은 아니고, Anomaly
Detection에 속하는 방법론이었다. 사수님이 강조하셨던 문제정의부터 시작했다.
문제정의
- 접촉사고는 매우 짧은 시간안에 발생하므로 흔들림을 감지할 수 있는 프레임이 적다.
- 사고 순간의 몇몇 프레임으로 물피도주 판단을 내려야 함
- 후면충돌, 측면충돌 등 접촉사고는 그 양상이 다양하다.
- Application 측면에서 이를 Classification Task로 다루기에는 한계점이 분명
- 라벨링 데이터가 존재하지 않는다.
- Unsupervised Learning은 활용할 수 있다.
-> 사고 전후의 몇몇 프레임 사이의 변화를 Detection 근거로 삼자.
Liu_Future_Frame_Prediction_CVPR_2018_paper.pdf
이 논문은 CVPR 2018 발표 논문으로 당시 인용 수가 532회였던 논문이다.
논문의 핵심이자 해당 연구에서 처음으로 시도된 것이 두 가지가 있다.
1. first work that leverages the difference between
a predicted future frame and its ground truth to detect an abnormal event
-> 예상되는 다음 프레임과 ground truth의 차이로 abnormal event를 탐지한다.
2. first work that introduces a temporal constraint into the video prediction.
-> normal event의 다음 프레임 예측을 위해 흔히 사용되는 spatial constraint 외에
temporal constraint를 적용하였다.
방법론
- normal training data의 future frame을 잘 예측할 수 있도록 predictor를 학습시킨다
- testing phase에서 예측되는 프레임과 들어오는 다음 프레임의 일치 정도를 측정한다
- U-Net predictor 활용
- GT 영상의 intensity, gradient maps과 예측 영상의 것들이 유사하도록 constraint
- GT 영상의 optical flow와 예측 영상의 것이 유사하도록 constraint
- GAN으로 Video Generation
Video Frame Prediction
- t 프레임까지 모든 프레임들을 stack하여 t+1 프레임을 예측한다
- 예측 프레임을 GT 프레임과 유사하게 만들기 위해 intensity와 gradient로
그 distance를 minimize - 예측 프레임과 GT 프레임의 temporal coherence를 보존하기 위해
t+1번째 프레임과 t번째 GT 프레임의 optical flow와
t+1 예측 프레임과 t번째 GT 프레임의 optical flow에 constraint
정도의 정리만 마치고 오후 4시 정도에 첫 미팅에 들어갔고, 방법론 자체는 괜찮고 필요한
일반 상황 블랙박스 영상 역시 구할 수 있으나 예측되는 프레임과 들어오는 다음 프레임의
일치정도를 어떻게 정의할 것인지에 대한 문제와 그 미세한 흔들림을 Anomaly Detection
방법으로 찾아낼 수 있을지에 대한 문제를 지적해주셨다. 조금 더 공부를 해봤다.
PSNR, 최대 신호 잡음 비율이라고 해석되는 개념인데 무슨 개념인지 전혀 감이 안온다.
주로 생성 혹은 압축된 영상 화질의 손실 정보를 평가하는 척도로 손실이 크면 MSE가
크고, MSE가 크면 로그의 진수가 작아지니 PSNR 값도 작아진다. 따라서 PSNR 값이
크다면 손실이 작았다는 것이고, 생성된 프레임과 GT 사이의 차이가 적었다는 것이다.
이미 잘 학습된 Generator는 들어간 영상의 다음 프레임을 Normal Event에 가깝게
생성할 것이다. 하지만 들어간 영상에 Abnormal Event가 발생했다면 GT 역할을
하는 해당 프레임과 생성된 Normal Event에 가까운 프레임 사이의 MSE가 클 것이고,
PSNR은 작아질 것이다. 위에 하이라이트 된 문장과 일맥상통함을 알 수 있다.
높은 PSNR은 normal event에 가까움을 의미한다.
우선은 또 다른 방법론을 찾아보기로 하여 다음으로 넘어갔다.
아직 기록할 방법론이 5가지나 더 있다 ~ 퇴근하기 전까지 두 개 더 기록해야지.
물론 추가 업무가 주어지지 않는다면 ^ㅡㅡ^
'대외활동 > 포스텍 인공지능연구원 연구인턴 & 연장' 카테고리의 다른 글
[ 포스텍 인공지능연구원 연구인턴 ]Voice Conversion 개념 및 MaskCycleGAN-VC 논문 리뷰 (0) | 2022.06.06 |
---|---|
[ 포스텍 인공지능연구원 연구인턴 ]GAN 개념과 관련 논문 정리 (0) | 2022.06.05 |
[ 포스텍 인공지능연구원 연구인턴 ]Attention Is all You Need 논문 리뷰와 설명 (0) | 2022.06.03 |
[ 포스텍 인공지능연구원 연구인턴 ] Acoustic Feature, MelGAN 논문 정리 및 코드 실습 (0) | 2022.06.02 |
[ 포스텍 인공지능연구원 연구인턴 ] 블랙박스 영상 내 흔들림 탐지 (0) | 2022.05.26 |