- This repository is an official implemtation of Advancing Sound Event Detection: Knowledge Distillation Applied to CRNN Models
- 참고: 구글드라이브링크
- AudioSet(Strong)https://github.com/black-mold/carcrash-sed-mivia/blob/main/README.md
- AUDIOSET-Temporally-Strong Labels: 데이터 많음, 라벨 품질 안좋음
- DESED
- DCASE-task4: 데이터 많음, 가정 내 발생하는 오디오가 target, 라벨 품질 좋음
- 참고:
- DCASE Challenge의 경우 label이 없는 데이터도 활용하여 학습하는 semi-supervised learning이 baseline임. 여기는 supervised learning만 구현됨.
- [FDY-CRNN]_(https://github.com/frednam93/FDY-SED): SOTA
- pre-trained weight를 사용할 것을 권장
- CRNN: 대충 만든 것 <- 사용 금지(대충 만듬)
- binary cross entropy
- 여기서는 util.py에 구현
- 참고자료: Metrics for Polyphonic Sound Event Detection
- 참고그림
- MIVIA 데이터셋을 다운받아서
data/mivia_raw
에 놓기
# supervised learning
CUDA_VISIBLE_DEVICES=0 python main.py --config ./configs/mivia_server.yaml --mode train
- (참고)
# Knowledge distillation
CUDA_VISIBLE_DEVICES=0 python main_kd.py --config ./configs/mivia_kd.yaml --mode train
CUDA_VISIBLE_DEVICES=0 python main.py --config ./configs/mivia_server.yaml --mode test