Whisper Fine-Tuning Project

Whisper Fine-Tuning on Danish Speech Data

This project focuses on fine-tuning OpenAI’s Whisper model on Danish speech data and evaluating its performance across multiple benchmark datasets.

Project Objective

The goal is to improve speech-to-text performance for underrepresented languages (specifically Danish) by adapting a pretrained ASR (Automatic Speech Recognition) model to domain-specific audio data.

Key Capabilities

Danish speech transcription with improved accuracy
Cross-dataset generalization evaluation
Audio preprocessing and normalization pipeline
Benchmark testing against standard ASR datasets

Technologies Used

Python
OpenAI Whisper (fine-tuning)
Hugging Face Transformers
PyTorch
Pandas for data processing
High-Performance Computing (HPC) clusters

Architecture Overview

The pipeline consists of audio preprocessing, feature extraction, model fine-tuning on HPC infrastructure, and evaluation across multiple datasets. Training jobs were executed on a distributed compute environment to handle large-scale audio processing efficiently.

Results & Observations

Improved transcription quality on Danish speech compared to baseline Whisper
Better robustness on noisy audio samples
Generalization varies across domains (studio vs. conversational speech)

Note: Results depend on dataset quality and audio preprocessing pipeline.

Links

GitHub Repository