DIGITAL SIGNAL PROCESSING - Tổng quan về nâng cao chất lượng tiếng nói (Hoàng Minh Thảo)
Tiếng nói đóng vai trò rất quan trọng trong thông tin liên lạc. Quá trình truyền tín hiệu tiếng nói được truyền đi qua các phương tiện thông tin bị các loại nhiễu tác động nên chất lượng bị suy giảm. Vì vậy, các thuật toán Speech Enhancement và các kĩ thuật làm giảm nhiễu được ra đời. Trong bài Lab này ta sẽ đi nghiên cứu 2 thuật toán ước lượng phổ để khử nhiễu kinh điển là Spectral Subtraction [1] và Wiener Filter [2]. Việc ước lượng phổ nhiễu đòi hỏi một thuật toán VAD ( Voice Activity Detection ) để tìm khoảng thời gian không có tiếng nói hoạt động. Ta sẽ đi phân tích từng phần theo sự phát triển của các thuật toán và đánh giá kết quả mà các thuật toán mang lại.
1.1. Phân tích tín hiệu có nhiễu thành các segment/frame :
Tín hiệu có nhiễu được chia ra thành nhiều Segment ( hay Frame ) có chiều dài bằng 25 ms với độ dịch là 40% của Window trên suốt chiều dài tín hiệu. Cửa sổ có thể chọn Rectangle, Hanning, Hamming, Blackman … Việc chọn loại cửa sổ sẽ ảnh hưởng tới việc khôi phục tín hiệu đã tăng cường sau này. Ở đây, cửa sổ được lựa chọn là Hamming. Do Hamming là cửa sổ phi tuyến nên khi thực hiện biến đổi FFT thì vô tình đã làm suy giảm tín hiệu , vì thế yêu cầu đặt ra là các Segment phải sắp xếp chồng lên nhau theo 1 tỉ lệ dịch (SP) thích hợp , vùng xếp chồng giữa 2 Segment liên tục gọi là “overlap”.
LINK DOWNLOAD
Tiếng nói đóng vai trò rất quan trọng trong thông tin liên lạc. Quá trình truyền tín hiệu tiếng nói được truyền đi qua các phương tiện thông tin bị các loại nhiễu tác động nên chất lượng bị suy giảm. Vì vậy, các thuật toán Speech Enhancement và các kĩ thuật làm giảm nhiễu được ra đời. Trong bài Lab này ta sẽ đi nghiên cứu 2 thuật toán ước lượng phổ để khử nhiễu kinh điển là Spectral Subtraction [1] và Wiener Filter [2]. Việc ước lượng phổ nhiễu đòi hỏi một thuật toán VAD ( Voice Activity Detection ) để tìm khoảng thời gian không có tiếng nói hoạt động. Ta sẽ đi phân tích từng phần theo sự phát triển của các thuật toán và đánh giá kết quả mà các thuật toán mang lại.
1.1. Phân tích tín hiệu có nhiễu thành các segment/frame :
Tín hiệu có nhiễu được chia ra thành nhiều Segment ( hay Frame ) có chiều dài bằng 25 ms với độ dịch là 40% của Window trên suốt chiều dài tín hiệu. Cửa sổ có thể chọn Rectangle, Hanning, Hamming, Blackman … Việc chọn loại cửa sổ sẽ ảnh hưởng tới việc khôi phục tín hiệu đã tăng cường sau này. Ở đây, cửa sổ được lựa chọn là Hamming. Do Hamming là cửa sổ phi tuyến nên khi thực hiện biến đổi FFT thì vô tình đã làm suy giảm tín hiệu , vì thế yêu cầu đặt ra là các Segment phải sắp xếp chồng lên nhau theo 1 tỉ lệ dịch (SP) thích hợp , vùng xếp chồng giữa 2 Segment liên tục gọi là “overlap”.
LINK DOWNLOAD



%20(1).png)
.png)

.png)



Không có nhận xét nào: