Mô hình mạng nơron tích chập phân tách giọng hát từ hỗn hợp âm nhạc

Số trang: 8 Loại file: pdf Dung lượng: 433.13 KB Lượt xem: 15 Lượt tải: 0

tailieu_vip

Phí lưu trữ: 1,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết đề xuất một mô hình phân tách giọng hát từ nguồn hỗn hợp âm nhạc bằng mạng nơron tích chập - CNN (Convolutional Neural Network). Phép biến đổi Fourier thời gian ngắn - STFT (Short time Fourier Transform) được áp dụng để trích các đặc trưng cơ bản của tín hiệu giọng hát. Bộ dữ liệu DSD100 (Demixing Secrets Dataset 100) gồm các hỗn hợp âm nhạc của giọng hát và nhạc đệm từ các nhạc cụ như trống, bass, .v.v. được sử dụng để đánh giá hiệu suất của mô hình mạng CNN.
Nội dung trích xuất từ tài liệu:
Mô hình mạng nơron tích chập phân tách giọng hát từ hỗn hợp âm nhạc Nguyễn Tấn Phú, Nguyễn Nhị Gia Vinh, Lê Thị Diễm và Lê Minh Lý 211 Mô Hình Mạng Nơron Tích Chập Phân Tách Giọng Hát Từ Hỗn Hợp Âm Nhạc A Convolutional Neural Network Model to Separate Singing Voice from Music Nguyễn Tấn Phú 1, Nguyễn Nhị Gia Vinh2, Lê Thị Diễm3, Lê Minh Lý4 1 Khoa Công Nghệ Thông Tin, Trường Đại Học Kỹ Thuật – Công Nghệ Cần Thơ ntanphu@ctuet.edu.vn 2,3,4 Khoa Công Nghệ Thông Tin, Trường Đại Học Cần Thơ {nngvinh, ltdiem, leminhly}@ctu.edu.vn Tóm tắt. Nghiên cứu này đề xuất một mô hình phân tách giọng hát từ nguồn hỗn hợp âm nhạc bằng mạng nơron tích chập - CNN (Convolutional Neural Network). Phép biến đổi Fourier thời gian ngắn - STFT (Short time Fourier Transform) được áp dụng để trích các đặc trưng cơ bản của tín hiệu giọng hát. Bộ dữ liệu DSD100 (Demixing Secrets Dataset 100) gồm các hỗn hợp âm nhạc của giọng hát và nhạc đệm từ các nhạc cụ như trống, bass, .v.v. được sử dụng để đánh giá hiệu suất của mô hình mạng CNN. Kết quả thực nghiệm cho thấy mô hình mạng CNN đạt độ chính xác là 97.24%. Từ khóa. Mạng nơron tích chập (Convolutional Neural Network), Phép biến đổi Fourier thời gian ngắn (Short time Fourier Transform), Đặc trưng âm thanh (audio feature), Demixing Secrets Dataset 100 (DSD100). Abstract— This study proposes a model to separate singing voice from music by using convolutional neural network (CNN). Short time Fourier Transform (STFT) is applied to extract basic audio features of singing voice. Music database named Demixing Secrets Dataset 100 (DSD100) including singing voice, music background is used to estimate convolutional neural network performance. Experiental results in this study proves that proposed convolutional neural nework gives precistion of 97.24%. Keywords. Convolutional Neural Network, Short time Fourier Transform, audio feature, Demixing Secrets Dataset 100 1 Giới thiệu Trong những năm gần đây, sự phát triển của khoa học công nghệ cùng với sự bùng nổ của mạng xã hội trong nhiều thập kỷ qua, internet đã trở thành nguồn thu thập thông tin đa phương tiện như sách, báo, hình ảnh, video, âm nhạc,…trong đó âm nhạc đã không ngừng phát triển, hoàn thiện và sức ảnh hưởng của nó ngày càng lớn. Bên cạnh đó, nhu cầu về vấn đề tách lời giọng hát khỏi nhạc trong các bài hát là chủ đề được quan tâm đối với những nhà biên tập âm thanh. Tuy nhiên, việc lựa chọn mô hình phù hợp để phân tách được giọng hát từ bài hát là một bài toán phức tạp. Mạng nơron tích chập (CNN) được ứng dụng thành công trong việc xử lý hình ảnh cho các tác vụ như siêu phân giải hình ảnh [11] và phân đoạn ngữ nghĩa của hình ảnh theo đề xuất của [12]. Trong trường xử lý hình ảnh, CNN lấy đầu vào là một vectơ cường độ pixel hai chiều trên kích thước không gian và khai thác mối tương quan không gian cục bộ giữa các nơron đầu vào để trích chọn các đặc điểm cục bộ. Hiện nay, nhiều nghiên cứu đã đưa ra các ý tưởng phát triển các hệ thống phân loại nhạc tự động, nhận dạng hợp âm, phân tách giọng hát từ các bản thu âm đơn âm. Nghiên cứu [2] đã đề xuất hướng phân tách giọng hát dựa trên thuật toán trích chọn đặc trưng STFT và kết hợp với mạng nơron hồi quy (RNN). Phương pháp này phân tích tín hiệu audio thành ảnh phổ và sau đó rút trích các đặc trưng thông tin về tần số của tín hiệu nhạc. 212 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Một số phương pháp khác phân tích dựa trên mô hình học sâu (deep learning) để ước tính Mặt nạ nhị phân lý tưởng (Ideal Binary Mask - IBM) để tách tín hiệu giọng nói khỏi hỗn hợp nhiễu đã được đề xuất bởi [5]. Nugraha và cộng sự. [6] điều chỉnh các mạng nơron để phân tách nguồn đa kênh, sử dụng cả thông tin về pha và cường độ. Đối với phân tách nguồn đơn âm, Huang et al. [7] đề xuất một phương pháp sử dụng các mạng nơron học sâu, lấy một khung duy nhất của phổ, phổ cường độ của hỗn hợp làm đầu vào để trích chọn các đặc trưng âm sắc của khung đơn cho mỗi nguồn. Uhlich et al. [8] đề xuất một phương pháp khác lấy nhiều khung của phổ, phổ cường độ của hỗn hợp làm đầu vào và chỉ bao gồm các lớp được kết nối đầy đủ. Phương pháp này sử dụng mô hình các đặc trưng âm sắc trên nhiều khung thời gian. Mặc dù các phương pháp này hoạt động tốt và dựa vào các đặc trưng trên toàn bộ phổ tần số nhưng không khai thác hoàn toàn các đặc trưng về tần số thời gian cục bộ. Hơn nữa, mô hình mạng nơron tích chập (CNN) trong nghiên cứu [9][10] đã tận dụng các đặc trưng quy mô nhỏ có trong dữ liệu để trích xuất giọng hát từ hỗn hợp âm nhạc. Trong bài báo này, chúng tôi thử nghiệm một mô hình phân tách giọng hát từ hỗn hợp âm nhạc bằng mạng nơron tích chập và phép biến đổi Fourier thời gian ngắn để phân tích các đặc trưng về biên độ của tín hiệu audio. Không giống như hình ảnh 2D, phép biến đổi Fourier thời gian ngắn không có tính đối xứng trên cả hai trục, nhưng có thể tìm thấy sự đối xứng cục bộ dọc theo mỗi trục đơn. Do đó, các bộ lọc được sử dụng trong CNN cần phải được điều chỉnh phù hợp với biến đổi Fourier thời gian ngắn của âm thanh. Kết quả của mô hình có thể được áp dụng đối với các thể loại nhạc khác hoặc được ứng dụng để xây dựng các hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc sao chép bản quyền nhạc. Bài báo được tổ chức bao gồm các phần chính như sau: phần I giới thiệu tổng quan, phần II mô tả các nghiên cứu liên quan đến phân tích tín hiệu audio. Mô hình phân tách giọng hát từ hỗn hợp âm nhạc được trình bày trong phần III. Phần IV mô tả kết quả thử nghiệm với bộ dữ liệu DSD100 [4] và ...