Music Flamingo: Model Kecerdasan Buatan Musik ala NVIDIA

Music Flamingo: Model Kecerdasan Buatan Musik ala NVIDIA
Music Flamingo: Model Kecerdasan Buatan Musik ala NVIDIA
 

Yang kita kenal selama ini NVIDIA adalah merupakan perusahaan teknologi multinasional Amerika yang merancang unit pemroses grafis (GPU) untuk pasar gim dan profesional, serta unit system on a chip (SoC) untuk komputasi seluler dan pasar otomotif. 

GPU NVIDIA digunakan di pemelajaran dalam/deep learning, kecerdasan buatan, dan analitik yang dipercepat. Perusahaan tersebut mengembangkan deep learning berbasis GPU untuk menggunakan kecerdasan buatan dalam mendekati masalah seperti deteksi kanker, prediksi cuaca, kendaraan tanpa pengemudi... dan nampaknya berminat juga untuk mengutak-atik sektor musik. ♯

Akhirnya dirilis Music Flamingo (MF), model kecerdasan buatan untuk memahami musik yang dikembangkan oleh NVIDIA bersama dengan University of Maryland. Model ini dirancang untuk menganalisis, mendeskripsikan, dan menjawab pertanyaan tentang lagu dengan tingkat kedetailan seperti manusia. 

Pemahaman musik adalah tantangan besar dalam AI karena musik bersifat dinamis, multi-lapis, dan kaya informasi. Sebelumnya, model-model yang ada seringkali hanya mampu membuat deskripsi pendek atau menjawab pertanyaan permukaan. 

Untuk mengatasi keterbatasan tersebut, Music Flamingo dibangun dengan pendekatan khusus:

  • Peningkatan Model Dasar: menggunakan dan meningkatkan Audio Flamingo 3 sebagai fondasi
  • Dataset Musik Berkualitas Tinggi (MF-Skills): melatih model dengan jutaan lagu dari 100+ genre budaya yang berbeda. Dataset ini dilengkapi dengan teks deskriptif panjang dan pasangan tanya jawab mendalam tentang harmoni, struktur, dan konteks budaya
  • Pemahaman Waktu (Time-Aware): model dapat melokalisasi perubahan akor, tempo, dan bagian vokal secara tepat dalam suatu lagu
  • Pelatihan untuk "Berpikir" (Reasoning): model diajarkan untuk "berpikir langkah demi langkah" seperti seorang musisi sebelum memberikan jawaban akhir. Proses ini menggunakan dataset MF-Think

Dalam pengujian, Music Flamingo mencapai hasil terbaik (state-of-the-art) di lebih dari 10 tolok ukur pemahaman musik. Ia mampu: 

  • Membuat deskripsi panjang yang kaya akan detail teknis dan narasi emosional
  • Menjawab pertanyaan kompleks tentang komposisi dan produksi musik
  • Mengenali instrumen dan genre dengan akurat
  • Mencatat lirik dalam berbagai bahasa dengan kesalahan kata yang rendah

Contoh hasil analisis:

 

Saat diminta mendeskripsikan sebuah lagu secara detail, Music Flamingo dapat menghasilkan analisis terstruktur yang mencakup:

  • Genre, tempo, dan kunci dasar (contoh: Synth-Pop, 125 BPM, kunci F mayor)
  • Instrumentasi dan gaya produksi (jenis synthesizer, pola drum, karakteristik mixing)
  • Karakteristik vokal dan tema lirik
  • Struktur lagu dan dinamika (verse, chorus, bridge)
  • Wawasan teori musik (progresi akor dan dampak emosionalnya)

Secara singkat, Music Flamingo menetapkan standar baru dalam AI untuk memahami musik, bergeser dari pengenalan permukaan menuju persepsi berlapis yang lebih mirip manusia. 

 

Oya, sebagai informasi tambahan, di bulan Desember 2025 lalu Israel telah menandatangani kesepakatan investasi dengan NVIDIA sebesar 24,7 triliun untuk mendirikan farming server AI besar-besaran di zona industri Mevo Carmel di selatan Haifa. Fasilitas ini dirancang untuk menampung prosesor Blackwell AI generasi berikutnya di NVIDIA dan akan menjadi pusat penelitian dan pengembangan terbesar NVIDIA di luar Amerika Serikat.

Foto: Unsplash

Grafis & Sumber: NVIDIA 


 

Komentar

Postingan populer dari blog ini

Dampak Ekonomi dari Festival Musik Glastonbury

Deezer Meluncurkan Sistem Tag AI Pertama di Dunia untuk Streaming Musik

Inisiatif Baru Cloudflare dalam Memblokir Bot AI dan Dampak Bagi Industri Musik