Caroline Uskup
09 Januari 2025 03:07
AMD memperkenalkan optimasi untuk Model Bahasa Visual, meningkatkan kecepatan dan akurasi dalam beragam aplikasi seperti pencitraan medis dan analisis ritel.
Advanced Micro Devices (AMD) telah mengumumkan peningkatan signifikan pada Model Bahasa Visual (VLM), dengan fokus pada peningkatan kecepatan dan akurasi model ini di berbagai aplikasi, seperti yang dilaporkan oleh AI Group perusahaan. VLM mengintegrasikan interpretasi data visual dan tekstual, terbukti penting dalam berbagai sektor mulai dari pencitraan medis hingga analisis ritel.
Teknik Optimasi untuk Peningkatan Kinerja
Pendekatan AMD melibatkan beberapa teknik optimasi utama. Penggunaan pelatihan presisi campuran dan pemrosesan paralel memungkinkan VLM menggabungkan data visual dan teks dengan lebih efisien. Peningkatan ini memungkinkan penanganan data yang lebih cepat dan tepat, yang merupakan hal penting dalam industri yang menuntut akurasi tinggi dan waktu respons yang cepat.
Salah satu teknik penting adalah pra-pelatihan holistik, yang melatih model pada data gambar dan teks secara bersamaan. Metode ini membangun hubungan yang lebih kuat antar modalitas, sehingga menghasilkan akurasi dan fleksibilitas yang lebih baik. Pipeline pra-pelatihan AMD mempercepat proses ini, sehingga dapat diakses oleh klien yang tidak memiliki sumber daya yang luas untuk pelatihan model skala besar.
Meningkatkan Kemampuan Beradaptasi Model
Penyetelan instruksi adalah peningkatan lainnya, yang memungkinkan model mengikuti perintah tertentu secara akurat. Hal ini sangat bermanfaat untuk aplikasi yang ditargetkan seperti melacak perilaku pelanggan di lingkungan ritel. Penyetelan instruksi AMD meningkatkan ketepatan model dalam skenario ini, memberikan klien wawasan yang disesuaikan.
Pembelajaran dalam konteks, sebuah fitur kemampuan beradaptasi secara real-time, memungkinkan model menyesuaikan respons berdasarkan perintah masukan tanpa penyesuaian lebih lanjut. Fleksibilitas ini menguntungkan dalam aplikasi terstruktur seperti manajemen inventaris, di mana model dapat dengan cepat mengkategorikan item berdasarkan kriteria tertentu.
Mengatasi Keterbatasan dalam Model Bahasa Visual
VLM tradisional sering kali kesulitan dengan pemrosesan gambar berurutan atau analisis video. AMD mengatasi keterbatasan ini dengan mengoptimalkan kinerja VLM pada perangkat kerasnya, memfasilitasi penanganan input sekuensial yang lebih lancar. Kemajuan ini sangat penting untuk aplikasi yang memerlukan pemahaman kontekstual dari waktu ke waktu, seperti memantau perkembangan penyakit dalam pencitraan medis.
Peningkatan dalam Analisis Video
Peningkatan AMD mencakup pemahaman konten video, sebuah area yang menantang untuk VLM standar. Dengan menyederhanakan pemrosesan, AMD memungkinkan model menangani data video secara efisien, memberikan identifikasi cepat dan ringkasan peristiwa penting. Kemampuan ini sangat berguna dalam aplikasi keamanan, yang mengurangi waktu yang dihabiskan untuk menganalisis rekaman ekstensif.
Solusi Full-Stack untuk Beban Kerja AI
GPU AMD Instinctâ„¢ dan rangkaian perangkat lunak open-source AMD ROCmâ„¢ menjadi tulang punggung kemajuan ini, mendukung berbagai beban kerja AI mulai dari perangkat edge hingga pusat data. Kompatibilitas ROCm dengan kerangka pembelajaran mesin utama meningkatkan penerapan dan penyesuaian VLM, mendorong inovasi dan kemampuan beradaptasi yang berkelanjutan.
Melalui teknik canggih seperti kuantisasi dan pelatihan presisi campuran, AMD mengurangi ukuran model dan mempercepat pemrosesan, sehingga memangkas waktu pelatihan secara signifikan. Kemampuan ini menjadikan solusi AMD cocok untuk beragam kebutuhan kinerja, mulai dari berkendara otonom hingga pembuatan gambar offline.
Untuk wawasan tambahan, jelajahi sumber daya tentang Vision-Text Dual Encoding dan LLaMA3.2 Vision yang tersedia melalui Komunitas AMD.
Sumber gambar: Shutterstock