Meta Diam-Diam Kembangkan Model AI Baru

Dalam acara Meta Connect 2023 yang digelar secara virtual dari kantor pusat Meta di Menlo Park, California, Amerika Serikat beberapa waktu lalu, Meta mengejutkan dunia internet saat memperkenalkan fitur AI untuk hampir seluruh produknya termasuk Facebook, Instagram, Messenger, dan WhatsApp untuk pengguna di seluruh dunia.

Namun, berita paling menariknya justru datang dari sebuah paper yang diterbitkan diam-diam oleh para periset dari Meta di situs web akses terbuka, arVix.org.

Paper tersebut memperkenalkan Llama 2 Long, model AI baru yang merupakan versi lanjutan Llama 2 sumber terbuka Meta yang dirilis pada beberapa waktu lalu yang kini diberi pelatihan lebih lanjut dan terus-menerus.

Hasilnya, model AI dari meta ini berhasil mengungguli pesaing di industri berkat respons yang jauh lebih baik, mengalahkan GPT-3.5 Turbo dari OpenAI, dan Claude 2 dari Anthropic.

Para periset dari Meta memanfaatkan Llama 2 versi terdahulu yang menyediakan berbagai parameter pelatihan dan dataset yang dapat menyesuaikan algoritma untuk dapat belajar secara mandiri, kemudian menambahkan lebih banyak lagi dataset berupa teks—tepatnya hingga 400 miliar token tambahan.

Intinya, para periset hanya melakukan modifikasi yang diperlukan untuk mendukung model terbaru agar dapat bekerja dengan lebih baik sesuai peruntukannya. Modifikasi tersebut dikenal dengan encoding Posisional Rotary (RoPE), suatu metode pemrograman model Transformer yang mendasari model bahasa besar seperti Llama 2 (dan Llama 2 Long), yang pada dasarnya memetakan token embeddings (angka-angka yang digunakan untuk mewakili kata, konsep, dan ide) ke dalam grafik 3D yang menunjukkan posisi mereka relatif terhadap token lain, bahkan saat sedang berjalan. Cara ini memungkinkan model bahasa menghasilkan respons yang akurat dengan informasi yang lebih sedikit (dan oleh karena itu, memakan lebih sedikit penyimpanan komputasi) dibandingkan dengan pendekatan lain.

Beberapa media berita dan komunitas AI sumber terbuka (open source) di Reddit, Twitter, dan Hacker News bahkan secara terang-terangan menyatakan kekaguman atas hasil yang dapat ditampilkan oleh model bahas Llama 2 Long AI ini.

Hasil ini juga sekaligus menjadi indikasi dan validasi bahwa pendekatan Meta terhadap teknologi AI generatif bersumber terbuka dapat bersaing dengan model “berbayar” yang ditawarkan oleh perusahaan rintisan yang mendapatkan pendanaan fantastis.