OpenAI seolah ingin menegaskan posisinya sebagai perusahaan AI terdepan sejak peluncuran ChatGPT yang kini mengubah lanskap industri teknologi di seluruh dunia, dengan perilisan produk-produk AI-nya yang begitu cepat dan mengesankan.
Mulanya, tampak Google akan mencuri perhatian dengan peluncuran Gemini, model bahasa besar terbarunya, yang akan membuat debutnya pada kuartal terakhir 2023 ini setelah sukses melewati uji coba oleh klien-klien perusahaan secara terbatas. Namun, OpenAI kini mengarahkan perhatiannya untuk mengganggu rencana Google.
Menurut laporan dari The Information, OpenAI tengah dalam perjalanan untuk meluncurkan model bahasa besar generasi berikutnya, dengan kemampuan multimodal, yang dikenal dengan kode nama Gobi, yang bertujuan untuk mengalahkan Google dan mempertahankan posisinya sebagai pemimpin di industri ini.
Model bahasa besar multimodal adalah sistem AI canggih yang mampu memproses dan memahami berbagai bentuk data, termasuk teks dan gambar. Berbeda dengan model bahasa konvensional yang hanya dimaksimalkan untuk teks, LLM multimodal memiliki kemampuan unik untuk menganalisis dan menghasilkan konten yang menggabungkan informasi teks dan visual.
Secara singkat, teknologi model bahasa besar multimodal ini dapat menginterpretasikan gambar, memahami konteks, dan menghasilkan teks atau respons yang menggabungkan input teks dan visual dengan lebih akurat. LLM multimodal menunjukkan fleksibilitas dan cocok untuk berbagai aplikasi, mulai dari pemahaman bahasa alami hingga interpretasi gambar, dan memperluas cakupan kemampuan pemrosesan informasi.
Model bahasa besar multimodal dapat dengan mudah memproses data gambar dan teks, menghasilkan kode situs web hanya dari sketsa tampilan situs web sederhana yang diinginkan pengguna, atau menghasilkan analisis teks dari grafik visual tanpa peran ahli.
Menurut sumber yang tidak ingin disebutkan namanya, OpenAI sedang bekerja keras untuk menggabungkan kemampuan multimodal yang mirip dengan yang ditawarkan oleh Google Gemini ke dalam GPT-4.
OpenAI sebelumnya telah memamerkan fitur-fitur ini selama peluncuran GPT-4 tetapi membatasi ketersediaannya hanya untuk satu perusahaan, Be My Eyes, yang membantu individu dengan gangguan penglihatan atau kebutaan dalam aktivitas sehari-hari melalui aplikasi seluler mereka. Sekarang, OpenAI bersiap untuk memperkenalkan fitur produk barunya—yang dikenal sebagai GPT-Vision—kepada pengguna yang lebih luas.
Sam Altman, CEO OpenAI, memberikan petunjuk dalam banyak wawancara terbaru bahwa GPT-5 tidak akan hadir dalam waktu dekat, tetapi berencana untuk melakukan berbagai perbaikan pada GPT-4, dan multimodal ini mungkin adalah salah satunya.
Dalam wawancara terbaru dengan Wired, CEO Google Sundar Pichai menyatakan keyakinannya terhadap posisi Google saat ini dalam lanskap AI. Ia mengakui dan memuji ChatGPT sebagai sebuah produk yang siap dan sesuai kebutuhan pasar di industri AI, sekaligus menekankan bahwa Google melakukan pendekatan yang lebih manusiawi dalam menjaga keseimbangan antara inovasi dan tanggung jawab pada setiap lini produknya.