Google Gemini Omni Resmi Meluncur, AI Canggih yang Bisa Ubah Teks, Audio, dan Gambar Menjadi Video Otomatis

Kehadiran Gemini Omni sekaligus mempertegas langkah Google dalam mengembangkan teknologi AI multimodal. Berbeda dengan model AI generatif konvensional yang biasanya hanya fokus pada satu jenis media, Gemini Omni dirancang untuk memahami sekaligus menghasilkan berbagai format konten dalam satu sistem terpadu.

Sebelumnya, Google telah memperkenalkan Gemini sebagai platform AI yang mampu memproses teks, gambar, audio, dan video secara bersamaan. Kini, melalui Gemini Omni, kemampuan tersebut ditingkatkan ke level yang lebih tinggi dengan fokus pada pembuatan serta pengeditan video berbasis AI.

AI yang Bisa Mengubah Berbagai Media Menjadi Video

Dalam presentasinya di Google I/O 2026, CEO Google, Sundar Pichai, menjelaskan bahwa Gemini Omni dirancang untuk mampu “menciptakan apa pun dari input apa pun.”

Pernyataan tersebut menggambarkan visi Google terhadap masa depan AI generatif. Menurut perusahaan, perkembangan AI kini tidak lagi terbatas pada kemampuan menghasilkan teks atau menjawab pertanyaan. Sebaliknya, AI mulai berkembang menjadi teknologi yang mampu memahami dunia nyata dan merepresentasikannya kembali melalui berbagai jenis media digital.

Pada tahap awal peluncurannya, Gemini Omni difokuskan untuk menghasilkan video berbasis AI. Pengguna dapat memasukkan kombinasi teks, gambar, audio, maupun potongan video sebagai bahan dasar. Selanjutnya, sistem akan mengolah seluruh elemen tersebut dan menghasilkan video baru secara otomatis.

Menariknya, Gemini Omni tidak bekerja layaknya aplikasi editing tradisional yang hanya menggabungkan berbagai elemen media menjadi satu file. Teknologi ini diklaim mampu memahami konteks dari seluruh input yang diberikan sehingga hasil akhirnya terlihat lebih alami, konsisten, dan relevan dengan instruksi pengguna.

Dengan kata lain, AI tidak sekadar menempelkan gambar dan suara ke dalam video, tetapi juga memahami hubungan antar elemen tersebut untuk menghasilkan cerita atau visual yang lebih masuk akal.

Pengeditan Foto dan Video Semakin Mudah

Selain berfungsi sebagai generator video, Gemini Omni juga membawa kemampuan editing berbasis AI yang lebih praktis.

Pengguna cukup memberikan instruksi dalam bentuk teks sederhana untuk melakukan perubahan pada gambar maupun video. Proses yang sebelumnya membutuhkan perangkat lunak editing profesional kini dapat dilakukan dengan perintah singkat.

Fitur ini menjadi evolusi dari teknologi yang sebelumnya telah diperkenalkan Google melalui model video AI bernama Veo. Namun, Google menegaskan bahwa Gemini Omni bukan sekadar versi terbaru dari Veo.

Direktur Manajemen Produk Google DeepMind, Nicole Brichtova, menjelaskan bahwa Gemini Omni merupakan langkah berikutnya dalam menggabungkan kecerdasan Gemini dengan kemampuan rendering media yang dimiliki Google.

Melalui integrasi tersebut, AI dapat menghasilkan konten visual yang lebih kompleks dan realistis dibandingkan generasi sebelumnya.

Dalam salah satu demonstrasi yang diperlihatkan Google, Gemini Omni diminta membuat animasi tanah liat mengenai proses pelipatan protein. Hanya dalam waktu singkat, sistem mampu menghasilkan video animasi bergaya stop-motion lengkap dengan narasi suara otomatis yang sesuai dengan topik yang diminta.

Demo tersebut menjadi gambaran bagaimana AI generatif kini tidak hanya mampu membuat gambar atau video sederhana, tetapi juga menyusun presentasi visual yang lebih edukatif dan informatif.

Hadirkan Fitur Avatar Digital

Tidak hanya berfokus pada pembuatan video, Gemini Omni juga dibekali kemampuan menciptakan avatar digital pribadi.

Fitur ini memungkinkan pengguna membuat representasi virtual diri mereka yang dapat digunakan untuk menghasilkan berbagai video secara otomatis. Teknologi tersebut memiliki konsep serupa dengan layanan avatar AI yang sebelumnya diperkenalkan oleh OpenAI melalui fitur Cameos pada platform Sora.

Meski menawarkan kemudahan, Google juga berupaya mengantisipasi risiko penyalahgunaan teknologi AI, terutama yang berkaitan dengan deepfake.

Karena itu, perusahaan menerapkan sistem verifikasi identitas sebelum pengguna dapat membuat avatar digital. Dalam prosesnya, pengguna harus merekam wajah mereka sambil mengucapkan serangkaian angka yang ditentukan sistem.

Langkah tersebut dilakukan untuk memastikan bahwa avatar yang dibuat benar-benar mewakili identitas pemilik akun dan bukan digunakan untuk meniru orang lain tanpa izin.

Selain itu, seluruh video yang dihasilkan menggunakan Gemini Omni akan dibekali watermark digital SynthID. Teknologi ini berfungsi sebagai penanda khusus yang membantu publik mengidentifikasi apakah sebuah video dibuat menggunakan AI Google atau tidak.

Keberadaan watermark tersebut menjadi bagian dari upaya Google dalam meningkatkan transparansi penggunaan teknologi AI generatif.

Gemini Omni Flash Mulai Diluncurkan

Bersamaan dengan pengumuman Gemini Omni, Google juga memperkenalkan model perdana yang diberi nama Gemini Omni Flash.

Versi ini mulai tersedia melalui aplikasi Gemini, YouTube Shorts, serta platform kreatif AI milik Google yang bernama Flow.

Pada fase awal peluncurannya, Gemini Omni Flash mampu menghasilkan video dengan durasi maksimal 10 detik. Meski terlihat singkat, Google menjelaskan bahwa pembatasan tersebut bukan disebabkan oleh keterbatasan teknologi.

Sebaliknya, perusahaan ingin memastikan lebih banyak pengguna dapat mengakses dan mencoba fitur baru ini tanpa harus menunggu terlalu lama akibat tingginya kebutuhan komputasi.

Google juga mengonfirmasi bahwa dukungan untuk video berdurasi lebih panjang saat ini sedang dalam tahap pengembangan.

Dalam demonstrasi yang ditampilkan selama acara, Gemini Omni Flash digunakan untuk membuat berbagai skenario kreatif. Mulai dari video seseorang menerima penghargaan, melakukan perjalanan ke bulan, hingga menghapus orang yang tidak diinginkan dari latar belakang video liburan.

Menurut insinyur riset Google DeepMind, Gabe Barth-Maron, pengalaman tersebut dapat dianggap sebagai bentuk baru dari “meme yang dipersonalisasi”, di mana pengguna bisa menciptakan konten unik sesuai kebutuhan mereka.

Meskipun demikian, Google mengingatkan bahwa kualitas hasil video tetap sangat bergantung pada instruksi yang diberikan. Semakin detail dan spesifik perintah pengguna, semakin akurat pula hasil yang akan dihasilkan AI.

Sebaliknya, instruksi yang terlalu umum berpotensi membuat sistem melakukan perubahan pada elemen yang sebenarnya ingin dipertahankan.

Persaingan AI Video Semakin Memanas

Peluncuran Gemini Omni menunjukkan bahwa persaingan di industri AI generatif kini memasuki babak baru. Jika sebelumnya fokus pengembangan berada pada chatbot dan generator gambar, kini perhatian mulai bergeser ke teknologi video berbasis AI.

Dengan kemampuan menggabungkan teks, gambar, audio, dan video dalam satu proses kreatif, Gemini Omni berpotensi menjadi salah satu platform AI video paling canggih yang tersedia saat ini.

Langkah Google ini sekaligus memperlihatkan arah masa depan AI generatif yang semakin terintegrasi dengan berbagai format media. Bagi kreator konten, pelaku bisnis, hingga pengguna umum, teknologi seperti Gemini Omni dapat membuka peluang baru dalam menciptakan konten digital secara lebih cepat, mudah, dan efisien.

Seiring perkembangan teknologi yang semakin pesat, kehadiran Gemini Omni juga diperkirakan akan memperketat persaingan dengan berbagai platform AI generatif lain yang saat ini berlomba menghadirkan pengalaman pembuatan video yang lebih realistis dan personal.

Cek berita teknologi, review gadget dan video Gadgetdiva.id di
Google News.
Baca berita otomotif untuk perempuan di
Otodiva.id,
kalau butuh in-depth review gadget terkini kunjungi
Gizmologi.id.
Bagi yang suka jalan-jalan, wajib baca
Traveldiva.id.

_{Google Gemini Omni Resmi Meluncur, AI Canggih yang Bisa Ubah Teks, Audio, dan Gambar Menjadi Video Otomatis – Firda Zahara}