OmniGen 2: Generasi Gambar dan Teks Terbaru yang Terbuka

June 30, 2025 8:42 am

OmniGen 2: Inovasi dari Beijing Academy

OmniGen 2 adalah sistem open-source terbaru yang mampu menggabungkan pembuatan teks ke gambar, pengeditan gambar, dan penciptaan gambar kontekstual. Sistem ini diperkenalkan oleh peneliti di Beijing Academy of Artificial Intelligence.

Keunggulan Dekode Terpisah dan Teknologi Terbaru

Tidak seperti pendahulunya, OmniGen 2 menggunakan dua jalur dekode terpisah untuk teks dan gambar. Hal ini memungkinkan model untuk meningkatkan kemampuan multibahasa tanpa mengorbankan kemampuan dasar pembuatan teks. Model ini dibangun di atas Qwen2.5-VL-3B dan menggunakan transformer difusi khusus dengan sekitar empat miliar parameter.

Pelatihannya melibatkan sekitar 140 juta gambar dari berbagai dataset open-source dan koleksi eksklusif. Selain itu, teknik baru yang memanfaatkan video digunakan untuk menghasilkan instruksi pengeditan gambar yang canggih.

Fitur Unik dan Evaluasi

OmniGen 2 juga memperkenalkan “Omni-RoPE”, sebuah metode embedding posisi yang terdiri dari tiga bagian, untuk melacak dan mengombinasikan input secara spasial. Arsitektur baru ini juga hanya menggunakan fitur VAE sebagai input untuk dekoder difusi dan memiliki mekanisme refleksi untuk mengevaluasi dan meningkatkan gambar yang dihasilkan.

Walaupun belum ada tolok ukur kuat untuk generasi gambar kontekstual, tim memperkenalkan omnicontext benchmark dan OmniGen 2 berhasil mencetak skor tinggi, mengungguli model open-source lainnya.

Masa Depan dan Rencana Pengembangan

Meski terdapat beberapa kekurangan, seperti kebutuhan instruksi yang jelas untuk beberapa prompt, tim berencana merilis model, data pelatihan, dan pipeline di Hugging Face, membuka lebih banyak peluang inovasi di masa depan.

Sumber: The Decoder