Alibaba Merilis Qwen-Image-Edit: Model Sumber Terbuka 20B Untuk Pengeditan Gambar Dan Teks Lanjutan

Sekilas

Tim Qwen dari Alibaba Cloud telah meluncurkan Qwen-Image-Edit, sebuah model pengeditan gambar canggih yang menggabungkan pengeditan semantik dan penampilan dengan modifikasi teks bilingual yang tepat, memberikan kemampuan canggih untuk aplikasi kreatif dan praktis.

Alibaba Merilis Qwen-Image-Edit: Model Sumber Terbuka 20B Untuk Pengeditan Gambar Dan Teks Lanjutan

Tim Qwen dari Alibaba Cloud telah memperkenalkan Qwen-Image-Edit, sebuah model pengeditan gambar canggih yang berasal dari kerangka kerja Qwen-Image 20B. Sistem baru ini mengembangkan kemampuan rendering teks yang khas dari Qwen-Image dengan menerapkannya pada pengeditan gambar, dengan fokus khusus pada ketepatan dalam modifikasi teks. Qwen-Image-Edit memproses gambar masukan melalui dua komponen paralel: Qwen2.5-VL, yang mengelola kontrol semantik visual, dan VAE Encoder, yang mengatur penampilan visual. Pendekatan ganda ini memungkinkan model untuk menangani tugas pengeditan baik di tingkat semantik maupun tingkat penampilan secara efektif. Alat ini dapat diakses melalui Qwen Chat di bawah fitur "Pengeditan Gambar".

Qwen-Image-Edit dirancang untuk beroperasi di berbagai dimensi pengeditan. Ini mendukung penyesuaian tingkat penampilan, seperti penambahan, penghapusan, atau modifikasi elemen visual sambil menjaga semua area lain dari gambar tetap utuh, dan pengeditan tingkat semantik, seperti penciptaan kekayaan intelektual, rotasi objek, atau transfer gaya, di mana perubahan piksel yang lebih luas diizinkan tetapi integritas semantik tetap terjaga. Ini juga menyediakan kemampuan pengeditan teks yang halus dalam bahasa Mandarin dan Inggris, memungkinkan pengguna untuk menambah, menghapus, atau menyesuaikan teks dalam gambar sambil mempertahankan konsistensi font, ukuran, dan gaya. Pengujian benchmark di beberapa dataset yang diakui secara luas menunjukkan bahwa Qwen-Image-Edit mencapai kinerja terbaik dalam pengeditan gambar, menempatkannya sebagai model dasar yang kuat untuk aplikasi mendatang di bidang ini.

Pengeditan Semantik dan Penampilan Qwen-Image-Edit untuk Aplikasi Kreatif dan Praktis

Salah satu aspek yang menentukan dari Qwen-Image-Edit adalah fungsionalitasnya yang canggih dalam pengeditan semantik dan penampilan. Pengeditan semantik melibatkan perubahan konten gambar sambil memastikan bahwa makna visual yang mendasarinya tetap utuh. Untuk menggambarkan fungsi ini dengan cara yang sederhana, tim pengembang menyoroti penggunaannya dengan maskot resmi Qwen, Capybara, sebagai contoh praktis.

Qwen-Image-Edit Menampilkan Pengeditan Semantik Dan Penampilan Yang Canggih Untuk Aplikasi Kreatif Dan Praktis

Pengamatan menunjukkan bahwa meskipun sebagian besar piksel dalam gambar yang dimodifikasi berbeda dari yang ada di gambar input asli di sebelah kiri, konsistensi keseluruhan karakter Capybara tetap terjaga sepenuhnya. Ini menunjukkan kemampuan pengeditan semantik yang kuat dari Qwen-Image-Edit, yang mendukung pengembangan konten kekayaan intelektual asli yang fleksibel dan bervariasi. Selain itu, di dalam Qwen Chat, satu set prompt pengeditan khusus dibuat berdasarkan 16 tipe kepribadian MBTI. Menggunakan prompt ini, koleksi lengkap paket emoji bertema MBTI yang menampilkan maskot Capybara berhasil diproduksi, secara efektif memperluas baik representasi maupun visibilitas karakter tersebut.

Selain itu, sintesis tampilan baru mewakili kasus penggunaan penting lainnya dalam pengeditan semantik. Qwen-Image-Edit mampu memutar objek hingga 90 derajat atau melakukan rotasi penuh 180 derajat, memungkinkan visualisasi langsung dari sisi belakang objek. Contoh lain dari pengeditan semantik terletak pada transfer gaya, di mana, misalnya, potret standar dapat ditafsirkan kembali menjadi berbagai estetika artistik, termasuk gaya yang mengingatkan pada Studio Ghibli.

Bersamaan dengan pengeditan semantik, pengeditan penampilan merupakan fungsi yang sering diperlukan dalam modifikasi gambar. Pendekatan ini fokus pada menjaga area tertentu dari gambar tetap tidak berubah sama sekali sementara memperkenalkan, menghapus, atau mengubah elemen yang ditunjuk. Seperti yang ditunjukkan dalam contoh di mana papan nama disisipkan dengan mulus ke dalam sebuah adegan, pengeditan penampilan cocok untuk berbagai aplikasi seperti penyesuaian latar belakang untuk individu atau modifikasi pakaian. Kemampuan lain yang mendefinisikan Qwen-Image-Edit adalah ketepatannya dalam pengeditan teks, fitur yang berasal dari keahlian lanjutan Qwen-Image dalam teknologi rendering teks.

IN-9.57%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)