Sumber: Qubit
Ali open source model besar, dan yang baru~
Mengikuti Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud meluncurkan model bahasa visual skala besar Qwen-VL, dan akan langsung menjadi sumber terbuka segera setelah diluncurkan secara online.
Secara khusus, Qwen-VL adalah model besar multi-modal berdasarkan Tongyi Qianwen-7B, yang mendukung banyak masukan seperti gambar, teks, dan bingkai deteksi, serta mendukung keluaran bingkai deteksi selain teks.
Misal 🌰 kita input gambar Arnia, melalui bentuk tanya jawab, Qwen-VL-Chat tidak hanya bisa merangkum isi gambar tersebut, tetapi juga menemukan lokasi Arnia yang ada di dalam gambar tersebut.
Dalam tugas pengujian, Qwen-VL mendemonstrasikan kekuatan “pejuang heksagonal” Dalam penilaian standar bahasa Inggris dari empat jenis tugas multi-modal (Zero-shot Caption/VQA/DocVQA/Grounding), ia telah mencapai SOTA.
Begitu berita open source keluar, menarik banyak perhatian.
Mari kita lihat performa spesifiknya~
Mari kita lihat ciri-ciri model seri Qwen-VL secara keseluruhan:
Dalam hal skenario, Qwen-VL dapat digunakan dalam skenario seperti menjawab pertanyaan pengetahuan, menjawab pertanyaan gambar, menjawab pertanyaan dokumen, dan pemosisian visual yang mendetail.
Misalnya, jika seorang teman asing yang tidak mengerti bahasa Mandarin pergi ke rumah sakit untuk menemui dokter, menghadap peta panduan dengan satu kepala dan dua kepala besar, dan tidak tahu cara menuju ke departemen terkait, ia dapat langsung melempar peta tersebut. dan pertanyaan ke Qwen-VL, dan biarkan mengikuti informasi Gambar bertindak sebagai penerjemah.
Mari kita uji masukan multi-gambar dan perbandingannya:
Meskipun dia tidak mengenali Arnia, penilaian emosinya memang cukup akurat (kepala anjing manual).
Dari segi kemampuan positioning visual, meskipun gambarnya sangat rumit dan karakternya banyak, Qwen-VL dapat menemukan Hulk dan Spiderman secara akurat sesuai kebutuhan.
Dalam hal detail teknis, Qwen-VL menggunakan Qwen-7B sebagai model bahasa dasar, memperkenalkan encoder visual ViT ke dalam arsitektur model, dan menghubungkan keduanya melalui adaptor bahasa visual yang sadar posisi, sehingga model tersebut mendukung input sinyal visual. .
Proses pelatihan khusus dibagi menjadi tiga langkah:
Para peneliti menguji Qwen-VL pada penilaian bahasa Inggris standar dalam empat kategori tugas multimodal (Zero-shot Caption/VQA/DocVQA/Grounding).
Hasilnya menunjukkan bahwa Qwen-VL mencapai hasil terbaik dari LVLM open source dengan ukuran yang sama.
Selain itu, para peneliti membuat set pengujian TouchStone berdasarkan mekanisme penilaian GPT-4.
Dalam uji perbandingan ini, Qwen-VL-Chat mencapai SOTA.
Jika anda tertarik dengan Qwen-VL, ada demo di Modak Community dan huggingface yang bisa anda coba langsung, dan linknya ada di akhir artikel~
Qwen-VL mendukung peneliti dan pengembang untuk melakukan pengembangan sekunder, dan juga memungkinkan penggunaan komersial, namun perlu diperhatikan bahwa untuk penggunaan komersial, Anda perlu mengisi aplikasi kuesioner terlebih dahulu.
Tautan proyek:
-Mengobrol
Alamat kertas: