Model besar Ali menjadi open source lagi! Mampu membaca gambar dan mengetahui objek, berdasarkan Tongyi Qianwen 7B, tersedia secara komersial

巴比特_

2023-08-26 08:03:47

Sumber: Qubit

Ali open source model besar, dan yang baru~

Mengikuti Tongyi Qianwen-7B (Qwen-7B), Alibaba Cloud meluncurkan model bahasa visual skala besar Qwen-VL, dan akan langsung menjadi sumber terbuka segera setelah diluncurkan secara online.

Secara khusus, Qwen-VL adalah model besar multi-modal berdasarkan Tongyi Qianwen-7B, yang mendukung banyak masukan seperti gambar, teks, dan bingkai deteksi, serta mendukung keluaran bingkai deteksi selain teks.

Misal 🌰 kita input gambar Arnia, melalui bentuk tanya jawab, Qwen-VL-Chat tidak hanya bisa merangkum isi gambar tersebut, tetapi juga menemukan lokasi Arnia yang ada di dalam gambar tersebut.

Dalam tugas pengujian, Qwen-VL mendemonstrasikan kekuatan “pejuang heksagonal” Dalam penilaian standar bahasa Inggris dari empat jenis tugas multi-modal (Zero-shot Caption/VQA/DocVQA/Grounding), ia telah mencapai SOTA.

Begitu berita open source keluar, menarik banyak perhatian.

Mari kita lihat performa spesifiknya~

Model umum pertama yang mendukung pemosisian domain terbuka Tiongkok

Mari kita lihat ciri-ciri model seri Qwen-VL secara keseluruhan:

Dialog multibahasa: mendukung dialog multibahasa, dukungan ujung ke ujung untuk pengenalan teks panjang dalam bahasa Mandarin dan Inggris dalam gambar;
Dialog interleaved multi-gambar: mendukung input dan perbandingan multi-gambar, menentukan pertanyaan dan jawaban gambar, pembuatan literatur multi-gambar, dll.;
Model tujuan umum pertama yang mendukung penentuan posisi domain terbuka Tiongkok: bingkai deteksi ditandai melalui ekspresi bahasa domain terbuka Tiongkok, yaitu, objek target dapat ditemukan secara akurat di layar;
Pengenalan dan pemahaman menyeluruh: Dibandingkan dengan resolusi 224 yang digunakan oleh LVLM sumber terbuka lainnya (model bahasa visual skala besar), Qwen-VL adalah model LVLM resolusi 448 sumber terbuka pertama. Resolusi yang lebih tinggi dapat meningkatkan pengenalan teks yang lebih detail, menjawab pertanyaan dokumen, dan anotasi kotak deteksi.

Dalam hal skenario, Qwen-VL dapat digunakan dalam skenario seperti menjawab pertanyaan pengetahuan, menjawab pertanyaan gambar, menjawab pertanyaan dokumen, dan pemosisian visual yang mendetail.

Misalnya, jika seorang teman asing yang tidak mengerti bahasa Mandarin pergi ke rumah sakit untuk menemui dokter, menghadap peta panduan dengan satu kepala dan dua kepala besar, dan tidak tahu cara menuju ke departemen terkait, ia dapat langsung melempar peta tersebut. dan pertanyaan ke Qwen-VL, dan biarkan mengikuti informasi Gambar bertindak sebagai penerjemah.

Mari kita uji masukan multi-gambar dan perbandingannya:

Meskipun dia tidak mengenali Arnia, penilaian emosinya memang cukup akurat (kepala anjing manual).

Dari segi kemampuan positioning visual, meskipun gambarnya sangat rumit dan karakternya banyak, Qwen-VL dapat menemukan Hulk dan Spiderman secara akurat sesuai kebutuhan.

Dalam hal detail teknis, Qwen-VL menggunakan Qwen-7B sebagai model bahasa dasar, memperkenalkan encoder visual ViT ke dalam arsitektur model, dan menghubungkan keduanya melalui adaptor bahasa visual yang sadar posisi, sehingga model tersebut mendukung input sinyal visual. .

Proses pelatihan khusus dibagi menjadi tiga langkah:

Pra-pelatihan: hanya mengoptimalkan encoder visual dan adaptor bahasa visual, membekukan model bahasa. Menggunakan data pasangan gambar-teks berskala besar, resolusi gambar masukan adalah 224x224.
Pra-pelatihan multi-tugas: Memperkenalkan data bahasa visual multi-tugas dengan resolusi lebih tinggi (448x448), seperti VQA, VQA teks, pemahaman referensi, dll., untuk pra-pelatihan bersama multi-tugas.
Penyempurnaan yang diawasi: membekukan encoder visual, mengoptimalkan model bahasa dan adaptor. Gunakan data interaksi dialog untuk penyetelan cepat guna mendapatkan model Qwen-VL-Chat akhir dengan kemampuan interaktif.

Para peneliti menguji Qwen-VL pada penilaian bahasa Inggris standar dalam empat kategori tugas multimodal (Zero-shot Caption/VQA/DocVQA/Grounding).

Hasilnya menunjukkan bahwa Qwen-VL mencapai hasil terbaik dari LVLM open source dengan ukuran yang sama.

Selain itu, para peneliti membuat set pengujian TouchStone berdasarkan mekanisme penilaian GPT-4.

Dalam uji perbandingan ini, Qwen-VL-Chat mencapai SOTA.

Jika anda tertarik dengan Qwen-VL, ada demo di Modak Community dan huggingface yang bisa anda coba langsung, dan linknya ada di akhir artikel~

Qwen-VL mendukung peneliti dan pengembang untuk melakukan pengembangan sekunder, dan juga memungkinkan penggunaan komersial, namun perlu diperhatikan bahwa untuk penggunaan komersial, Anda perlu mengisi aplikasi kuesioner terlebih dahulu.

Tautan proyek:

-Mengobrol

Alamat kertas:

Lihat Asli

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar