L'équipe Qwen d'Alibaba Cloud a lancé Qwen-Image-Edit, un modèle de retouche d'image à la pointe de la technologie qui combine l'édition sémantique et l'édition d'apparence avec une modification de texte bilingue précise, offrant des capacités avancées pour des applications créatives et pratiques.
L'équipe Qwen d'Alibaba Cloud a introduit Qwen-Image-Edit, un modèle avancé d'édition d'images dérivé du cadre Qwen-Image 20B. Le nouveau système étend les capacités distinctes de rendu de texte de Qwen-Image en les appliquant à l'édition d'images, avec un accent particulier sur la précision des modifications de texte. Qwen-Image-Edit traite les images d'entrée à travers deux composants parallèles : Qwen2.5-VL, qui gère le contrôle sémantique visuel, et l'encodeur VAE, qui régit l'apparence visuelle. Cette approche duale permet au modèle de gérer efficacement à la fois les tâches d'édition au niveau sémantique et d'apparence. L'outil est accessible via Qwen Chat sous la fonctionnalité "Édition d'images".
Qwen-Image-Edit est conçu pour fonctionner sur plusieurs dimensions d'édition. Il prend en charge à la fois des ajustements au niveau de l'apparence, tels que l'ajout, la suppression ou la modification d'éléments visuels tout en gardant toutes les autres zones de l'image intactes, et des modifications au niveau sémantique, telles que la création de propriété intellectuelle, la rotation d'objets ou les transferts de style, où des altérations de pixels plus larges sont autorisées mais l'intégrité sémantique reste préservée. Il offre également des capacités d'édition de texte raffinées en chinois et en anglais, permettant aux utilisateurs d'ajouter, de supprimer ou d'ajuster du texte dans les images tout en maintenant la cohérence de la police, de la taille et du style. Des tests de référence sur plusieurs ensembles de données largement reconnus indiquent que Qwen-Image-Edit atteint des performances de pointe dans l'édition d'images, le positionnant comme un modèle de base solide pour de futures applications dans ce domaine.
Édition sémantique et d'apparence de Qwen-Image-Edit pour des applications créatives et pratiques
L'un des aspects déterminants de Qwen-Image-Edit est sa fonctionnalité avancée tant dans l'édition sémantique que dans l'édition d'apparence. L'édition sémantique consiste à modifier le contenu d'une image tout en veillant à ce que le sens visuel sous-jacent reste intact. Pour illustrer cette fonction de manière simple, l'équipe de développement met en avant son utilisation avec la mascotte officielle de Qwen, le Capybara, comme exemple pratique.
L'observation montre que, bien que la majorité des pixels de l'image modifiée diffèrent de ceux de l'image d'entrée originale à gauche, la cohérence générale du personnage Capybara reste pleinement maintenue. Cela démontre la forte capacité d'édition sémantique de Qwen-Image-Edit, qui supporte le développement flexible et varié de contenu de propriété intellectuelle originale. De plus, au sein de Qwen Chat, un ensemble dédié de prompts d'édition a été créé autour des 16 types de personnalité MBTI. En utilisant ces prompts, une collection complète de packs d'emojis à thème MBTI mettant en vedette la mascotte Capybara a été produite avec succès, élargissant ainsi à la fois la représentation et la visibilité du personnage.
De plus, la synthèse de nouvelles vues représente un autre cas d'utilisation important dans l'édition sémantique. Qwen-Image-Edit est capable de faire pivoter des objets de 90 degrés ou d'exécuter une rotation complète de 180 degrés, permettant ainsi de visualiser directement le côté arrière d'un objet. Un autre exemple d'édition sémantique se trouve dans le transfert de style, où, par exemple, un portrait standard peut être réinterprété en plusieurs esthétiques artistiques, y compris des styles rappelant Studio Ghibli.
Avec l'édition sémantique, l'édition d'apparence constitue une fonction fréquemment requise dans la modification d'image. Cette approche se concentre sur la préservation de régions spécifiques d'une image entièrement inchangées tout en introduisant, supprimant ou modifiant des éléments désignés. Comme le montre un exemple où un panneau est intégré de manière transparente dans une scène, l'édition d'apparence se prête à un large éventail d'applications telles que les ajustements d'arrière-plan pour les individus ou les modifications de vêtements. Une autre capacité définissante de Qwen-Image-Edit est sa précision dans l'édition de texte, une fonctionnalité dérivée de l'expertise avancée de Qwen-Image dans les technologies de rendu de texte.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Alibaba lance Qwen-Image-Edit : Modèle open-source de 20 milliards pour l'édition avancée d'images et de textes
En bref
L'équipe Qwen d'Alibaba Cloud a lancé Qwen-Image-Edit, un modèle de retouche d'image à la pointe de la technologie qui combine l'édition sémantique et l'édition d'apparence avec une modification de texte bilingue précise, offrant des capacités avancées pour des applications créatives et pratiques.
L'équipe Qwen d'Alibaba Cloud a introduit Qwen-Image-Edit, un modèle avancé d'édition d'images dérivé du cadre Qwen-Image 20B. Le nouveau système étend les capacités distinctes de rendu de texte de Qwen-Image en les appliquant à l'édition d'images, avec un accent particulier sur la précision des modifications de texte. Qwen-Image-Edit traite les images d'entrée à travers deux composants parallèles : Qwen2.5-VL, qui gère le contrôle sémantique visuel, et l'encodeur VAE, qui régit l'apparence visuelle. Cette approche duale permet au modèle de gérer efficacement à la fois les tâches d'édition au niveau sémantique et d'apparence. L'outil est accessible via Qwen Chat sous la fonctionnalité "Édition d'images".
Qwen-Image-Edit est conçu pour fonctionner sur plusieurs dimensions d'édition. Il prend en charge à la fois des ajustements au niveau de l'apparence, tels que l'ajout, la suppression ou la modification d'éléments visuels tout en gardant toutes les autres zones de l'image intactes, et des modifications au niveau sémantique, telles que la création de propriété intellectuelle, la rotation d'objets ou les transferts de style, où des altérations de pixels plus larges sont autorisées mais l'intégrité sémantique reste préservée. Il offre également des capacités d'édition de texte raffinées en chinois et en anglais, permettant aux utilisateurs d'ajouter, de supprimer ou d'ajuster du texte dans les images tout en maintenant la cohérence de la police, de la taille et du style. Des tests de référence sur plusieurs ensembles de données largement reconnus indiquent que Qwen-Image-Edit atteint des performances de pointe dans l'édition d'images, le positionnant comme un modèle de base solide pour de futures applications dans ce domaine.
Édition sémantique et d'apparence de Qwen-Image-Edit pour des applications créatives et pratiques
L'un des aspects déterminants de Qwen-Image-Edit est sa fonctionnalité avancée tant dans l'édition sémantique que dans l'édition d'apparence. L'édition sémantique consiste à modifier le contenu d'une image tout en veillant à ce que le sens visuel sous-jacent reste intact. Pour illustrer cette fonction de manière simple, l'équipe de développement met en avant son utilisation avec la mascotte officielle de Qwen, le Capybara, comme exemple pratique.
L'observation montre que, bien que la majorité des pixels de l'image modifiée diffèrent de ceux de l'image d'entrée originale à gauche, la cohérence générale du personnage Capybara reste pleinement maintenue. Cela démontre la forte capacité d'édition sémantique de Qwen-Image-Edit, qui supporte le développement flexible et varié de contenu de propriété intellectuelle originale. De plus, au sein de Qwen Chat, un ensemble dédié de prompts d'édition a été créé autour des 16 types de personnalité MBTI. En utilisant ces prompts, une collection complète de packs d'emojis à thème MBTI mettant en vedette la mascotte Capybara a été produite avec succès, élargissant ainsi à la fois la représentation et la visibilité du personnage.
De plus, la synthèse de nouvelles vues représente un autre cas d'utilisation important dans l'édition sémantique. Qwen-Image-Edit est capable de faire pivoter des objets de 90 degrés ou d'exécuter une rotation complète de 180 degrés, permettant ainsi de visualiser directement le côté arrière d'un objet. Un autre exemple d'édition sémantique se trouve dans le transfert de style, où, par exemple, un portrait standard peut être réinterprété en plusieurs esthétiques artistiques, y compris des styles rappelant Studio Ghibli.
Avec l'édition sémantique, l'édition d'apparence constitue une fonction fréquemment requise dans la modification d'image. Cette approche se concentre sur la préservation de régions spécifiques d'une image entièrement inchangées tout en introduisant, supprimant ou modifiant des éléments désignés. Comme le montre un exemple où un panneau est intégré de manière transparente dans une scène, l'édition d'apparence se prête à un large éventail d'applications telles que les ajustements d'arrière-plan pour les individus ou les modifications de vêtements. Une autre capacité définissante de Qwen-Image-Edit est sa précision dans l'édition de texte, une fonctionnalité dérivée de l'expertise avancée de Qwen-Image dans les technologies de rendu de texte.