A equipe Qwen da Alibaba Cloud lançou o Qwen-Image-Edit, um modelo de edição de imagem de última geração que combina edição semântica e de aparência com modificação precisa de texto bilíngue, oferecendo capacidades avançadas para aplicações criativas e práticas.
A equipe Qwen da Alibaba Cloud apresentou o Qwen-Image-Edit, um modelo avançado de edição de imagens derivado da estrutura Qwen-Image de 20B. O novo sistema expande as distintas capacidades de renderização de texto do Qwen-Image aplicando-as à edição de imagens, com um foco particular na precisão nas modificações de texto. O Qwen-Image-Edit processa imagens de entrada através de dois componentes paralelos: Qwen2.5-VL, que gerencia o controle semântico visual, e o Codificador VAE, que governa a aparência visual. Essa abordagem dupla permite que o modelo lide de forma eficaz com tarefas de edição tanto em nível semântico quanto em nível de aparência. A ferramenta está acessível através do Qwen Chat na funcionalidade "Edição de Imagens".
O Qwen-Image-Edit foi projetado para atuar em múltiplas dimensões de edição. Ele suporta ajustes a nível de aparência, como a adição, remoção ou modificação de elementos visuais, enquanto mantém todas as outras áreas da imagem intactas, e edições a nível semântico, como criação de propriedade intelectual, rotação de objetos ou transferências de estilo, onde alterações de pixels mais amplas são permitidas, mas a integridade semântica é preservada. Ele também fornece capacidades refinadas de edição de texto em chinês e inglês, permitindo que os usuários adicionem, removam ou ajustem texto dentro das imagens, mantendo a consistência da fonte, tamanho e estilo. Testes de referência em vários conjuntos de dados amplamente reconhecidos indicam que o Qwen-Image-Edit alcança desempenho de ponta em edição de imagens, posicionando-o como um forte modelo base para futuras aplicações neste domínio.
Edição Semântica e de Aparência do Qwen-Image-Edit para Aplicações Criativas e Práticas
Um dos aspectos definidores do Qwen-Image-Edit é a sua funcionalidade avançada tanto na edição semântica quanto na edição de aparência. A edição semântica envolve a alteração do conteúdo de uma imagem, garantindo que o significado visual subjacente permaneça intacto. Para ilustrar esta função de forma simples, a equipe de desenvolvimento destaca o seu uso com a mascote oficial do Qwen, a Capivara, como um exemplo prático.
A observação mostra que, embora a maioria dos pixels na imagem modificada difira daqueles na imagem de entrada original à esquerda, a consistência geral do personagem Capybara permanece totalmente mantida. Isso demonstra a forte capacidade de edição semântica do Qwen-Image-Edit, que suporta o desenvolvimento flexível e variado de conteúdo de propriedade intelectual original. Além disso, dentro do Qwen Chat, um conjunto dedicado de prompts de edição foi criado em torno dos 16 tipos de personalidade MBTI. Usando esses prompts, uma coleção completa de pacotes de emojis com tema MBTI apresentando a mascote Capybara foi produzida com sucesso, estendendo efetivamente tanto a representação quanto a visibilidade do personagem.
Além disso, a síntese de novas perspectivas representa outro caso de uso importante dentro da edição semântica. O Qwen-Image-Edit é capaz de girar objetos em 90 graus ou executar uma rotação completa de 180 graus, permitindo a visualização direta do lado traseiro de um objeto. Um exemplo adicional de edição semântica reside na transferência de estilo, onde, por exemplo, um retrato padrão pode ser reinterpretado em múltiplas estéticas artísticas, incluindo estilos que lembram o Studio Ghibli.
Juntamente com a edição semântica, a edição de aparência constitui uma função frequentemente requerida na modificação de imagens. Esta abordagem foca em preservar regiões específicas de uma imagem totalmente inalteradas, enquanto introduz, remove ou altera elementos designados. Como demonstrado em um exemplo onde uma placa é incorporada de forma fluida em uma cena, a edição de aparência se presta a uma ampla gama de aplicações, como ajustes de fundo para indivíduos ou modificações de vestuário. Outra capacidade definidora do Qwen-Image-Edit é sua precisão na edição de texto, um recurso derivado da avançada especialização do Qwen-Image em tecnologias de renderização de texto.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Alibaba Lança Qwen-Image-Edit: Modelo Open-Source de 20B Para Edição Avançada de Imagens e Texto
Em resumo
A equipe Qwen da Alibaba Cloud lançou o Qwen-Image-Edit, um modelo de edição de imagem de última geração que combina edição semântica e de aparência com modificação precisa de texto bilíngue, oferecendo capacidades avançadas para aplicações criativas e práticas.
A equipe Qwen da Alibaba Cloud apresentou o Qwen-Image-Edit, um modelo avançado de edição de imagens derivado da estrutura Qwen-Image de 20B. O novo sistema expande as distintas capacidades de renderização de texto do Qwen-Image aplicando-as à edição de imagens, com um foco particular na precisão nas modificações de texto. O Qwen-Image-Edit processa imagens de entrada através de dois componentes paralelos: Qwen2.5-VL, que gerencia o controle semântico visual, e o Codificador VAE, que governa a aparência visual. Essa abordagem dupla permite que o modelo lide de forma eficaz com tarefas de edição tanto em nível semântico quanto em nível de aparência. A ferramenta está acessível através do Qwen Chat na funcionalidade "Edição de Imagens".
O Qwen-Image-Edit foi projetado para atuar em múltiplas dimensões de edição. Ele suporta ajustes a nível de aparência, como a adição, remoção ou modificação de elementos visuais, enquanto mantém todas as outras áreas da imagem intactas, e edições a nível semântico, como criação de propriedade intelectual, rotação de objetos ou transferências de estilo, onde alterações de pixels mais amplas são permitidas, mas a integridade semântica é preservada. Ele também fornece capacidades refinadas de edição de texto em chinês e inglês, permitindo que os usuários adicionem, removam ou ajustem texto dentro das imagens, mantendo a consistência da fonte, tamanho e estilo. Testes de referência em vários conjuntos de dados amplamente reconhecidos indicam que o Qwen-Image-Edit alcança desempenho de ponta em edição de imagens, posicionando-o como um forte modelo base para futuras aplicações neste domínio.
Edição Semântica e de Aparência do Qwen-Image-Edit para Aplicações Criativas e Práticas
Um dos aspectos definidores do Qwen-Image-Edit é a sua funcionalidade avançada tanto na edição semântica quanto na edição de aparência. A edição semântica envolve a alteração do conteúdo de uma imagem, garantindo que o significado visual subjacente permaneça intacto. Para ilustrar esta função de forma simples, a equipe de desenvolvimento destaca o seu uso com a mascote oficial do Qwen, a Capivara, como um exemplo prático.
A observação mostra que, embora a maioria dos pixels na imagem modificada difira daqueles na imagem de entrada original à esquerda, a consistência geral do personagem Capybara permanece totalmente mantida. Isso demonstra a forte capacidade de edição semântica do Qwen-Image-Edit, que suporta o desenvolvimento flexível e variado de conteúdo de propriedade intelectual original. Além disso, dentro do Qwen Chat, um conjunto dedicado de prompts de edição foi criado em torno dos 16 tipos de personalidade MBTI. Usando esses prompts, uma coleção completa de pacotes de emojis com tema MBTI apresentando a mascote Capybara foi produzida com sucesso, estendendo efetivamente tanto a representação quanto a visibilidade do personagem.
Além disso, a síntese de novas perspectivas representa outro caso de uso importante dentro da edição semântica. O Qwen-Image-Edit é capaz de girar objetos em 90 graus ou executar uma rotação completa de 180 graus, permitindo a visualização direta do lado traseiro de um objeto. Um exemplo adicional de edição semântica reside na transferência de estilo, onde, por exemplo, um retrato padrão pode ser reinterpretado em múltiplas estéticas artísticas, incluindo estilos que lembram o Studio Ghibli.
Juntamente com a edição semântica, a edição de aparência constitui uma função frequentemente requerida na modificação de imagens. Esta abordagem foca em preservar regiões específicas de uma imagem totalmente inalteradas, enquanto introduz, remove ou altera elementos designados. Como demonstrado em um exemplo onde uma placa é incorporada de forma fluida em uma cena, a edição de aparência se presta a uma ampla gama de aplicações, como ajustes de fundo para indivíduos ou modificações de vestuário. Outra capacidade definidora do Qwen-Image-Edit é sua precisão na edição de texto, um recurso derivado da avançada especialização do Qwen-Image em tecnologias de renderização de texto.