Alibaba lança modelo de IA que divide imagens em camadas editáveis ao estilo Photoshop

Nova ferramenta Qwen-Image-Layered permite "desmontar" fotos em camadas transparentes RGBA com controle absoluto e desvio quase zero para fluxos profissionais.

por Redação
Qwen AI

A equipe Qwen AI, braço de desenvolvimento de inteligência artificial da gigante chinesa Alibaba, anunciou entre os dias 21 e 22 de dezembro de 2025 a disponibilização em código aberto de seu mais novo modelo de imagem: o Qwen-Image-Layered. O modelo transforma fotografias planas e estáticas em pilhas estruturadas de camadas editáveis, prometendo um controle técnico comparável ao software Adobe Photoshop para imagens do mundo real e geradas por IA, operando de forma nativa dentro do próprio sistema.

O conceito de “descascamento de cebola” na decomposição de imagens

Segundo informações do portal de mercado chinês AASTOCKS, o Qwen-Image-Layered utiliza uma arquitetura desenvolvida internamente que permite “desmontar” imagens de forma comparável ao trabalho de designers profissionais. O veículo especializado AI NEWS — portal focado em atualidades de inteligência artificial — relata que a equipe Qwen descreve o processo como “image decoupling” (desacoplamento de imagem).

O sistema divide automaticamente as fotografias em camadas RGBA (Red, Green, Blue e Alpha/Transparência) semanticamente independentes. Este método é definido tecnicamente como um esquema de “descascamento de cebola”, no qual cada camada mantém seu próprio canal de cor e transparência de forma isolada, permitindo edições localizadas enquanto o restante do enquadramento permanece intacto.

Arquitetura técnica: RGBA-VAE e VLD-MMDiT

A fundamentação científica do projeto está detalhada no relatório técnico oficial: “Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition”, hospedado na plataforma de colaboração em IA Hugging Face. O documento detalha um modelo de difusão de ponta a ponta que foca no desentrelaçamento semântico de uma única imagem RGB para camadas RGBA. Para viabilizar esta flexibilidade, a equipe introduziu três componentes críticos:

  1. RGBA-VAE: Um codificador automático variacional projetado para unificar os espaços de cores RGB e RGBA em um mesmo espaço latente.

  2. VLD-MMDiT: Uma arquitetura de difusão capaz de processar e lidar com um número variável de camadas.

  3. Treinamento Multiestágio: Uma estratégia que adapta geradores de imagem convencionais para funcionarem especificamente como decompositores multicamadas.

Relatos da AASTOCKS e da AI NEWS observam que essas inovações atacam pontos de dor históricos na edição por IA, como o fato de edições globais alterarem acidentalmente áreas que deveriam ser preservadas, e a dificuldade de fluxos baseados em máscaras de lidar com oclusões e bordas desfocadas.

Edição com desvio quase zero e recursividade

Ao isolar sujeitos, fundos, textos e outros elementos em camadas distintas, os usuários podem realizar as seguintes modificações sem a necessidade de repintar a imagem inteira:

  • Redimensionar e reposicionar elementos;

  • Recolorir objetos de forma isolada;

  • Excluir ou substituir componentes da imagem;

  • Trocar fundos completos;

  • Modificar textos sem afetar a textura subjacente.

O modelo permite configurações iniciais de 3 ou 8 camadas. No entanto, tanto a AI NEWS quanto o veículo especializado The Decoder destacam que qualquer camada individual pode ser decomposta recursivamente. Isso possibilita um controle cada vez mais granular e detalhado. A equipe descreve essa representação como uma “ponte entre imagens padrão e representações estruturadas e editáveis”, alinhando as saídas de IA aos arquivos de estilo PSD usados em fluxos de design profissional.

Disponibilidade em código aberto e integração de mercado

O projeto foi totalmente aberto sob uma licença em estilo Apache. Código-fonte, checkpoints de modelos e demonstrações online foram lançados simultaneamente no GitHub, Hugging Face e ModelScope (plataforma de modelos da própria Alibaba). Esta abertura visa atrair tanto pesquisadores quanto desenvolvedores comerciais.

O ecossistema de tecnologia já demonstra movimentações rápidas para integração:

  • Pixazo: A provedora de API lançou um playground e uma API que entrega “camadas no estilo Photoshop“, retornando máscaras, metadados e camadas para edição programática.

  • fal: A plataforma de inferência implementou o modelo promovendo “camadas em nível Photoshop” e a capacidade de especificar explicitamente a estrutura de camadas, de layouts brutos a detalhes finos.

  • Ferramentas de Design: Os arquivos são otimizados para exportação direta para Figma e Photoshop, preservando fundos transparentes para ferramentas downstream.

Ao reestruturar imagens em arquivos inerentemente editáveis, a equipe Qwen da Alibaba posiciona-se no centro de uma mudança em direção a ferramentas que se integram aos fluxos de trabalho profissionais no Brasil e no mundo, em vez de apenas substituí-los.

FAQ

1. O que é o Qwen-Image-Layered lançado pela Alibaba? É um modelo de inteligência artificial de código aberto que decompõe uma única imagem em diversas camadas editáveis (RGBA), permitindo a manipulação isolada de objetos, textos e fundos.

2. Como funciona o processo de “descascamento de cebola”? O modelo utiliza a técnica de image decoupling para separar automaticamente os elementos de uma foto em camadas semanticamente independentes, cada uma com seu próprio canal de transparência.

3. O que é a arquitetura VLD-MMDiT? É uma arquitetura de difusão de ponta a ponta desenvolvida pela equipe Qwen que permite ao modelo lidar com um número variável de camadas durante o processo de decomposição.

4. Onde posso baixar o código e os modelos do Qwen-Image-Layered? Os arquivos estão disponíveis publicamente sob licença Apache nos repositórios do GitHub, Hugging Face e ModelScope.

5. Quais as vantagens do RGBA-VAE na edição de imagens? O RGBA-VAE unifica as representações RGB e RGBA no mesmo espaço latente, permitindo que a IA realize edições com “desvio quase zero” nas partes não alteradas da imagem.

6. É possível exportar as imagens para o Photoshop ou Figma? Sim. O modelo gera camadas com fundos transparentes que podem ser importadas e editadas diretamente em ferramentas profissionais de design como Photoshop e Figma.

7. O que significa a capacidade de decomposição recursiva? Significa que cada camada gerada (como um sujeito principal) pode ser dividida novamente em camadas ainda menores, permitindo um nível de detalhamento e controle técnico superior.

8. Quais empresas já oferecem APIs para o Qwen-Image-Layered? Plataformas como Pixazo e fal já disponibilizaram APIs e playgrounds para que desenvolvedores integrem essa tecnologia em suas próprias aplicações de edição.

Você também pode gostar

Compartilhe
Send this to a friend