A equipe Qwen AI, braço de desenvolvimento de inteligência artificial da gigante chinesa Alibaba, anunciou entre os dias 21 e 22 de dezembro de 2025 a disponibilização em código aberto de seu mais novo modelo de imagem: o Qwen-Image-Layered. O modelo transforma fotografias planas e estáticas em pilhas estruturadas de camadas editáveis, prometendo um controle técnico comparável ao software Adobe Photoshop para imagens do mundo real e geradas por IA, operando de forma nativa dentro do próprio sistema.
O conceito de “descascamento de cebola” na decomposição de imagens
Segundo informações do portal de mercado chinês AASTOCKS, o Qwen-Image-Layered utiliza uma arquitetura desenvolvida internamente que permite “desmontar” imagens de forma comparável ao trabalho de designers profissionais. O veículo especializado AI NEWS — portal focado em atualidades de inteligência artificial — relata que a equipe Qwen descreve o processo como “image decoupling” (desacoplamento de imagem).
O sistema divide automaticamente as fotografias em camadas RGBA (Red, Green, Blue e Alpha/Transparência) semanticamente independentes. Este método é definido tecnicamente como um esquema de “descascamento de cebola”, no qual cada camada mantém seu próprio canal de cor e transparência de forma isolada, permitindo edições localizadas enquanto o restante do enquadramento permanece intacto.
Arquitetura técnica: RGBA-VAE e VLD-MMDiT
A fundamentação científica do projeto está detalhada no relatório técnico oficial: “Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition”, hospedado na plataforma de colaboração em IA Hugging Face. O documento detalha um modelo de difusão de ponta a ponta que foca no desentrelaçamento semântico de uma única imagem RGB para camadas RGBA. Para viabilizar esta flexibilidade, a equipe introduziu três componentes críticos:
-
RGBA-VAE: Um codificador automático variacional projetado para unificar os espaços de cores RGB e RGBA em um mesmo espaço latente.
-
VLD-MMDiT: Uma arquitetura de difusão capaz de processar e lidar com um número variável de camadas.
-
Treinamento Multiestágio: Uma estratégia que adapta geradores de imagem convencionais para funcionarem especificamente como decompositores multicamadas.
Relatos da AASTOCKS e da AI NEWS observam que essas inovações atacam pontos de dor históricos na edição por IA, como o fato de edições globais alterarem acidentalmente áreas que deveriam ser preservadas, e a dificuldade de fluxos baseados em máscaras de lidar com oclusões e bordas desfocadas.
Edição com desvio quase zero e recursividade
Ao isolar sujeitos, fundos, textos e outros elementos em camadas distintas, os usuários podem realizar as seguintes modificações sem a necessidade de repintar a imagem inteira:
-
Redimensionar e reposicionar elementos;
-
Recolorir objetos de forma isolada;
-
Excluir ou substituir componentes da imagem;
-
Trocar fundos completos;
-
Modificar textos sem afetar a textura subjacente.
O modelo permite configurações iniciais de 3 ou 8 camadas. No entanto, tanto a AI NEWS quanto o veículo especializado The Decoder destacam que qualquer camada individual pode ser decomposta recursivamente. Isso possibilita um controle cada vez mais granular e detalhado. A equipe descreve essa representação como uma “ponte entre imagens padrão e representações estruturadas e editáveis”, alinhando as saídas de IA aos arquivos de estilo PSD usados em fluxos de design profissional.
Disponibilidade em código aberto e integração de mercado
O projeto foi totalmente aberto sob uma licença em estilo Apache. Código-fonte, checkpoints de modelos e demonstrações online foram lançados simultaneamente no GitHub, Hugging Face e ModelScope (plataforma de modelos da própria Alibaba). Esta abertura visa atrair tanto pesquisadores quanto desenvolvedores comerciais.
O ecossistema de tecnologia já demonstra movimentações rápidas para integração:
-
Pixazo: A provedora de API lançou um playground e uma API que entrega “camadas no estilo Photoshop“, retornando máscaras, metadados e camadas para edição programática.
-
fal: A plataforma de inferência implementou o modelo promovendo “camadas em nível Photoshop” e a capacidade de especificar explicitamente a estrutura de camadas, de layouts brutos a detalhes finos.
-
Ferramentas de Design: Os arquivos são otimizados para exportação direta para Figma e Photoshop, preservando fundos transparentes para ferramentas downstream.
Ao reestruturar imagens em arquivos inerentemente editáveis, a equipe Qwen da Alibaba posiciona-se no centro de uma mudança em direção a ferramentas que se integram aos fluxos de trabalho profissionais no Brasil e no mundo, em vez de apenas substituí-los.
FAQ
1. O que é o Qwen-Image-Layered lançado pela Alibaba? É um modelo de inteligência artificial de código aberto que decompõe uma única imagem em diversas camadas editáveis (RGBA), permitindo a manipulação isolada de objetos, textos e fundos.
2. Como funciona o processo de “descascamento de cebola”? O modelo utiliza a técnica de image decoupling para separar automaticamente os elementos de uma foto em camadas semanticamente independentes, cada uma com seu próprio canal de transparência.
3. O que é a arquitetura VLD-MMDiT? É uma arquitetura de difusão de ponta a ponta desenvolvida pela equipe Qwen que permite ao modelo lidar com um número variável de camadas durante o processo de decomposição.
4. Onde posso baixar o código e os modelos do Qwen-Image-Layered? Os arquivos estão disponíveis publicamente sob licença Apache nos repositórios do GitHub, Hugging Face e ModelScope.
5. Quais as vantagens do RGBA-VAE na edição de imagens? O RGBA-VAE unifica as representações RGB e RGBA no mesmo espaço latente, permitindo que a IA realize edições com “desvio quase zero” nas partes não alteradas da imagem.
6. É possível exportar as imagens para o Photoshop ou Figma? Sim. O modelo gera camadas com fundos transparentes que podem ser importadas e editadas diretamente em ferramentas profissionais de design como Photoshop e Figma.
7. O que significa a capacidade de decomposição recursiva? Significa que cada camada gerada (como um sujeito principal) pode ser dividida novamente em camadas ainda menores, permitindo um nível de detalhamento e controle técnico superior.
8. Quais empresas já oferecem APIs para o Qwen-Image-Layered? Plataformas como Pixazo e fal já disponibilizaram APIs e playgrounds para que desenvolvedores integrem essa tecnologia em suas próprias aplicações de edição.
