Alibaba lança modelo de IA que divide imagens em camadas editáveis ao estilo Photoshop

A equipe Qwen AI, braço de desenvolvimento de inteligência artificial da gigante chinesa Alibaba, anunciou entre os dias 21 e 22 de dezembro de 2025 a disponibilização em código aberto de seu mais novo modelo de imagem: o Qwen-Image-Layered. O modelo transforma fotografias planas e estáticas em pilhas estruturadas de camadas editáveis, prometendo um controle técnico comparável ao software Adobe Photoshop para imagens do mundo real e geradas por IA, operando de forma nativa dentro do próprio sistema.

O conceito de “descascamento de cebola” na decomposição de imagens

Segundo informações do portal de mercado chinês AASTOCKS, o Qwen-Image-Layered utiliza uma arquitetura desenvolvida internamente que permite “desmontar” imagens de forma comparável ao trabalho de designers profissionais. O veículo especializado AI NEWS — portal focado em atualidades de inteligência artificial — relata que a equipe Qwen descreve o processo como “image decoupling” (desacoplamento de imagem).

O sistema divide automaticamente as fotografias em camadas RGBA (Red, Green, Blue e Alpha/Transparência) semanticamente independentes. Este método é definido tecnicamente como um esquema de “descascamento de cebola”, no qual cada camada mantém seu próprio canal de cor e transparência de forma isolada, permitindo edições localizadas enquanto o restante do enquadramento permanece intacto.

Arquitetura técnica: RGBA-VAE e VLD-MMDiT

A fundamentação científica do projeto está detalhada no relatório técnico oficial: “Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition”, hospedado na plataforma de colaboração em IA Hugging Face. O documento detalha um modelo de difusão de ponta a ponta que foca no desentrelaçamento semântico de uma única imagem RGB para camadas RGBA. Para viabilizar esta flexibilidade, a equipe introduziu três componentes críticos:

  1. RGBA-VAE: Um codificador automático variacional projetado para unificar os espaços de cores RGB e RGBA em um mesmo espaço latente.

  2. VLD-MMDiT: Uma arquitetura de difusão capaz de processar e lidar com um número variável de camadas.

  3. Treinamento Multiestágio: Uma estratégia que adapta geradores de imagem convencionais para funcionarem especificamente como decompositores multicamadas.

Relatos da AASTOCKS e da AI NEWS observam que essas inovações atacam pontos de dor históricos na edição por IA, como o fato de edições globais alterarem acidentalmente áreas que deveriam ser preservadas, e a dificuldade de fluxos baseados em máscaras de lidar com oclusões e bordas desfocadas.

Edição com desvio quase zero e recursividade

Ao isolar sujeitos, fundos, textos e outros elementos em camadas distintas, os usuários podem realizar as seguintes modificações sem a necessidade de repintar a imagem inteira:

  • Redimensionar e reposicionar elementos;

  • Recolorir objetos de forma isolada;

  • Excluir ou substituir componentes da imagem;

  • Trocar fundos completos;

  • Modificar textos sem afetar a textura subjacente.

O modelo permite configurações iniciais de 3 ou 8 camadas. No entanto, tanto a AI NEWS quanto o veículo especializado The Decoder destacam que qualquer camada individual pode ser decomposta recursivamente. Isso possibilita um controle cada vez mais granular e detalhado. A equipe descreve essa representação como uma “ponte entre imagens padrão e representações estruturadas e editáveis”, alinhando as saídas de IA aos arquivos de estilo PSD usados em fluxos de design profissional.

Disponibilidade em código aberto e integração de mercado

O projeto foi totalmente aberto sob uma licença em estilo Apache. Código-fonte, checkpoints de modelos e demonstrações online foram lançados simultaneamente no GitHub, Hugging Face e ModelScope (plataforma de modelos da própria Alibaba). Esta abertura visa atrair tanto pesquisadores quanto desenvolvedores comerciais.

O ecossistema de tecnologia já demonstra movimentações rápidas para integração:

  • Pixazo: A provedora de API lançou um playground e uma API que entrega “camadas no estilo Photoshop“, retornando máscaras, metadados e camadas para edição programática.

  • fal: A plataforma de inferência implementou o modelo promovendo “camadas em nível Photoshop” e a capacidade de especificar explicitamente a estrutura de camadas, de layouts brutos a detalhes finos.

  • Ferramentas de Design: Os arquivos são otimizados para exportação direta para Figma e Photoshop, preservando fundos transparentes para ferramentas downstream.

Ao reestruturar imagens em arquivos inerentemente editáveis, a equipe Qwen da Alibaba posiciona-se no centro de uma mudança em direção a ferramentas que se integram aos fluxos de trabalho profissionais no Brasil e no mundo, em vez de apenas substituí-los.

FAQ

1. O que é o Qwen-Image-Layered lançado pela Alibaba? É um modelo de inteligência artificial de código aberto que decompõe uma única imagem em diversas camadas editáveis (RGBA), permitindo a manipulação isolada de objetos, textos e fundos.

2. Como funciona o processo de “descascamento de cebola”? O modelo utiliza a técnica de image decoupling para separar automaticamente os elementos de uma foto em camadas semanticamente independentes, cada uma com seu próprio canal de transparência.

3. O que é a arquitetura VLD-MMDiT? É uma arquitetura de difusão de ponta a ponta desenvolvida pela equipe Qwen que permite ao modelo lidar com um número variável de camadas durante o processo de decomposição.

4. Onde posso baixar o código e os modelos do Qwen-Image-Layered? Os arquivos estão disponíveis publicamente sob licença Apache nos repositórios do GitHub, Hugging Face e ModelScope.

5. Quais as vantagens do RGBA-VAE na edição de imagens? O RGBA-VAE unifica as representações RGB e RGBA no mesmo espaço latente, permitindo que a IA realize edições com “desvio quase zero” nas partes não alteradas da imagem.

6. É possível exportar as imagens para o Photoshop ou Figma? Sim. O modelo gera camadas com fundos transparentes que podem ser importadas e editadas diretamente em ferramentas profissionais de design como Photoshop e Figma.

7. O que significa a capacidade de decomposição recursiva? Significa que cada camada gerada (como um sujeito principal) pode ser dividida novamente em camadas ainda menores, permitindo um nível de detalhamento e controle técnico superior.

8. Quais empresas já oferecem APIs para o Qwen-Image-Layered? Plataformas como Pixazo e fal já disponibilizaram APIs e playgrounds para que desenvolvedores integrem essa tecnologia em suas próprias aplicações de edição.

Related posts

Sol registra erupção de classe M5 durante pico do Ciclo Solar 25

Telescópio James Webb detecta moléculas orgânicas em disco de formação planetária

Partículas gigantes e jatos oscilantes marcam passagem do cometa 3I/ATLAS