Como gerar imagens com IA: um sistema de prompts agnóstico de ferramenta
Um método para chegar em imagens consistentes sem virar refém de tentativa e erro, e que sobrevive à próxima atualização do seu gerador favorito.
Por que método importa mais que ferramenta
A maior parte do que separa uma imagem ruim de uma imagem usável não está no modelo. Está em como você pede. Quem trabalha com geração de imagem por IA percebe rápido: trocar de ferramenta sem trocar de método mantém o mesmo teto de qualidade. Trocar de método com a mesma ferramenta levanta o teto inteiro.
Este post entrega um sistema reprodutível, agnóstico de plataforma. Os exemplos funcionam em ChatGPT Images, Midjourney, FLUX, Firefly, Stable Diffusion, Ideogram, Recraft, e em qualquer modelo que apareça nos próximos seis meses. Se você quer um mapa atualizado de quando usar cada um, fiz um post separado para isso, justamente porque essa parte envelhece rápido.
O que mudou em 2026 (e por que afeta como você escreve prompt)
A virada recente não foi só “mais qualidade”. Foi mais utilidade. Quatro mudanças mexem direto com a forma de pedir.
A primeira é que os modelos viraram nativamente multimodais. Você conversa, ajusta, edita e mantém contexto com muito mais naturalidade. A IA deixou de ser apenas um gerador para se comportar como parceira de iteração. Isso reduz o peso do prompt inicial perfeito e aumenta o peso da sequência de pedidos.
A segunda é que a edição entrou no centro do fluxo. Inpainting, outpainting, ajustes localizados, preservação de rosto e consistência entre versões viraram rotina. O fluxo profissional típico hoje gera uma base e refina com edições contextuais, em vez de tentar resolver tudo na primeira passada.
A terceira é que texto dentro da imagem virou viável de verdade. Ainda não é uniforme em todo modelo, mas placas, cards, títulos e layouts já funcionam em vários geradores com pouco sofrimento, especialmente os otimizados para tipografia.
A quarta é o controle. Referências de estilo, referências de personagem, guias de estrutura (bordas, profundidade, pose) e modos de rascunho aceleram a iteração de forma significativa. Em 2026, prompt bom é menos poesia e mais direção criativa.
O prompt em 7 peças
Esse é o coração do método. Memorizar essas sete peças resolve a maior parte dos problemas que aparecem na prática.
- Sujeito: quem ou o quê é o foco.
- Ação ou pose: o que está acontecendo.
- Cenário: onde, ambiente, clima.
- Composição: enquadramento (close, meio corpo, paisagem, regra dos terços).
- Luz: suave, lateral, contra-luz, golden hour, neon, etc.
- Estética: realista, editorial, ilustração flat, 3D isométrico, aquarela.
- Restrições: o que você não quer (texto, marcas, distorções, mãos extras).
Atalho mental para memorizar: quem faz o quê, onde, como aparece, com que luz, em qual estilo, e o que devo evitar.
A ciência por trás de um prompt que funciona
Modelos de imagem não entendem como humanos. Eles respondem a sinais. Seu trabalho é dar sinais bons. Quatro princípios resolvem 80% dos casos.
Hierarquia de informação
As primeiras palavras carregam mais peso. Comece pelo que não pode errar.
Versão fraca: "Em um ambiente corporativo moderno, uma pessoa..."
Versão forte: "Executiva confiante em escritório contemporâneo..."Densidade semântica
Cada palavra precisa estar fazendo trabalho. Adjetivos redundantes diluem o sinal.
Versão fraca: "Escritório corporativo muito moderno e contemporâneo"
Versão forte: "Escritório contemporâneo, design minimalista"Condicionamento progressivo
Pense em camadas, do geral para o específico.
- Base (sujeito principal)
- Contexto (ação mais cenário)
- Estética (mood e estilo)
- Técnica (lente, luz, materiais, resolução)
Ancoragem por referências visuais
Use termos que acionam bibliotecas visuais já aprendidas pelos modelos. Coisas como “editorial de moda, revista”, “luz de janela, película analógica”, “cinematográfico, ultrawide, profundidade de campo”, “ilustração flat, grid modular, ícones consistentes”. Esses termos funcionam como atalhos para estilos inteiros.
A receita base (copiar e colar)
Use em qualquer plataforma. Troque só os colchetes.
[Sujeito] [ação/pose], em [cenário].
Composição: [enquadramento], [distância/câmera].
Luz: [tipo de luz]. Estética: [estilo], [mood].
Paleta: [2-3 cores]. Detalhes: [materiais/texturas].
Evite: [lista de negativos]. Formato: [proporção].Uma dica que parece pequena e salva horas: paleta limitada. Se você não manda a paleta, o modelo escolhe por você, e a escolha do modelo é imprevisível.
Exemplos por caso de uso
1. Retrato editorial realista
Retrato editorial de [pessoa], meio corpo, olhando para a câmera.
Composição: regra dos terços; lente 50mm simulada; profundidade de campo suave.
Luz: lateral suave de janela; sombras macias.
Estética: realista, calor humano, pele natural, textura de filme.
Paleta: âmbar e terracota; fundo minimalista.
Evite: texto, logotipos, distorção de mãos, dentes estranhos. Formato 3:4.2. Foto de produto em estúdio limpo
Foto de [produto] em fundo cyclorama branco, ângulo levemente alto.
Luz: softbox 45 graus, sombra suave controlada.
Estética: clean premium, detalhes nítidos, material realista.
Evite: marcas reais, texto, reflexos sujos. Formato 3:2.3. Ilustração didática ou infográfico
Ilustração flat explicando [tema] em [n] etapas.
Ícones consistentes, grid modular, espaçamentos generosos.
Paleta acessível: [cores], contraste alto.
Deixe áreas vazias para inserir textos depois.
Evite: texto renderizado agora, excesso de detalhes. Formato 16:9.4. Cena 3D isométrica para conteúdo de tech
Ilustração 3D isométrica de [tema], materiais foscos, microtexturas leves.
Luz global suave, sombras limpas, sem ruído.
Paleta: azul acinzentado com cor de destaque [cor].
Evite: texto, realismo excessivo, objetos deformados. Formato 1:1.5. Paisagem cinematográfica
Paisagem cinematográfica de [lugar] ao [momento do dia].
Composição: ultrawide, horizonte baixo, camadas de profundidade.
Luz: [tipo], neblina leve, atmosfera realista.
Paleta: [cores], contraste suave.
Evite: pessoas, texto, marcas d'água. Formato 21:9.6. Mockup de aplicativo ou interface
Tela de app minimalista para [função], estilo iOS moderno.
Layout: grid 8pt, tipografia limpa, hierarquia clara.
Mockup em smartphone sobre mesa de madeira clara, luz natural suave.
Evite: texto ilegível, ícones inconsistentes, logos reais. Formato 4:5.7. Ilustração conceitual abstrata
Ilustração conceitual abstrata representando [conceito], formas orgânicas.
Estética: editorial moderna, alto contraste, textura sutil.
Paleta: preto, creme e [cor de destaque].
Evite: figurativo óbvio, texto, ruído excessivo. Formato 1:1.8. Cena lifestyle ou cotidiana
Cena lifestyle: [pessoa] [ação] em [ambiente], estilo fotografia documental.
Luz: natural, fim de tarde, sombras suaves.
Estética: realista, espontânea, sem pose rígida.
Evite: pele plastificada, mãos extras, objetos derretidos. Formato 4:5.Técnicas avançadas
Meta-prompting
Quando você não sabe como pedir, peça para a própria IA estruturar o pedido. Funciona bem para casos novos ou conceitos vagos.
Quero uma imagem para [objetivo]. Meu público é [público].
Sugira 3 prompts completos usando o blueprint de 7 peças, em estilos diferentes.
Em cada um, inclua negativos e proporção.Prompt chaining
Pense em iteração controlada, em três ou quatro passadas, cada uma com um foco.
- Gere a base (composição e luz)
- Trave o estilo (paleta e estética)
- Ajuste detalhes finos (materiais, rosto, objetos)
- Só então mexa em cenário, se necessário
Conditional prompting
Gere variações com intenção declarada. Por exemplo, uma versão mais realista, outra mais ilustrativa, outra mais cinemática. Depois você escolhe um caminho e aprofunda. Isso é melhor do que pedir “variação” genérica, porque te força a nomear o que está testando.
Parâmetros sem jargão
Você não precisa dominar terminologia técnica para controlar o resultado. O essencial cabe em poucos pontos:
- Proporção (aspect ratio): 1:1, 4:5, 16:9, 21:9. Escolha em função do destino, não do gosto.
- Qualidade: quando a plataforma expõe níveis, use rascunho para explorar e alta para finalizar.
- Seed: útil para repetir uma vibe. Nem toda plataforma expõe.
- Referência de estilo: imagem-guia para manter estética coerente entre peças.
- Referência de personagem: manter rosto e roupa coerentes em várias cenas.
- Máscara: editar só uma parte específica (trocar cor, remover objeto, ajustar fundo).
Proveniência e transparência
Em 2026, gerar uma imagem boa deixou de ser o suficiente. Em vários contextos, é preciso também explicar de onde ela veio. Isso passou de boa prática para exigência regulatória em alguns territórios.
O padrão técnico hoje é o C2PA (Coalition for Content Provenance and Authenticity), mantido sob a Linux Foundation. Ele define o que se chama de Content Credentials: uma estrutura criptograficamente assinada, embutida no arquivo, que registra quem criou, com qual ferramenta, e quais edições aconteceram depois. A Content Authenticity Initiative (CAI), liderada pela Adobe, é a comunidade que cuida da adoção desse padrão.
Quem implementa hoje, em diferentes níveis: Adobe Firefly (mais maduro, embutindo credentials em todo o Creative Cloud), OpenAI (em GPT Image e Sora), Google (em Imagen), além de câmeras Leica, Samsung Galaxy S25 e Google Pixel 10, que assinam fotos nativamente. Midjourney ainda não adotou.
Três limites valem ser ditos com clareza, porque proveniência sem entender o que ela faz e o que não faz vira teatro.
Primeiro, ausência de credential não prova nada. Muitas redes sociais e plataformas removem metadados por compressão ou por design, então uma imagem sem manifesto não é necessariamente fake.
Segundo, C2PA prova que um arquivo foi assinado por um software ou dispositivo específico, mas não prova que a câmera estava apontada para o que ela disse estar apontada. É confiança de processo, não de conteúdo.
Terceiro, em contextos de alta responsabilidade (jornalismo, jurídico, educacional institucional), o caminho que está virando padrão é multicamada: metadados C2PA, marca d’água imperceptível e log centralizado de geração e modificação. A Comissão Europeia adotou essa estrutura no Code of Practice que se vincula ao AI Act, com enforcement do artigo 50 previsto para agosto de 2026.
Tradução prática: em projeto institucional, educacional ou jornalístico, registre no seu processo qual ferramenta e modelo foram usados, e qual foi o objetivo da imagem. Isso protege o trabalho e protege quem consome.
Micro-técnicas que elevam a qualidade
Três coisas pequenas que mudam o resultado de forma desproporcional.
Diga o que preservar, não só o que mudar. “Preserve o rosto”, “mantenha o enquadramento”, “não mude o fundo” funciona melhor do que pedir só o ajuste novo.
Trave um mood emocional. “Calmo e contemplativo”, “enérgico e vibrante”, “sério e institucional”. Os modelos respondem a mood, e nomear isso de forma explícita é mais barato do que tentar acertar por estilo visual.
Itere uma variável por vez. Se você muda luz, estilo, cenário e sujeito ao mesmo tempo, você não aprende nada com o resultado. Só fica cansado. Mudança isolada gera aprendizado replicável.
Quando não ficou bom: um método de depuração
A depuração é a parte mais subestimada do processo. É também onde mora a diferença real entre quem usa IA com método e quem brinca com IA.
Os problemas mais comuns e o que costuma resolver
Rosto estranho: peça “pele natural, proporções realistas, expressão sutil”. Em muitos modelos, simplesmente desligar a tentativa de hiper-realismo melhora.
Mãos bugadas: “mãos fora do quadro” ou “mãos atrás do corpo” para retratos. Ferramentas de edição contextual lidam bem com isso em segunda passada.
Texto ruim: gere sem texto e adicione depois em ferramenta de design, ou migre para um modelo conhecido por tipografia (Ideogram, Recraft, GPT Image, Imagen).
Composição confusa: reforce “sujeito central”, “fundo limpo”, “poucos elementos”. Composição é onde a tentação de pedir demais costuma sabotar o resultado.
Estilo instável entre versões: fixe paleta, use referência de estilo, mantenha o mesmo prompt base e mude só uma variável por vez.
Script de depuração sistemática
- Identifique o que está certo. Não mexa.
- Nomeie o que está errado, de forma específica.
- Ajuste o prompt só nesse ponto.
- Gere de novo.
- Repita até ficar consistente.
Esse script parece óbvio. Quase ninguém segue. Quem segue chega no resultado em metade do tempo.
Adaptação por plataforma
A mesma imagem rende diferente dependendo de onde vai parar. Três ajustes pragmáticos.
Instagram: alto contraste, assunto claro, pouco ruído visual. Formato 4:5 costuma performar bem no feed. Microdetalhes viram barulho no celular, então simplifique.
LinkedIn: estética editorial, tons moderados, calor humano. Elementos de contexto (mesa, notebook, sala) ajudam, desde que não pareçam propaganda. Menos brilho artificial, mais textura real.
YouTube (thumbnail): uma ideia por imagem. Rosto expressivo ou ícone forte. Fundo simples, leitura instantânea. Aqui o tempo de decisão do espectador é cerca de meio segundo, então clareza ganha de sofisticação.
Perguntas que aparecem com frequência
Dá para usar geração gratuita?
A maioria das plataformas tem nível gratuito, quase sempre com limites diários ou de créditos. O caminho razoável é usar o gratuito para testes e migrar para pago quando aparecer volume ou exigência de consistência.
Posso usar comercialmente?
Em geral, sim, mas depende dos termos da plataforma e do contexto. Para projetos com alta exposição comercial ou regulatória, ferramentas com licenciamento claro de dados de treinamento (Adobe Firefly é a referência) reduzem risco jurídico. Para outros usos, leia os termos da ferramenta que você está usando antes de assinar a peça.
Preciso citar o modelo usado?
Nem sempre é obrigatório, mas é boa prática. Em contexto institucional, educacional ou jornalístico, isso costuma evitar problemas e adiciona transparência. Em alguns territórios, vai virar exigência legal nos próximos meses.
Como editar só uma parte?
Em muitas ferramentas você pode editar com máscara (inpainting) e expandir cena (outpainting). Quando pedir, diga claramente o que mudar e o que preservar. Modelos de 2026 lidam bem com isso, especialmente os otimizados para edição.
Como manter consistência entre várias imagens?
Reaproveite um prompt base, trave paleta e estética, e use referência de estilo ou de personagem quando a ferramenta permitir. Mude um elemento por vez. Para personagem, ferramentas com referência facial (cref no Midjourney V8, character references no FLUX, edição contextual no Nano Banana) resolvem bem.
Por que aparece texto indesejado ou símbolos?
Alguns modelos tentam decorar automaticamente quando o cenário sugere algo (placas, livros, telas). Liste negativos explícitos (“sem texto”, “sem marcas”), reduza ruído no cenário, e se o objetivo for layout com texto, mude para uma ferramenta focada em tipografia.
Para onde ir a partir daqui
Este post entrega o método. A escolha de ferramenta é outra discussão, mais volátil, e eu separei em peça à parte: um mapa atualizado de quando usar Midjourney, GPT Image, FLUX, Imagen, Ideogram, Recraft, Firefly, Stable Diffusion e os pipelines que viraram padrão profissional em 2026.
O que fica deste guia: um sistema reprodutível, um conjunto de templates, um método de depuração que economiza horas, e um caminho para uso responsável quando proveniência importa. As ferramentas vão mudar. O método sobrevive.
Nota: Este conteúdo foi cocriado com Inteligência Artificial Generativa a partir de aulas, palestras e pesquisas do professor Isaac D’Césares.1
Footnotes
-
Isaac D’Césares é professor e pesquisador em Tecnologias Educacionais. A colaboração com IA generativa envolveu revisão e curadoria humana para garantir precisão e relevância. ↩