O futuro da Siri: IA da Apple com DeepMMSearch-R1 e Manzano

Em janeiro de 2026, a Apple revelou avanços significativos em IA da Apple, destacando pesquisas inovadoras com os modelos DeepMMSearch-R1 e Manzano. Essas novidades prometem transformar a forma como os dispositivos Apple entendem e interagem com imagens, unindo precisão, compreensão e geração multimodal em níveis antes inimagináveis. Para usuários de iPhone, Mac e desenvolvedores, isso significa que a Siri e outros serviços inteligentes poderão interpretar melhor o mundo visual ao redor, oferecendo respostas e ações mais contextuais e assertivas.

DeepMMSearch-R1: O fim das buscas por imagem imprecisas

O DeepMMSearch-R1 é um modelo de linguagem multimodal avançado que redefine buscas por imagem. Diferente de sistemas tradicionais que analisam apenas a imagem inteira, ele utiliza recorte inteligente de imagens aliado à âncora visual, permitindo localizar exatamente o objeto de interesse dentro de fotos complexas. Por exemplo, se você procura informações sobre uma garça-branca-grande em uma foto de um manguezal, o modelo identifica a ave, recorta e foca apenas nela, eliminando distrações do fundo. Essa abordagem garante respostas mais precisas em pesquisas visuais e abre caminho para aplicações de identificação de objetos em tempo real.

Como o aprendizado por reforço (RL) otimiza o modelo

Para evitar recortes desnecessários, a Apple aplicou aprendizado por reforço (RL) no treinamento do DeepMMSearch-R1. A IA é recompensada quando seleciona regiões relevantes e penalizada por recortes inúteis, garantindo que o modelo aprenda a priorizar informações significativas. Esse método aumenta a eficiência da busca e reduz erros de interpretação, tornando a experiência do usuário mais fluida e confiável. O RL transforma o DeepMMSearch-R1 em uma ferramenta não apenas precisa, mas adaptativa, que melhora continuamente com o uso e feedback humano.

Os pesquisadores da Apple conseguiram ajustar o LLM multimodal para que ele utilize a ferramenta de recorte somente quando necessário.
Imagem: Apple Insider

Manzano: Unificando compreensão e geração de imagens

Enquanto o DeepMMSearch-R1 foca na pesquisa visual, o Manzano da Apple busca unificar compreensão e geração de imagens em um único modelo multimodal. Diferente do GPT-4o, que ainda separa tarefas de geração e interpretação, o Manzano consegue analisar imagens, entender contextos complexos e gerar conteúdo visual de forma coerente. Isso significa que, em uma única interação, a Siri poderá interpretar uma imagem, identificar elementos, sugerir edições e até criar variações visuais sem precisar de múltiplos sistemas separados.

O segredo do tokenizador de visão híbrido

O Manzano se destaca graças ao seu tokenizador de visão híbrido, que combina características contínuas e discretas. As características contínuas capturam nuances visuais, como gradientes de cor e texturas, enquanto as discretas codificam padrões reconhecíveis e estruturas objetivas. Essa combinação permite que o modelo compreenda a imagem de forma mais humana e gere respostas precisas, seja descrevendo, editando ou criando conteúdo visual. Para usuários e desenvolvedores, isso representa um salto na interação multimodal, aproximando a IA da Apple da percepção visual natural.

O impacto na Siri e o futuro do iOS

Com a integração prevista para a primavera de 2026 no iOS 26.4, esses avanços em IA da Apple terão efeitos diretos na Siri. O assistente poderá interpretar imagens enviadas pelo usuário, recortar automaticamente áreas relevantes, sugerir melhorias ou gerar novos conteúdos. Imagine tirar uma foto de um documento ou de um objeto e pedir à Siri para destacar informações, traduzir textos ou até criar uma versão estilizada da imagem. Esse nível de inteligência multimodal promete transformar o iPhone e o Mac em ferramentas ainda mais inteligentes e criativas, elevando a experiência do usuário a patamares inéditos.

Conclusão e impacto

Os modelos DeepMMSearch-R1 e Manzano representam a vanguarda da Inteligência Artificial multimodal da Apple, unindo precisão em buscas visuais e capacidade de geração de imagens em um único ecossistema. Para desenvolvedores e usuários finais, isso significa interações mais inteligentes, respostas mais rápidas e uma Siri que entende o mundo visual com maior fidelidade. Com a chegada do iOS 26.4, a expectativa é que a Apple redefina o que conhecemos como assistente inteligente, consolidando sua liderança em modelos de IA da Apple. Fique atento e compartilhe nos comentários o que você espera da “Nova Siri” e das futuras capacidades visuais dos dispositivos Apple.