Grande parte dos modelos de inteligência artificial que vimos nos últimos meses, desde que o assunto ficou em evidência, são de linguagem e usam palavras como ponto de partida.
A Meta está estudando fazer algo diferente: uma tecnologia chamada ImageBind, que combina seis tipos de dados, incrível, não é?
Áudio e muito mais
O novo modelo de inteligência artificial usa texto também, mas vai além e engloba:
- -Áudio,
- -Dados visuais,
- -Temperatura,
- -Profundidade e
- -Leituras de movimento.
Experiência multissensorial
A Meta acredita que o trabalho poderá, no futuro, criar uma inteligência artificial generativa de experiências multisensoriais e imersivas. Se você leu isso e pensou em metaverso, saiba que não foi o único.
O projeto está na fase inicial, de pesquisa, e não tem aplicações práticas. Mesmo assim, o código é aberto, e outros especialistas podem conhecer melhor como ele funciona.
Este ponto é interessante: OpenAI e Google compartilham muito pouco de suas tecnologias, enquanto a Meta vem fazendo o oposto e abrindo suas pesquisas.
O ImageBind
Meta quer usar ImageBind para experiências imersivas. Falar em seis tipos de dados pode soar complicado, mas é menos do que parece.
O que o ImageBind faz é relacionar todos eles, da mesma forma que outras IAs generativas.
As ferramentas para gerar imagens, por exemplo, foram treinadas com grandes conjuntos de texto e imagens. Assim, elas aprenderam a relacionar descrições a fotos, desenhos, obras de arte e mais.
Com isso, elas conseguem entender o que você gostaria de criar quando digita um pedido.
O ImageBind vai além e tenta relacionar textos, imagens (estáticas e vídeos), sons, temperaturas, profundidades e movimentos.
Um dos exemplos compartilhados pela Meta mostra a relação entre uma buzina de trem, vídeos de trens chegando a uma estação, dados de profundidade que mostram a aproximação de um objeto, e descrições como “trem para em uma estação movimentada” e “o vento sopra enquanto o trem se move por uma paisagem gramada”.
No cotidiano das pessoas
Embora tenha aplicações interessantes no ambiente profissional, esse modelo de IA também deve ser usado em soluções mais simples do dia a dia das pessoas. Uma das hipóteses é com o Make-A-Scene, tecnologia da Meta capaz de criar imagens a partir de texto.
Nesse caso, o ImageBind produziria a foto de uma floresta tropical apenas com o carregamento de sons de animais da Amazônia ou criaria um cenário urbano com efeitos sonoros de um mercado movimentado.
Se forem adicionados também vídeos demonstrativos com detalhes sobre o ambiente, a precisão do resultado será muito maior.
O Make-A-Video é um complemento ao Make-A-Scene, a nova plataforma vai além da fabricação de imagens estáticas e é capaz de criar cenas mais complexas, com múltiplos quadros e variações de uma mesma cena.
Ainda não há previsão para chegada do ImageBind no mercado, pois o modelo ainda está em fase de otimização.
A Meta não quer parar por aí
A empresa diz que modelos futuros poderiam incluir toque, fala e sinais cerebrais obtidos por ressonância magnética funcional.
A ideia é que o ImageBind chegue na realidade virtual. Assim, ele poderia gerar ambientes digitais que vão além de áudio e vídeo, com movimentos e ambientação.
Parece que, mesmo investindo mais em inteligência artificial, a Meta não desistiu da ideia do metaverso.
AGORA ME DIZ
Gostou do conteúdo? Deixe seu comentário, vou adorar saber a sua opinião. E nos acompanhe também no Instagram @focandonopositivo.
Até a próxima!