Apple 4M - Framework Open Source da Apple para treinamento multi modal.

Apple 4M - Framework Open Source da Apple para treinamento multi modal.
Apple 4M Framework multi model


Modelos atuais de aprendizado de máquina para visão são frequentemente altamente especializados e limitados a uma única modalidade e tarefa. Em contraste, modelos recentes de linguagem ampla exibem uma ampla gama de capacidades, sugerindo a possibilidade de modelos igualmente versáteis na visão computacional. Neste artigo, damos um passo nessa direção e propomos um esquema de treinamento multimodal chamado 4M.

O 4M consiste em treinar um único codificador-decodificador Transformer unificado usando um objetivo de modelagem mascarada através de uma ampla gama de modalidades de entrada/saída – incluindo texto, imagens, modalidades geométricas e semânticas, bem como mapas de características de redes neurais. O 4M alcança escalabilidade unificando o espaço de representação de todas as modalidades, mapeando-as em tokens discretos e realizando modelagem mascarada multimodal em um pequeno subconjunto aleatório de tokens.

Onde testar ?
Você pode testar o 4M na prática através do Hugging Face no link abaixo:
https://huggingface.co/spaces/EPFL-VILAB/4M

Screenshot do 4M em funcionamento no Hugging Face

O 4M leva a modelos que exibem várias capacidades chave: (1) eles podem realizar um conjunto diversificado de tarefas de visão de forma imediata, (2) eles se destacam quando ajustados para tarefas downstream não vistas ou novas modalidades de entrada, e (3) eles podem funcionar como um modelo generativo que pode ser condicionado em modalidades arbitrárias, permitindo uma ampla variedade de capacidades expressivas de edição multimodal com notável flexibilidade.

Através de análises experimentais, demonstramos o potencial do 4M para treinar modelos de fundação versáteis e escaláveis para tarefas de visão, abrindo caminho para uma exploração mais aprofundada no aprendizado multimodal para visão e outros domínios.

Paper Cornel University:
https://arxiv.org/abs/2312.06647

Github do projeto:
https://github.com/apple/ml-4m#generation

Site do projeto:
https://4m.epfl.ch/