Meta Segment Anything Model 2 – SAM 2

Meta ha lanzado SAM 2, la nueva generación de su modelo de segmentación de objetos, capaz de trabajar con imágenes y videos en tiempo real. Este modelo unificado permite la segmentación precisa y rápida sin necesidad de adaptaciones personalizadas, abriendo una variedad de aplicaciones prácticas en ciencia, medicina, creación de contenidos y más. SAM 2 se destaca por su capacidad de generalización de cero-shot, mejorando significativamente el rendimiento en comparación con modelos anteriores y reduciendo el tiempo de interacción humana en tres veces.

El modelo se presenta con el conjunto de datos SA-V, que incluye aproximadamente 51,000 videos y más de 600,000 «masklets» (máscaras espaciotemporales). Este conjunto de datos es 4.5 veces más grande y tiene 53 veces más anotaciones que los conjuntos de datos existentes. La apertura del código y los pesos del modelo bajo la licencia Apache 2.0 fomenta la investigación y el desarrollo abierto, permitiendo a la comunidad explorar nuevas capacidades y casos de uso.

Características principales de SAM 2:

1. Segmentación de objetos en imágenes y videos:

  • SAM 2 supera las capacidades anteriores en precisión de segmentación de imágenes y rendimiento en videos.
  • Se requiere un tercio del tiempo de interacción para lograr resultados comparables a los modelos anteriores.
  • Capaz de segmentar cualquier objeto en cualquier video o imagen sin adaptación personalizada.

2. Avances en la arquitectura:

  • La arquitectura SAM 2 generaliza de imágenes a videos, usando un mecanismo de memoria para recordar información previa y mejorar la segmentación a lo largo del tiempo.
  • La inclusión de un módulo de atención a la memoria permite una segmentación precisa en cada cuadro del video, incluso en escenarios de oclusión o desaparición del objeto.

3. Dataset SA-V:

  • Con más de 600,000 anotaciones de masklets en aproximadamente 51,000 videos, cubriendo una amplia diversidad geográfica y situaciones del mundo real.
  • Incluye tanto objetos completos como partes de objetos y situaciones desafiantes donde los objetos se ocluyen, desaparecen y reaparecen.

4. Aplicaciones potenciales:

  • Creación de efectos de video, edición de video, y aplicaciones científicas como el seguimiento de células en videos microscópicos.
  • Herramientas de anotación más rápidas para datos visuales, mejorando sistemas de visión por computadora en vehículos autónomos y otras tecnologías.
  • Nuevas formas de seleccionar e interactuar con objetos en tiempo real o en videos en vivo.

5. Interactividad y precisión:

  • La capacidad de SAM 2 para manejar la ambigüedad al generar múltiples máscaras en cada paso del video y permitir la refinación iterativa a través de interacciones adicionales.
  • Mejoras en el seguimiento de objetos a pesar de cambios drásticos en el punto de vista de la cámara, oclusiones prolongadas, y escenas concurridas.

SAM 2 representa un salto cualitativo en la tecnología de segmentación de objetos, unificando el procesamiento de imágenes y videos con una precisión y velocidad sin precedentes. La colaboración abierta y la disponibilidad de recursos permiten a la comunidad de IA explorar nuevas fronteras en la segmentación visual, abriendo un abanico de posibilidades para innovaciones futuras.