Meta Segment Anything Model 2 – SAM 2
Meta ha llançat SAM 2, la nova generació del seu model de segmentació d’objectes, capaç de treballar amb imatges i vídeos en temps real. Aquest model unificat permet la segmentació precisa i ràpida sense necessitat d’adaptacions personalitzades, obrint una varietat d’aplicacions pràctiques en ciència, medicina, creació de continguts i més. SAM 2 destaca per la seva capacitat de generalització de zero-shot, millorant significativament el rendiment en comparació amb models anteriors i reduint el temps d’interacció humana en tres vegades.
El model es presenta amb el conjunt de dades SA-V, que inclou aproximadament 51,000 vídeos i més de 600,000 “masklets” (màscares espaciotemporals). Aquest conjunt de dades és 4.5 vegades més gran i té 53 vegades més anotacions que els conjunts de dades existents. L’obertura del codi i els pesos del model sota la llicència Apache 2.0 fomenta la investigació i el desenvolupament obert, permetent a la comunitat explorar noves capacitats i casos d’ús.
Característiques principals de SAM 2:
1. Segmentació d’objectes en imatges i vídeos:
- SAM 2 supera les capacitats anteriors en precisió de segmentació d’imatges i rendiment en vídeos.
- Es requereix un terç del temps d’interacció per aconseguir resultats comparables als models anteriors.
- Capaç de segmentar qualsevol objecte en qualsevol vídeo o imatge sense adaptació personalitzada.
2. Avanços en l’arquitectura:
- L’arquitectura SAM 2 generalitza d’imatges a vídeos, utilitzant un mecanisme de memòria per recordar informació prèvia i millorar la segmentació al llarg del temps.
- La inclusió d’un mòdul d’atenció a la memòria permet una segmentació precisa en cada quadre del vídeo, fins i tot en escenaris d’oclusió o desaparició de l’objecte.
3. Dataset SA-V:
- Amb més de 600,000 anotacions de masklets en aproximadament 51,000 vídeos, cobrint una àmplia diversitat geogràfica i situacions del món real.
- Inclou tant objectes complets com parts d’objectes i situacions desafiants on els objectes es oculten, desapareixen i reapareixen.
4. Aplicacions potencials:
- Creació d’efectes de vídeo, edició de vídeo, i aplicacions científiques com el seguiment de cèl·lules en vídeos microscòpics.
- Eines d’anotació més ràpides per a dades visuals, millorant sistemes de visió per ordinador en vehicles autònoms i altres tecnologies.
- Noves formes de seleccionar i interactuar amb objectes en temps real o en vídeos en viu.
5. Interactivitat i precisió:
- La capacitat de SAM 2 per manejar l’ambigüitat al generar múltiples màscares en cada pas del vídeo i permetre la refinació iterativa a través d’interaccions addicionals.
- Millores en el seguiment d’objectes malgrat els canvis dràstics en el punt de vista de la càmera, oclusions prolongades, i escenes concorregudes.
SAM 2 representa un salt qualitatiu en la tecnologia de segmentació d’objectes, unificant el processament d’imatges i vídeos amb una precisió i velocitat sense precedents. La col·laboració oberta i la disponibilitat de recursos permeten a la comunitat d’IA explorar noves fronteres en la segmentació visual, obrint un ventall de possibilitats per a innovacions futures.