Übersicht über Szenen, Aufnahmen, Keyframeerkennungs-Einblicke

Szene, Aufnahme, Keyframeerkennung

Die Szenenerkennung erkennt, wenn sich eine Szene in einem Video basierend auf visuellen Hinweisen ändert.

Eine Szene zeigt ein einzelnes Ereignis und besteht aus einer Reihe von Aufnahmen, die miteinander verknüpft sind.

Aufnahmen sind eine Reihe von Frames, die von visuellen Hinweisen wie abrupten und graduellen Übergängen im Farbschema benachbarter Frames unterschieden werden. Die Metadaten des Screenshots umfassen Die Start- und Endzeit sowie eine Liste der keyframes, die in der Aufnahme enthalten sind.

Ein Keyframe ist ein Frame aus einem Shot, der am besten einen Shot darstellt.

Anwendungsfälle zur Szenen-, Aufnahme- und Keyframeerkennung

  • Durchsuchen, verwalten und bearbeiten Sie Ihre Videoinhalte ganz einfach basierend auf unterschiedlichen Granularitäten.
  • Verwenden Sie die Erkennung von redaktionellen Aufnahmen zum Bearbeiten von Videos in Clips, Trailern oder bei der Suche nach einem bestimmten Stil von Keyframes.

Szenenerkennung

Azure AI Video Indexer bestimmt, wann sich eine Szene basierend auf visuellen Hinweisen in Videos ändert. Eine Szene zeigt ein einzelnes Ereignis und besteht aus einer Reihe aufeinander folgender Aufnahmen, die semantisch miteinander verknüpft sind.

Ein Szenenminiaturbild ist das erste Keyframe der zugrunde liegenden Aufnahme.

Azure AI Video Indexer segmentiert ein Video basierend auf der Farbkohärenz in aufeinander folgende Aufnahmen und ruft die Anfangs- und Endzeit jeder Szene ab.

Videos müssen mindestens drei Szenen enthalten.

Szenenwechselerkennung

Azure AI Video Indexer bestimmt, wann sich ein Bild im Video basierend auf visuellen Hinweisen ändert, indem er sowohl abrupte als auch graduelle Übergänge im Farbschema benachbarter Frames erkennt. Die Metadaten der Aufnahme beinhalten eine Start- und Endzeit sowie die Liste der Keyframes, die darin enthalten sind. Die Aufnahmen sind aufeinanderfolgende Bilder, die gleichzeitig von derselben Kamera aufgenommen werden.

Keyframe-Schusstyperkennung

Der Aufnahmetyp wird basierend auf der Analyse des ersten Keyframes der einzelnen Aufnahmen bestimmt. Aufnahmen werden anhand des Maßstabs, der Größe und der Position der Gesichter identifiziert, die in ihrem ersten Keyframe abgebildet sind.

Größe und Maßstab der Aufnahme werden auf der Grundlage des Abstands zwischen der Kamera und den Gesichtern bestimmt, die im Frame dargestellt sind. Mit diesen Eigenschaften erkennt Azure AI Video Indexer die folgenden Aufnahmetypen:

  • Wide (Totale): Zeigt den gesamten Körper einer Person.
  • Medium (Halbtotale): Zeigt Oberkörper und Gesicht einer Person.
  • Close up (Nahaufnahme): Zeigt in der Hauptsache das Gesicht einer Person.
  • Extreme close-up (Extreme Nahaufnahme): Zeigt das Gesicht einer Person bildschirmfüllend.

Aufnahmetypen können auch anhand der Position der Hauptfiguren im Verhältnis zum Mittelpunkt des Frames bestimmt werden. Diese Eigenschaft definiert die folgenden Aufnahmetypen in Azure AI Video Indexer:

  • Left face (Gesicht links): Eine Person ist auf der linken Seite des Frames dargestellt.
  • Center face (Gesicht Mitte): Eine Person ist im mittleren Bereich des Frames dargestellt.
  • Right face (Gesicht rechts): Eine Person ist auf der rechten Seite des Frames dargestellt.
  • Outdoor (Außen): Eine Person ist in einer Außenumgebung dargestellt.
  • Indoor (Innen): Eine Person ist in einer Innenumgebung dargestellt.

Zusätzliche Merkmale:

  • Two shots (Zwei Aufnahmen): Zeigt die Gesichter von zwei Personen mit mittlerer Größe.
  • Multiple faces (Mehrere Gesichter): mehr als zwei Personen.

Anzeigen des Einblicks-JSON mit dem Webportal

Nachdem Sie ein Video hochgeladen und indiziert haben, stehen Einblicke im JSON-Format zum Download über das Webportal zur Verfügung.

  1. Wählen Sie die Registerkarte "Bibliothek" aus.
  2. Wählen Sie Medien aus, mit dem Sie arbeiten möchten.
  3. Wählen Sie "Herunterladen " und " Insights (JSON)" aus. Die JSON-Datei wird auf einer neuen Browserregisterkarte geöffnet.
  4. Suchen Sie nach dem in der Beispielantwort beschriebenen Schlüsselpaar.

Verwenden der API

  1. Verwenden Sie die Anforderung "Videoindex abrufen". Es wird empfohlen, die Übergabe zu übergeben &includeSummarizedInsights=false.
  2. Suchen Sie nach den in der Beispielantwort beschriebenen Schlüsselpaaren.

Beispielantwort

"scenes": [
                    {
                        "id": 1,
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:09.1333333",
                                "start": "0:00:00",
                                "end": "0:00:09.1333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "instances": [
                            {
                                "adjustedStart": "0:00:09.1333333",
                                "adjustedEnd": "0:00:10.8",
                                "start": "0:00:09.1333333",
                                "end": "0:00:10.8"
                            }
                        ]
                    },
                    {
                        "id": 3,
                        "instances": [
                            {
                                "adjustedStart": "0:00:10.8",
                                "adjustedEnd": "0:00:26.9333333",
                                "start": "0:00:10.8",
                                "end": "0:00:26.9333333"
                            }
                        ]
                    }...
                    {
                        "id": 31,
                        "instances": [
                            {
                                "adjustedStart": "0:18:45",
                                "adjustedEnd": "0:18:50.2",
                                "start": "0:18:45",
                                "end": "0:18:50.2"
                            }
                        ]
                    }
                ],
                "shots": [
                    {
                        "id": 1,
                        "tags": [
                            "Wide",
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 1,
                                "instances": [
                                    {
                                        "thumbnailId": "60152925-0e6d-48cf-be33-aa6c00dfb334",
                                        "adjustedStart": "0:00:00.1666667",
                                        "adjustedEnd": "0:00:00.2",
                                        "start": "0:00:00.1666667",
                                        "end": "0:00:00.2"
                                    }
                                ]
                            },
                            {
                                "id": 2,
                                "instances": [
                                    {
                                        "thumbnailId": "f1a09cdf-b42b-45f5-bc69-5292d1216e50",
                                        "adjustedStart": "0:00:00.2333333",
                                        "adjustedEnd": "0:00:00.2666667",
                                        "start": "0:00:00.2333333",
                                        "end": "0:00:00.2666667"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:01.9333333",
                                "start": "0:00:00",
                                "end": "0:00:01.9333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "tags": [
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 3,
                                "instances": [
                                    {
                                        "thumbnailId": "b17774d0-41cf-4174-9c41-6bc2f17c86e2",
                                        "adjustedStart": "0:00:02",
                                        "adjustedEnd": "0:00:02.0333333",
                                        "start": "0:00:02",
                                        "end": "0:00:02.0333333"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:01.9333333",
                                "adjustedEnd": "0:00:02.9666667",
                                "start": "0:00:01.9333333",
                                "end": "0:00:02.9666667"
                            }
                        ]
                    }...

Herunterladen der Keyframes mit der API

Um jeden Keyframe herunterzuladen, verwenden Sie die Keyframe-IDs mit der Anforderung "Miniaturansichten abrufen".

Warnung

Es wird nicht empfohlen, Daten direkt aus dem Artefakte-Ordner für Produktionszwecke zu verwenden. Artefakte sind Zwischenausgaben des Indizierungsprozesses. Sie sind im Wesentlichen Rohdaten der verschiedenen KI-Engines, die die Videos analysieren; das Schema der Artefakte kann sich im Laufe der Zeit ändern.

Wichtig

Es ist wichtig, die Übersicht über die Transparenzhinweise für alle VI-Features zu lesen. Jeder Einblick hat auch eigene Transparenzhinweise:

Hinweise zur Szenen-, Aufnahme- und Keyframeerkennung

  • Der Detektor funktioniert am besten auf Mediendateien, die Aufnahmen und Szenen darin haben.
  • Wenn das Video mit einer Kamera gefilmt wird, die nie bewegt wird, funktioniert die Segmentierung der Aufnahmen schlecht, und die Keyframes sind möglicherweise nicht repräsentativ.
  • Keyframes werden ausgewählt, indem die Verschwommenheitsstufe der Frames berücksichtigt wird. Wenn der großteil der Aufnahme verschwommen ist, z. B. mit Bewegung, kann der Keyframe auch verschwommen sein.
  • Videos mit schlechter visueller Qualität erzielen schlechte Ergebnisse.
  • Die Zeit der einzelnen Aufnahmen/Szenen/Keyframes kann sich verschieben (weniger als eine Sekunde).

Szenen-, Aufnahme- und Keyframekomponenten

Es sind keine Komponenten definiert.

Beispielcode

Alle Beispiele für VI anzeigen