Tekstowe podsumowanie wideo za pomocą usługi Azure OpenAI

Artykuł
09/24/2024

Ten artykuł zawiera omówienie podsumowania tekstowego usługi Azure OpenAI za pomocą usługi Azure AI Video Indexer.

Co to jest tekstowe podsumowanie wideo w usłudze Azure AI Video Indexer?

Usługa Azure AI Video Indexer zawiera krótkie podsumowanie tego, co dotyczy filmu wideo bez konieczności oglądania całego filmu wideo. Zaprojektowano go tak, aby zaoszczędzić czas, szyfrując długie filmy wideo i dając ci ist w znacznie krótszym formacie. To jak posiadanie przyjaciela, który ogląda wszystkie odcinki serialu, a następnie dogoni cię na fabułę w ciągu zaledwie kilku minut.

System ma być narzędziem pomocniczym, które zwiększa produktywność i uczenie się poprzez destylowanie długich filmów wideo w zwięzłe, szyfrowane podsumowania.

Używa algorytmów podsumowania do identyfikowania najbardziej odpowiednich szczegółowych informacji dotyczących filmu wideo. Obejmuje to ocenianie szczegółowych informacji na podstawie ich znaczenia i istotności dla ogólnego motywu. Przyjazny dla użytkownika interfejs umożliwia wprowadzanie wideo i dostosowywanie potrzebnego typu podsumowania.

System udostępnia opcje opinii, dzięki czemu może uczyć się i ulepszać w czasie na podstawie interakcji z użytkownikiem.

Ważne

System nie ma na celu zastąpienia pełnego wyświetlania, zwłaszcza w przypadku zawartości, w której szczegóły i niuanse mają kluczowe znaczenie dla podejmowania odpowiedzialnych decyzji. Ponadto nie jest przeznaczony do podsumowywania wysoce poufnych filmów wideo, w których kontekst i prywatność są najważniejsze.

Podsumowanie tekstowe z ramkami kluczowymi

Tekstowe podsumowanie wideo z ramkami kluczowymi używa klatek kluczowych z filmu wideo w celu wygenerowania bardziej kompleksowego podsumowania. Ta funkcja jest szczególnie przydatna, gdy istnieje ograniczona zawartość audio, taka jak transkrypcja lub gdy wymagane jest bardziej całościowe podsumowanie.

Przypadki użycia

Celem zastosowania systemu podsumowania wideo opartego na sztucznej inteligencji jest zapewnienie użytkownikom szybkiego i wydajnego sposobu zrozumienia zawartości dłuższych filmów wideo bez konieczności oglądania ich w całości. Poniżej przedstawiono konkretne zamierzone zastosowania:

Edukacja. Uczniowie i nauczyciele mogą używać systemu do podsumowywania wykładów, seminariów lub treści edukacyjnych, co sprawia, że materiały studyjne są bardziej dostępne i łatwiejsze do przejrzenia oraz skupienia się na kluczowych punktach szkoleniowych lub definicjach.
Firmowe. Specjaliści mogą generować podsumowania spotkań, prezentacji lub sesji szkoleniowych, które podkreślają decyzje, elementy akcji lub kluczowe punkty spotkań. Zapewnia szybkie podsumowanie i zapewnia, że ważne informacje nie zostały pominięte.
Multimedia. Dziennikarze i opinia publiczna mogą korzystać z systemu, aby uzyskać istotę doniesień prasowych, filmów dokumentalnych lub wywiadów, oszczędzając czas, pozostając na bieżąco. Kondensuje wiadomości lub filmy dokumentalne w kawałki wielkości ukąszenia bez utraty narracji.
Formaty danych wyjściowych Można ustawić podsumowania, aby używać różnych stylów języka: neutralnego, casualowego lub formalnego. Można również ustawić długość podsumowania na krótki lub długi.

Ograniczenia

Modele. Dostrojone modele nie są obsługiwane. Dostosowany model w usłudze Azure OpenAI (AOAI) to wstępnie wytrenowany model sztucznej inteligencji, który został jeszcze bardziej zoptymalizowany pod kątem określonego zadania, szkoląc go w spersonalizowanym zestawie danych, zwiększając tym samym jego wydajność i dokładność dla tej konkretnej aplikacji.
Języki inne niż angielskie. Podsumowanie tekstowe jest zoptymalizowane pod kątem języka angielskiego. Jednak jest zgodny ze wszystkimi językami obsługiwanymi przez używany konkretny model GenAI, czyli GPT3.5 Turbo lub GPT4.0. Dlatego w przypadku zastosowania do języków innych niż angielski dokładność i jakość podsumowań mogą się różnić. Aby wyeliminować to ograniczenie, należy zachować szczególną ostrożność i sprawdzić wygenerowane podsumowania pod kątem dokładności i kompletności.
Filmy wideo z wieloma językami. Jeśli wideo zawiera mowę w wielu językach, podsumowanie tekstowe może mieć trudności z dokładnym rozpoznawaniem wszystkich języków opisywanych w filmie wideo. Należy pamiętać o tym potencjalnym ograniczeniu w przypadku korzystania z funkcji podsumowania wideo tekstowego w przypadku wielojęzycznych filmów wideo.
Wysoce wyspecjalizowane lub techniczne filmy wideo. Modele sztucznej inteligencji podsumowania wideo są zwykle trenowane na różnych filmach wideo, w tym wiadomościach, filmach i innych ogólnych treściach. Jeśli wideo jest wysoce wyspecjalizowane lub techniczne, model może nie być w stanie dokładnie wyodrębnić podsumowania filmu wideo.
Filmy wideo o niskiej jakości dźwięku lub optyczne rozpoznawanie znaków (OCR). Tekstowe modele podsumowania sztucznej inteligencji polegają również na dźwięku (między innymi szczegółowymi informacjami), aby wyodrębnić podsumowanie z wideo lub ocr w celu wyodrębnienia tekstu wyświetlanego na ekranie. Jeśli jakość dźwięku jest niska i nie zidentyfikowano OCR, model może nie być w stanie dokładnie wyodrębnić podsumowania z wideo.
Filmy z niskim oświetleniem lub szybkim ruchem. Filmy wideo, które są kręcone w niskim oświetleniu lub mają szybki ruch, mogą być trudne do przetworzenia modelu, co skutkuje niską wydajnością.
Filmy z niezwykłymi akcentami lub dialektami. Modele sztucznej inteligencji są zwykle trenowane na szeroką gamę mowy, w tym różne akcenty i dialekty. Jeśli jednak wideo zawiera mowę z akcentem lub dialektem, który nie jest dobrze reprezentowany w danych treningowych, model może mieć trudności z dokładnym wyodrębnianiem transkrypcji z wideo.
Filmy wideo zawierające szkodliwą zawartość. Filmy wideo zawierające szkodliwą lub wrażliwą zawartość mogą spowodować częściowe podsumowanie, ponieważ części zawierające poufne lub szkodliwe treści mogą zostać wykluczone.

Podsumowanie tekstowe w vi włączone przez usługę Arc

Jeśli używasz vi enbabled przez rozszerzenie Arc, możesz wygenerować podsumowanie na stronie wideo w portalu internetowym i użyć tych samych funkcji, takich jak dostosowania, ale nie ma możliwości zmiany wdrożenia modelu. Zamiast tego każde utworzone nowe rozszerzenie zawiera lokalny model Phi-3-mini-4k-instruct opracowany przez firmę Microsoft. Za żądania do modelu nie są naliczane opłaty.

Specyfikacje

Obsługiwany sprzęt: obecnie obsługuje tylko procesor CPU Firmy Intel i procesor GPU firmy Nvidia.
- Przetestowano procesor CPU na: Standard_F64s_v2 (wykorzystanie: ok. 30–32 rdzenie)
- Przetestowano procesor GPU: Standard_NC6s_v3
Średni zakres czasu wykonywania między 46 a 57% długością wideo na procesorze CPU lub 15–17% na procesorze GPU.

Znane ograniczenia i znane problemy

Obecnie uruchomienie vi na procesorach AMD może prowadzić do znacznie dłuższych środowisk uruchomieniowych i nie jest obecnie obsługiwane.
Funkcja podsumowania jest tworzona przez model języka sztucznej inteligencji i służy do ogólnego omówienia. Mimo że dążymy do dokładności i niezawodności, zawartość nie może w pełni hermetyzować istotę oryginalnego materiału. Przed użyciem zalecamy przejrzenie i zmodyfikowanie podsumowania przez człowieka. Nie należy postrzegać go jako profesjonalnych ani spersonalizowanych porad.
Wyniki podsumowania są ogólnie spójne w każdym ustawieniu podsumowania. Jednak edytowanie transkrypcji lub ponowne indeksowanie wideo może prowadzić do różnych wyników wyjściowych.
W przypadku korzystania z ustawień podsumowania styl neutralny może czasami przypominać styl formalny. Styl Casual może zawierać hashtagi związane z zawartością. Ponadto w niektórych przypadkach podsumowanie długości średniej może być krótsze niż podsumowanie "Krótkie".
Filmy wideo, które mają niewielką zawartość (na przykład bardzo krótkie filmy wideo), zazwyczaj nie są podsumowywać w celu ograniczenia potencjalnych niedokładności modelu, które mogą wystąpić podczas pracy z krótkimi danymi wejściowymi.
Podsumowanie może czasami zawierać lub odwoływać się do zawartych w nim instrukcji wewnętrznych (nazywanych "meta-prompt"). Może to obejmować dyrektywy wykluczania szkodliwej zawartości.
Długość podsumowania może mieć wpływ na poziom szczegółów wyodrębnionych z podsumowania wideo. Dłuższe podsumowania mogą spowodować uwzględnianie mniej szczegółowych informacji.
Wygenerowane podsumowanie może zawierać niedokładności, takie jak niepoprawna identyfikacja płci, wieku i innych cech osobistych.
Jeśli oryginalne wideo zawiera nieodpowiednią zawartość, wyodrębnienie danych wyjściowych podsumowania wideo może mieć wpływ na następujące sposoby: może to być niekompletne, zawierać zastrzeżenia dotyczące nieodpowiedniej zawartości, a w niektórych przypadkach może zawierać rzeczywiste nieodpowiednie cytaty, które mogą być prezentowane lub bez zastrzeżenia.

Uwagi dotyczące przezroczystości

Aby uzyskać więcej informacji na temat sposobu użycia podsumowania tekstowego, zobacz Uwagi dotyczące przezroczystości podsumowania tekstowego.

Wypróbowywanie tekstowego podsumowania wideo

Spróbuj użyć tekstowego podsumowania wideo.

Udostępnij za pośrednictwem