Schnellstart: Erste Schritte mit GPT-4 Turbo with Vision für Ihre Bilder und Videos in Azure KI Studio

Wichtig

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Lesen Sie diesen Artikel, um zu erfahren, wie Sie Azure KI Studio für das Bereitstellen und Testen des GPT-4 Turbo with Vision-Modells verwenden.

GPT-4 Turbo with Vision und das Azure KI Vision-Angebot bieten unter anderem die folgenden erweiterten Funktionen:

  • Optische Zeichenerkennung (Optical Character Recognition, OCR): Diese Funktion extrahiert Text aus Bildern und kombiniert ihn mit dem Prompt und dem Bild der Benutzer*innen, um den Kontext zu erweitern.
  • Objektgrounding: Durch diese Funktion wird die GPT-4 Turbo with Vision-Textantwort mit dem Objektgrounding ergänzt, und markante Objekte in den Eingabebildern werden skizziert.
  • Videoprompts: GPT-4 Turbo with Vision kann Fragen beantworten, indem die Videoframes abgerufen werden, die für den Prompt der Benutzer*innen am relevantesten sind.

Bei der Verwendung von GPT-4 Turbo mit Vision- und Azure KI Vision-Funktionen können zusätzliche Nutzungsgebühren anfallen.

Voraussetzungen

Vorbereiten Ihrer Medien

Sie benötigen ein Bild, um die Schnellstartanleitungen für Bilder abzuschließen. Sie können dieses Beispielbild oder ein beliebiges anderes Bild verwenden, das Ihnen zur Verfügung steht.

Foto eines Autounfalls, das zum Abschließen des Schnellstarts verwendet werden kann

Für Videoprompts benötigen Sie ein Video, das weniger als drei Minuten lang ist.

Bereitstellen eines GPT-4 Turbo mit Vision-Modells

  1. Melden Sie sich bei Azure KI Studio an, und wählen Sie den Hub aus, in dem Sie arbeiten möchten.
  2. Wählen Sie im linken Navigationsmenü die Option KI-Dienste aus. Wählen Sie den Bereich GPT-4 Turbo ausprobieren aus.
  3. Wählen Sie auf der Seite „gpt-4“ die Option Bereitstellen aus. Wählen Sie im daraufhin angezeigten Fenster Ihre Azure OpenAI-Ressource aus. Wählen Sie vision-preview als Modellversion aus.
  4. Klicken Sie auf Bereitstellen.
  5. Wechseln Sie als Nächstes zur Seite Ihres neuen Modells, und wählen Sie In Playground öffnen aus. Im Chat-Playground sollte die von Ihnen erstellte GPT-4-Bereitstellung in der Dropdownliste Bereitstellung ausgewählt sein.

In dieser Chatsitzung weisen Sie den Assistenten an, Sie beim Verstehen von Bildern zu unterstützen, die Sie eingeben.

  1. Geben Sie im Textfeld Systemnachricht auf der Registerkarte Systemnachricht diesen Prompt an, um den Assistenten anzuleiten: "You're an AI assistant that helps people find information." Sie können den Prompt für Ihr Bild oder Szenario anpassen.
  2. Wählen Sie zum Speichern der Änderungen Änderungen übernehmen aus.
  3. Wählen Sie im Chatsitzungsbereich die Schaltfläche „Anlage“ und dann Bild hochladen aus. Wählen Sie Ihr Bild aus.
  4. Fügen Sie die folgende Frage im Chatfeld hinzu: "Describe this image". Wählen Sie dann zum Senden das Symbol mit dem nach rechts zeigenden Pfeil aus.
  5. Das Symbol mit dem nach rechts zeigenden Pfeil wird durch eine Stoppschaltfläche ersetzt. Wenn Sie sie auswählen, beendet der Assistent die Verarbeitung Ihrer Anforderung. Lassen Sie den Assistenten die Antwort für diese Schnellstartanleitung abschließen.
  6. Der Assistent antwortet mit einer Beschreibung des Bilds.
  7. Senden Sie eine weitere Anweisung im Zusammenhang mit der Analyse Ihres Bilds. Sie können "What should I highlight about this image to my insurance company?" eingeben.
  8. Sie sollten eine Antwort empfangen, die etwa dem folgenden Beispiel ähnelt:
    When reporting the incident to your insurance company, you should highlight the following key points from the image:  
    
    1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  
    
    2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  
    
    3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  
    
    4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  
    
    5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  
    
    6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  
    
    Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.
    

Anzeigen und Exportieren von Code

Zu jedem Zeitpunkt in der Chatsitzung können Sie den Schalter JSON-Rohdaten anzeigen oben im Chatfenster aktivieren, um die als JSON formatierte Unterhaltung anzuzeigen. Hier sehen Sie den Status zu Beginn der Schnellstart-Chatsitzung:

[
	{
		"role": "system",
		"content": [
			"You are an AI assistant that helps people find information."
		]
	},
]

Bereinigen von Ressourcen

Um unnötige Azure-Kosten zu vermeiden, sollten Sie die in diesem Schnellstart erstellten Ressourcen löschen, wenn sie nicht mehr benötigt werden. Zum Verwalten von Ressourcen können Sie das Azure-Portal verwenden.

Nächste Schritte