Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

GenAI Image Description API

Mit der GenAI Image Description API von ML Kit können Sie kurze Inhaltsbeschreibungen für Bilder generieren. Das kann in folgenden Anwendungsfällen nützlich sein:

Bildtitel generieren
Alternativtext (Alt-Text) generieren, damit Nutzer mit Sehbehinderung den Inhalt von Bildern besser verstehen
Generierte Beschreibungen als Metadaten verwenden, damit Nutzer Bilder suchen oder organisieren können
Kurze Beschreibungen von Bildern verwenden, wenn der Nutzer nicht auf den Bildschirm schauen kann, z. B. beim Autofahren oder beim Hören eines Podcasts

Hauptmerkmale

Kurze Beschreibung für ein Eingabebild zurückgeben

Beispielergebnisse

Eingabe	Ausgabe
	Ein kleiner grüner Android-Roboter mit kaktusähnlichem Design sitzt auf einer schwarzen Oberfläche.
	Ein kleiner weißer Hund mit schwarzer Nase und rosa Zunge rennt über ein grünes Feld mit einer Brücke im Hintergrund.

Erste Schritte

Fügen Sie die folgende Abhängigkeit der Build-Datei Ihres Projekts hinzu, um die GenAI Image Description API zu verwenden:

implementation("com.google.mlkit:genai-image-description:1.0.0-beta1")

Um die Image Description API in Ihre App einzubinden, müssen Sie zuerst einen ImageDescriber-Client abrufen. Prüfen Sie dann den Status der erforderlichen On-Device-Modellfunktionen und laden Sie das Modell herunter, falls es noch nicht auf dem Gerät vorhanden ist. Nachdem Sie Ihre Bildeingabe in einer ImageDescriptionRequest, vorbereitet haben, führen Sie die Inferenz mit dem Client aus, um den Bildbeschreibungstext zu erhalten, und schließen Sie den Client anschließend, um Ressourcen freizugeben.

Kotlin

// Create an image describer
val options = ImageDescriberOptions.builder(context).build()
val imageDescriber = ImageDescription.getClient(options)

suspend fun prepareAndStartImageDescription(
    bitmap: Bitmap
) {
  // Check feature availability, status will be one of the following:
  // UNAVAILABLE, DOWNLOADABLE, DOWNLOADING, AVAILABLE
  val featureStatus = imageDescriber.checkFeatureStatus().await()

  if (featureStatus == FeatureStatus.DOWNLOADABLE) {
      // Download feature if necessary.
      // If downloadFeature is not called, the first inference request
      // will also trigger the feature to be downloaded if it's not
      // already downloaded.
      imageDescriber.downloadFeature(object : DownloadCallback {
          override fun onDownloadStarted(bytesToDownload: Long) { }

          override fun onDownloadFailed(e: GenAiException) { }

          override fun onDownloadProgress(totalBytesDownloaded: Long) {}

          override fun onDownloadCompleted() {
              startImageDescriptionRequest(bitmap, imageDescriber)
          }
      })
  } else if (featureStatus == FeatureStatus.DOWNLOADING) {
      // Inference request will automatically run once feature is
      // downloaded.
      // If Gemini Nano is already downloaded on the device, the
      // feature-specific LoRA adapter model will be downloaded
      // very quickly. However, if Gemini Nano is not already
      // downloaded, the download process may take longer.
      startImageDescriptionRequest(bitmap, imageDescriber)
  } else if (featureStatus == FeatureStatus.AVAILABLE) {
      startImageDescriptionRequest(bitmap, imageDescriber)
  }
}

fun startImageDescriptionRequest(
    bitmap: Bitmap,
    imageDescriber: ImageDescriber
) {
    // Create task request
    val imageDescriptionRequest = ImageDescriptionRequest
        .builder(bitmap)
        .build()
}

  // Run inference with a streaming callback
  val imageDescriptionResultStreaming =
      imageDescriber.runInference(imageDescriptionRequest) { outputText ->
          // Append new output text to show in UI
          // This callback is called incrementally as the description
          // is generated
      }

  // You can also get a non-streaming response from the request
  // val imageDescription = imageDescriber.runInference(
  //        imageDescriptionRequest).await().description
}

// Be sure to release the resource when no longer needed
// For example, on viewModel.onCleared() or activity.onDestroy()
imageDescriber.close()

Java

// Create an image describer
ImageDescriberOptions options = ImageDescriberOptions.builder(context).build();
ImageDescriber imageDescriber = ImageDescription.getClient(options);

void prepareAndStartImageDescription(
      Bitmap bitmap
) throws ExecutionException, InterruptedException {
  // Check feature availability, status will be one of the following:
  // UNAVAILABLE, DOWNLOADABLE, DOWNLOADING, AVAILABLE
  try {
      int featureStatus = imageDescriber.checkFeatureStatus().get();
      if (featureStatus == FeatureStatus.DOWNLOADABLE) {
          // Download feature if necessary.
          // If downloadFeature is not called, the first inference request
          // will also trigger the feature to be downloaded if it's not
          // already downloaded.
          imageDescriber.downloadFeature(new DownloadCallback() {
              @Override
              public void onDownloadCompleted() {
                  startImageDescriptionRequest(bitmap, imageDescriber);
              }

              @Override
              public void onDownloadFailed(GenAIException e) {}

              @Override
              public void onDownloadProgress(long totalBytesDownloaded) {}

              @Override
              public void onDownloadStarted(long bytesDownloaded) {}
          });
      } else if (featureStatus == FeatureStatus.DOWNLOADING) {
          // Inference request will automatically run once feature is
          // downloaded.
          // If Gemini Nano is already downloaded on the device, the
          // feature-specific LoRA adapter model will be downloaded
          // very quickly. However, if Gemini Nano is not already
          // downloaded, the download process may take longer.
          startImageDescriptionRequest(bitmap, imageDescriber);
      } else if (featureStatus == FeatureStatus.AVAILABLE) {
          startImageDescriptionRequest(bitmap, imageDescriber);
      }
  } catch (ExecutionException | InterruptedException e) {
      e.printStackTrace();
  }
}

void startImageDescriptionRequest(
     Bitmap bitmap,
     ImageDescriber imageDescriber
) {
  // Create task request
  ImageDescriptionRequest imageDescriptionRequest =
          ImageDescriptionRequest.builder(bitmap).build();

  // Start image description request with streaming response
  imageDescriber.runInference(imageDescriptionRequest, newText -> {
      // Append new output text to show in UI
      // This callback is called incrementally as the description
      // is generated
  });

  // You can also get a non-streaming response from the request
  // String imageDescription = imageDescriber.runInference(
  //        imageDescriptionRequest).get().getDescription();
}

// Be sure to release the resource when no longer needed
// For example, on viewModel.onCleared() or activity.onDestroy()
imageDescriber.close();

Unterstützte Funktionen und Einschränkungen

Die GenAI Image Description API unterstützt Englisch. Weitere Sprachen werden in Zukunft hinzugefügt. Die API gibt eine kurze Beschreibung des Bildes zurück.

Die Verfügbarkeit der spezifischen Funktionskonfiguration (angegeben durch ImageDescriberOptions) kann je nach Konfiguration des jeweiligen Geräts und den auf das Gerät heruntergeladenen Modellen variieren.

Die zuverlässigste Methode für Entwickler, um sicherzustellen, dass die gewünschte API-Funktion auf einem Gerät mit den angeforderten ImageDescriberOptions unterstützt wird, ist der Aufruf der checkFeatureStatus() Methode. Diese Methode liefert den endgültigen Status der Funktionsverfügbarkeit auf dem Gerät zur Laufzeit.

Häufig auftretende Probleme bei der Einrichtung

ML Kit GenAI APIs greifen über die Android AICore App auf Gemini Nano zu. Wenn ein Gerät gerade eingerichtet (einschließlich Zurücksetzen) oder die AICore App gerade zurückgesetzt wurde (z.B. Daten gelöscht, deinstalliert und dann neu installiert), hat die AICore App möglicherweise nicht genug Zeit, die Initialisierung abzuschließen (einschließlich des Herunterladens der neuesten Konfigurationen vom Server). Daher funktionieren die ML Kit GenAI APIs möglicherweise nicht wie erwartet. Hier sind die häufigsten Fehlermeldungen bei der Einrichtung und wie Sie damit umgehen können:

Beispiel für Fehlermeldung	Vorgehensweise
AICore failed with error type 4-CONNECTION_ERROR and error code 601-BINDING_FAILURE: AICore service failed to bind.	Das kann passieren, wenn Sie die App mit ML Kit GenAI APIs sofort nach der Geräteeinrichtung installieren oder wenn AICore deinstalliert wird, nachdem Ihre App installiert wurde. Aktualisieren Sie die AICore App und installieren Sie Ihre App dann neu, um das Problem zu beheben.
AICore failed with error type 3-PREPARATION_ERROR and error code 606-FEATURE_NOT_FOUND: Feature ... is not available.	Das kann passieren, wenn AICore das Herunterladen der neuesten Konfigurationen noch nicht abgeschlossen hat. Wenn das Gerät mit dem Internet verbunden ist, dauert die Aktualisierung in der Regel einige Minuten bis einige Stunden. Ein Neustart des Geräts kann die Aktualisierung beschleunigen. Beachten Sie, dass dieser Fehler auch angezeigt wird, wenn der Bootloader des Geräts entsperrt ist. Diese API unterstützt keine Geräte mit entsperrten Bootloadern.
AICore failed with error type 1-DOWNLOAD_ERROR and error code 0-UNKNOWN: Feature ... failed with failure status 0 and error esz: UNAVAILABLE: Unable to resolve host ...	Behalten Sie die Netzwerkverbindung bei, warten Sie einige Minuten und versuchen Sie es noch einmal.

Beispielcode

ML Kit GenAI-Beispiele