Puedes usar ML Kit para identificar el idioma de una string de texto. Puedes obtener el idioma más probable de la string y las puntuaciones de confianza de todos sus posibles idiomas.
El ML Kit reconoce texto en más de 100 idiomas diferentes en sus secuencias de comandos nativas. Además, se puede reconocer texto en árabe, búlgaro, chino, griego, hindi, japonés y ruso. Consulta la lista completa de lenguajes y secuencias de comandos compatibles.
Red de Búsqueda y Red de Display | Sin agrupar | |
---|---|---|
Nombre de la biblioteca | com.google.mlkit:language-id | com.google.android.gms:play-services-mlkit-language-id |
Implementación | El modelo se vincula de forma estática con tu app en el momento de la compilación. | El modelo se descarga de forma dinámica a través de los Servicios de Google Play. |
Impacto en el tamaño de la app | Aumento de tamaño de aproximadamente 900 KB. | Alrededor de 200 KB. |
Hora de inicialización | El modelo está disponible de inmediato. | Es posible que debas esperar a que se descargue el modelo antes de usarlo por primera vez. |
Probar
- Prueba la app de ejemplo para ver un ejemplo de uso de esta API.
Antes de comenzar
En tu archivo
build.gradle
de nivel de proyecto, asegúrate de incluir el repositorio Maven de Google en las seccionesbuildscript
yallprojects
.Agrega las dependencias para las bibliotecas de Android del Kit de AA al archivo Gradle a nivel de la app de tu módulo, que suele ser
app/build.gradle
. Elige una de las siguientes dependencias según tus necesidades:Para empaquetar el modelo con tu app, haz lo siguiente:
dependencies { // ... // Use this dependency to bundle the model with your app implementation 'com.google.mlkit:language-id:17.0.4' }
Para usar el modelo en los Servicios de Google Play:
dependencies { // ... // Use this dependency to use the dynamically downloaded model in Google Play Services implementation 'com.google.android.gms:play-services-mlkit-language-id:17.0.0' }
Si eliges usar el modelo en los Servicios de Google Play, puedes configurar tu app para que lo descargue automáticamente en el dispositivo después de instalarla desde Play Store. Para ello, agrega la siguiente declaración al archivo
AndroidManifest.xml
de tu app:<application ...> ... <meta-data android:name="com.google.mlkit.vision.DEPENDENCIES" android:value="langid" > <!-- To use multiple models: android:value="langid,model2,model3" --> </application>
También puedes verificar de manera explícita la disponibilidad del modelo y solicitar la descarga a través de la API de ModuleInstallClient de los Servicios de Google Play.
Si no habilitas las descargas del modelo en el momento de la instalación ni solicitas la descarga explícita, el modelo se descargará la primera vez que ejecutes el identificador. Las solicitudes que realices antes de que se complete la descarga no generan resultados.
Identificar el idioma de una string
A fin de identificar el idioma de una string, llama a LanguageIdentification.getClient()
para obtener una instancia de LanguageIdentifier
y, luego, pasa la string al método identifyLanguage()
de LanguageIdentifier
.
Por ejemplo:
Kotlin
val languageIdentifier = LanguageIdentification.getClient() languageIdentifier.identifyLanguage(text) .addOnSuccessListener { languageCode -> if (languageCode == "und") { Log.i(TAG, "Can't identify language.") } else { Log.i(TAG, "Language: $languageCode") } } .addOnFailureListener { // Model couldn’t be loaded or other internal error. // ... }
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(); languageIdentifier.identifyLanguage(text) .addOnSuccessListener( new OnSuccessListener<String>() { @Override public void onSuccess(@Nullable String languageCode) { if (languageCode.equals("und")) { Log.i(TAG, "Can't identify language."); } else { Log.i(TAG, "Language: " + languageCode); } } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Model couldn’t be loaded or other internal error. // ... } });
Si la llamada se ejecuta correctamente, se pasa un código de idioma BCP-47 al objeto de escucha que detecta el resultado correcto, lo que indica el idioma del texto. Si no se detecta ningún idioma con confianza, se pasa el código und
(indeterminado).
Según la configuración predeterminada, el Kit de AA muestra un valor distinto de und
solo cuando identifica el idioma con un valor de confianza de al menos 0.5. Para cambiar este umbral, pasa un objeto LanguageIdentificationOptions
a getClient()
:
Kotlin
val languageIdentifier = LanguageIdentification .getClient(LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.34f) .build())
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient( new LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.34f) .build());
Cómo obtener los posibles idiomas de una string
Para ver los valores de confianza de los idiomas más probables de una string, obtén una instancia de LanguageIdentifier
y, luego, pasa la string al método identifyPossibleLanguages()
.
Por ejemplo:
Kotlin
val languageIdentifier = LanguageIdentification.getClient() languageIdentifier.identifyPossibleLanguages(text) .addOnSuccessListener { identifiedLanguages -> for (identifiedLanguage in identifiedLanguages) { val language = identifiedLanguage.languageTag val confidence = identifiedLanguage.confidence Log.i(TAG, "$language $confidence") } } .addOnFailureListener { // Model couldn’t be loaded or other internal error. // ... }
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(); languageIdentifier.identifyPossibleLanguages(text) .addOnSuccessListener(new OnSuccessListener<List<IdentifiedLanguage>>() { @Override public void onSuccess(List<IdentifiedLanguage> identifiedLanguages) { for (IdentifiedLanguage identifiedLanguage : identifiedLanguages) { String language = identifiedLanguage.getLanguageTag(); float confidence = identifiedLanguage.getConfidence(); Log.i(TAG, language + " (" + confidence + ")"); } } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Model couldn’t be loaded or other internal error. // ... } });
Si la llamada se ejecuta correctamente, se pasa una lista de objetos IdentifiedLanguage
al objeto de escucha que detecta el resultado correcto. Podrás obtener el código BCP-47 del idioma en cada objeto y estar seguro de que la string está en ese idioma. Ten en cuenta que estos valores indican la confianza de que toda la string está en el idioma determinado. El Kit de AA no identifica varios idiomas en una sola string.
Según la configuración predeterminada, el Kit de AA solo muestra los idiomas con valores de confianza de al menos 0.01. Para cambiar este umbral, pasa un objeto LanguageIdentificationOptions
a getClient()
de la siguiente manera:
Kotlin
val languageIdentifier = LanguageIdentification .getClient(LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.5f) .build())
Java
LanguageIdentifier languageIdentifier = LanguageIdentification.getClient( new LanguageIdentificationOptions.Builder() .setConfidenceThreshold(0.5f) .build());
Si ningún idioma alcanza este umbral, la lista tendrá un elemento con el valor und
.