Skip to content

BASIS – Rosette Language Identifier (RLI)

Identifique idiomas y trasforme codificaciones de caracteres.


Rosette® Language Identifier (RLI)  analiza el texto de documentos para determinar y localizar el idioma en el que está escrito y el esquema de codificación de caracteres con suma velocidad y altísima precisión. La identificación automática del idioma simplifica el procesamiento de cantidades grandes de texto, lo cual es necesario para aplicaciones que clasifican, buscan, procesan y almacenan texto en muchos idiomas. Ciertos documentos se pueden enviar a especialistas en idiomas o se pueden etiquetar automáticamente para mejorar la dinámica de trabajo. Este proceso también se puede combinar con complementos de motores de búsqueda para idiomas específicos (como Rosette Base Linguistics), a fin de mejorar la calidad de los resultados de búsqueda.

RLI logra su increíble precisión a través del uso de algoritmos patentados con perfiles de idioma abundantes en información derivados de análisis estadísticos. Como expertos en lingüística con un profundo entendimiento en la intersección de los idiomas y la tecnología, Basis Technology mejora continuamente la familia de productos Rosette con adiciones de idiomas, actualizaciones de funciones y las más recientes innovaciones del mundo académico.

Rosette Language Identifier

Funciones de Identificación

  • Identifica el idioma principal o predominante de un documento
  • Identifica las escrituras de los idiomas dentro del documento, como latín y cirílico
  • Determina los idiomas y sus porcentajes dentro de documentos multilingües
  • Funciona con idiomas que se han transliterado como el chat árabe que se escribe en alfabeto latino

Gráfico de porcentaje de idiomas de Basis

Localizador de límites de idioma

El texto digital con frecuencia se compone de varios idiomas dentro del mismo documento, lo que representa un desafío para las computadoras y el hombre. RLI enriquece el texto con marcadores de inicio y fin para cada idioma colocado en los documentos multilingües, incluso si todos los idiomas se escriben con el mismo alfabeto, ya sea inglés, francés, alemán o italiano. Los límites de cada sistema de escritura también se detectan, como el latín, el cirílico, el kana japonés o el hanzi chino.

Gráfco identificador de idiomas de Basis

Conversión de codificación

Si bien las normas de codificación de texto modernas como XML exigen el uso de Unicode, muchas aplicaciones, documentos, páginas web y secuencias de datos emplean “codificaciones heredadas”, como ASCII, ISO 8859‑1 Shift‑JIS e innumerables ejemplos.

Rosette convierte con precisión grandes recopilaciones de texto con estas codificaciones heredadas en un formato simple y uniforme en la norma Unicode. Este texto convertido puede usarse posteriormente en cualquier idioma, lo que elimina la corrupción de datos y otros problemas debidos a códigos incompatibles.

Basis transforma otras codificaciones a Unicode

Volver arriba