BASIS – Rosette Entity Extractor (REX)

Etiquete al instante las entidades de grandes cantidades de texto.


Rosette® Entity Extractor (REX) examina al instante inmensos volúmenes de texto multilingüe no estructurado y etiqueta datos clave. REX utiliza múltiples métodos para lograr los resultados más precisos: modelado estadístico avanzado, reglas personalizables y listas predefinidas.

Rosette Entity Extractor

Cómo funciona

Aprendizaje automatizado

Modelos estadísticos con lingüística avanzada resuelven dos problemas importantes:

  1. La superposición en los nombres de personas, lugares y organizaciones causa ambigüedad. Considere el apellido común Smith, comparado con el nombre de la firma Smith & Co. y con el de la ciudad Smithfield, RI.
  2. Nombres únicos y nuevos con formatos y variaciones ortográficas infinitos.

Debido a estos problemas, la extracción de nombres de personas, organizaciones y lugares solo puede resolverse con una solución estadística. Esta solución utiliza aprendizaje automatizado para analizar, anotar y procesar millones de noticias y artículos de blogs en la Web a fin de entrenar al modelo estadístico sobre lo que es (y no es) una entidad, en el contexto del mundo real.

Listas

Las entidades pueden simplemente correlacionarse con listas estándares y taxonomías de usuarios. Por ejemplo, los nombres de armas se correlacionan con un extractor basado en una lista. Se incluye una gran colección de diccionarios geográficos; se pueden agregar fácilmente listas personalizadas, tales como listas de vigilancia de terrorismo.

Reglas

Se pueden usar reglas para detectar expresiones regulares o patrones tales como fechas, horas y direcciones de correo electrónico. Se incluyen muchos patrones de cadena estándar; los clientes pueden personalizarlos mediante edición o adición de sus propias reglas, basados en necesidades específicas.

REX en acción

Gráfico de REX en acción

Tipos de entidades ediomas disponibles en Rosette Entity Extractor