BASIS – Rosette Entity Extractor (REX)

Etiquete al instante las entidades de grandes cantidades de texto.


Rosette® Entity Extractor (REX) examina al instante inmensos volúmenes de texto multilingüe no estructurado y etiqueta datos clave. REX utiliza múltiples métodos para lograr los resultados más precisos: modelado estadístico avanzado, reglas personalizables y listas predefinidas.

Rosette Entity Extractor

Cómo funciona

Aprendizaje automatizado

Modelos estadísticos con lingüística avanzada resuelven dos problemas importantes:

  1. La superposición en los nombres de personas, lugares y organizaciones causa ambigüedad. Considere el apellido común Smith, comparado con el nombre de la firma Smith & Co. y con el de la ciudad Smithfield, RI.
  2. Nombres únicos y nuevos con formatos y variaciones ortográficas infinitos.

Debido a estos problemas, la extracción de nombres de personas, organizaciones y lugares solo puede resolverse con una solución estadística. Esta solución utiliza aprendizaje automatizado para analizar, anotar y procesar millones de noticias y artículos de blogs en la Web a fin de entrenar al modelo estadístico sobre lo que es (y no es) una entidad, en el contexto del mundo real.

Listas

Las entidades pueden simplemente correlacionarse con listas estándares y taxonomías de usuarios. Por ejemplo, los nombres de armas se correlacionan con un extractor basado en una lista. Se incluye una gran colección de diccionarios geográficos; se pueden agregar fácilmente listas personalizadas, tales como listas de vigilancia de terrorismo.

Reglas

Se pueden usar reglas para detectar expresiones regulares o patrones tales como fechas, horas y direcciones de correo electrónico. Se incluyen muchos patrones de cadena estándar; los clientes pueden personalizarlos mediante edición o adición de sus propias reglas, basados en necesidades específicas.

REX en acción

Gráfico de REX en acción

Tipos de entidades ediomas disponibles en Rosette Entity Extractor

Para más información póngase en contacto con nosotros. CONTACTO