Digital forensic imaging for law enforcement and corporate investigations The increasing diversity, size and sophistication…
BASIS – Rosette Entity Extractor (REX)
Etiquete al instante las entidades de grandes cantidades de texto.
Rosette® Entity Extractor (REX) examina al instante inmensos volúmenes de texto multilingüe no estructurado y etiqueta datos clave. REX utiliza múltiples métodos para lograr los resultados más precisos: modelado estadístico avanzado, reglas personalizables y listas predefinidas.
Cómo funciona
Aprendizaje automatizado
Modelos estadísticos con lingüística avanzada resuelven dos problemas importantes:
- La superposición en los nombres de personas, lugares y organizaciones causa ambigüedad. Considere el apellido común Smith, comparado con el nombre de la firma Smith & Co. y con el de la ciudad Smithfield, RI.
- Nombres únicos y nuevos con formatos y variaciones ortográficas infinitos.
Debido a estos problemas, la extracción de nombres de personas, organizaciones y lugares solo puede resolverse con una solución estadística. Esta solución utiliza aprendizaje automatizado para analizar, anotar y procesar millones de noticias y artículos de blogs en la Web a fin de entrenar al modelo estadístico sobre lo que es (y no es) una entidad, en el contexto del mundo real.
Listas
Las entidades pueden simplemente correlacionarse con listas estándares y taxonomías de usuarios. Por ejemplo, los nombres de armas se correlacionan con un extractor basado en una lista. Se incluye una gran colección de diccionarios geográficos; se pueden agregar fácilmente listas personalizadas, tales como listas de vigilancia de terrorismo.
Reglas
Se pueden usar reglas para detectar expresiones regulares o patrones tales como fechas, horas y direcciones de correo electrónico. Se incluyen muchos patrones de cadena estándar; los clientes pueden personalizarlos mediante edición o adición de sus propias reglas, basados en necesidades específicas.