Los pasos generales para la identificación de datos anormales no incluyen
Los pasos generales para la identificación de datos anormales no incluyen cambios de datos anormales.
En el análisis de datos, a menudo podemos encontrar una identificación de datos anormal. Para evitar algunas anomalías en los datos, utilizaremos algunos métodos de identificación, y los métodos utilizados en diferentes escenarios también son diferentes. La identificación anormal de datos es un problema que se encuentra con frecuencia en el análisis y la minería de datos.
El análisis y la minería de datos realizan el procesamiento de datos antes del análisis formal. Después de identificar los datos anormales, eliminan o corrigen los datos anormales para evitar que los datos anormales afecten las conclusiones del análisis, controlen el riesgo del negocio e identifiquen usuarios anormales y accesos anormales a través de los datos. , pedidos anormales, pagos anormales, etc. para evitar la invasión de equipos de producción negros.
Realice estadísticas descriptivas sobre las variables y luego considere qué datos no son razonables según el negocio. Las estadísticas de uso común son el valor máximo y el valor mínimo para determinar si la variable excede un rango razonable, por ejemplo: la edad del usuario es 150 años, lo cual es anormal;
Introducción de datos:
Los datos (datos) son el resultado de hechos u observaciones, una inducción lógica de cosas objetivas y una materia prima sin procesar que se utiliza para representar cosas objetivas.
Los datos son la expresión y portador de información, que pueden ser símbolos, texto, números, voces, imágenes, videos, etc. Los datos y la información son inseparables. Los datos son la expresión de la información y la información es la connotación de los datos. Los datos en sí mismos no tienen sentido; los datos sólo se convierten en información cuando afectan el comportamiento de las entidades.
Los datos pueden ser valores continuos, como sonidos e imágenes, que se denominan datos analógicos. También pueden ser discretos, como símbolos y texto, lo que se denomina datos digitales. En los sistemas informáticos, los datos se representan en forma de unidades de información binaria 0,1.