Red de conocimiento del abogados - Bufete de abogados - Análisis de datos y aplicación de Python: versión completa interna de datos en PDF de aplicación y análisis de datos de Python

Análisis de datos y aplicación de Python: versión completa interna de datos en PDF de aplicación y análisis de datos de Python

Les he traído un recurso de libro electrónico relacionado con los datos de Python, que presenta contenido sobre Python. Este libro es publicado por People's Posts and Telecommunications Press. El formato es PDF y el tamaño del recurso es 281 MB. Fue compilado por Zhang. En la actualidad, la puntuación global de los libros electrónicos en Douban, Amazon, Dangdang, JD.COM, etc. es de 7,8 puntos.

Introducción al contenido

Contenido

Capítulo 1 Descripción general del análisis de datos de Python 1

Tarea 1.1 Comprensión del análisis de datos 1

1.1.1 Dominar el concepto de análisis de datos 2

1.1.2 Dominar el proceso de análisis de datos 2

1.1.3 Comprender los escenarios de aplicación del análisis de datos 4

Tarea 1.2 Familiarizarse con las herramientas de análisis de datos de Python 5

1.2.1 Comprender las herramientas comunes para el análisis de datos 6

1.2.2 Comprender las ventajas del análisis de datos de Python 7

1.2.3 Comprender las bibliotecas de clases comunes para el análisis de datos de Python 7

Tarea 1.3 Instalar Anaconda de Python versión 9

1.3.1 Comprender Anaconda de Python versión 9

1.3.2Instalar Anaconda 9 en sistemas Windows

1.3.3 Instalar Anaconda 12 en sistemas Linux.

Tarea 1.4 Dominar las funciones comunes de Jupyter Notebook 14

Dominar las funciones básicas de Jupiter Notebook 14

1.4.2 Dominar las funciones avanzadas de Jupiter Notepad 16

p>

Resumen 19

Ejercicios después de clase 19

Capítulo 2 Conceptos básicos del cálculo numérico de NumPy 21

Tarea 2.1 Control de la matriz NumPy object ndarray 21

p>

Creando un objeto de matriz 21

2.1.2 Generando números aleatorios 27

2.1.3 Accediendo a la matriz por índice 29

2.1.4 Conversión de forma de matriz 31

Tarea 2.2 Dominar la matriz NumPy y funciones generales 34

2.2.1 Crear matriz NumPy 34

2.2 .2 Función maestra ufunc 37

p>

Tarea 2.3 Usar NumPy 41 para análisis estadístico

2.3.1 Lectura/escritura de archivos 41

2.3. 2 Análisis estadístico simple usando funciones 44

Implementación de tareas 48

Resumen 50

Entrenamiento 50

Ejercicio 1 Crear una matriz y realizar operaciones 50

Ejercicio 2 Crear un tablero de ajedrez 50

Ejercicios después de clase 51

Capítulo 3 Conceptos básicos de visualización de datos de Matplotlib 52

Tarea 3.1 Maestro la sintaxis básica y los parámetros comunes de los gráficos 52

3.1.1 Dominar la sintaxis básica de pyplot 53

3.1.2 Establecer los parámetros rc dinámicos de pyplot 56

Tarea 3.2 Analizar la relación entre características 59

Dibujar un gráfico de dispersión 59

3.2.2 Dibujar un gráfico de líneas 62

Implementación de la tarea 65

Tarea 3.3 Analizar la distribución de datos internos y la dispersión de características 68

3.3.1 Dibujar un histograma 68

3.3.2 Dibujar un gráfico circular 70

3.3 .3 Dibujar un diagrama de bloques 71

Realización de la tarea 73

Resumen 77

Capacitación 78

La Capacitación 1 analiza las características del modelo 1996 a 2015 datos de población 78

El ejercicio 2 analiza las características de los datos de población de 1996 a 2015 La distribución y dispersión de las características.

Ejercicios después de clase 79

Capítulo 4 Conceptos básicos del análisis estadístico de Panda Página 80

Tarea 4.1 Lectura/escritura de datos de diferentes fuentes de datos 80

4.1.1 Lectura/escritura de datos de bases de datos 80

4.1.2 Lectura/escritura de archivos de texto 83

4.1.3 Lectura/escritura de archivos de Excel 87

4.1.4 Implementación de tareas 88

Tarea 4.2 Dominar las operaciones comunes del marco de datos 89

Ver los atributos comunes del marco de datos 89

4.2.2 Inspección , Modificar, agregar y eliminar datos del marco de datos91.

4.2.3 Describir y analizar marcos de datos 101.

4.2.4 Implementación de la tarea 104

Tarea 4.3 Conversión y procesamiento de datos de series de tiempo 107

4.3.1 El tiempo para convertir la cadena es 107.

4.3.2 Extracción de información de datos de series de tiempo 109

4.3.3 Suma y resta de datos de tiempo 110

4.3.4 Implementación de tareas 111

Tarea 4.4 Usar agregación de grupos para cálculos intragrupo 113

4.4.1 Usar el método groupby para dividir datos 114.

4.4.2 Agregación de datos mediante métodos de agregación 116.

4.4.3 Agregación de datos mediante la aplicación de métodos 119.

4.4.4 Agregar datos mediante el método de transformación 121.

4.4.5 Implementación de tareas 121

Tarea 4.5 Crear tabla dinámica y tabla cruzada 123

4.5.1 Utilice la función pivot_table para crear una tabla dinámica 123.

4.5.2 Utilice la función de tabla cruzada para crear una tabla cruzada 127.

4.5.3 Implementación de tareas 128

Resumen 130

Capacitación 130

Capacitación 1 Leer y ver la información básica del P2P en línea tabla maestra de datos de préstamo 130

En el ejercicio 2, extraiga la información de tiempo 130 de la tabla de actualización de información del usuario y de la tabla de información de inicio de sesión.

En el ejercicio 3, la tabla de actualización de información del usuario y la tabla de información de inicio de sesión 131 se analizan más a fondo mediante el método de agregación de grupos.

En el Ejercicio 4, la tabla de actualización de información del usuario y la tabla de información de inicio de sesión se convierten en tablas largas y cortas 131.

Ejercicio después de clase 131

Capítulo 5 Uso de pandas para el preprocesamiento de datos 133

Tarea 5.1 Fusionar datos 133

5.1.1 Apilar y fusionar datos 133

5.1.2 Clave principal fusionar datos 136

5.1.3 Fusionar superposición de datos 139

5.1.4 Implementación de tareas 140

Tarea 5.2 Limpieza de datos 141

5.2.1 Detección y procesamiento de valores duplicados

5.2.2 Detección y procesamiento de valores faltantes 146

5.2.3 Detección y procesamiento de valores atípicos 149

5.2.4 Implementación de la tarea 152

Tarea 5.3 Datos estandarizados 154

5.3.1 Desviación de datos estandarizados 154

5.3.2 Datos estandarizados de desviación estándar 155

5.3.3 Datos estandarizados de calibración decimal 156

5.3.4 Implementación de la tarea 157

Tarea 5.4 Convertir datos 158

5.4.1 Las variables ficticias procesan datos categóricos 158

5.4.2 Datos continuos discretos 160

5.4.3 Implementación de tareas 162

Resumen 163

Entrenamiento 164

Entrenamiento 1 Interpolando valores faltantes de los datos de energía del usuario 164

Ejercicio 2 Fusionando pérdida de línea, tendencia de consumo de energía y datos de alarma de línea 164

Entrenamiento 3 Datos de muestra de expertos en modelado estandarizado 164

Ejercicios después de clase 165

Capítulo 6 Uso de scikit-learn para construir un modelo 167.

Tarea 6.1 Procesar datos 167 con conversor sklearn.

6.1.1 Cargar el conjunto de datos 167 en el módulo del conjunto de datos.

6.1.2 Dividir el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba 170.

6.1.3 Utilice sklearn Converter65438 para el preprocesamiento de datos y la reducción de dimensionalidad 172

6.1.4 Implementación de tareas 174

Tarea 6.2 Construya y evalúe modelos de agrupamiento 176

6.2.1 Utilice el estimador sklearn para construir un modelo de agrupamiento 176.

6.2.2 Evaluar el modelo de clúster 179

6.2.3 Implementación de la tarea 182

Tarea 6.3 Construir y evaluar el modelo de clasificación 183

6.3 .1Construya un modelo de clasificación utilizando el estimador sklearn 183.

6.3.2 Evaluar el modelo de clasificación 186

6.3.3 Implementación de la tarea 188

Tarea 6.4 Construir y evaluar el modelo de regresión 190

6.4 .1Construcción de un modelo de regresión lineal utilizando estimadores sklearn 190.

6.4.2 Evaluación de modelos de regresión 193

6.4.3 Implementación de tareas 194

Resumen 196

Capacitación 196

Capacitación 1 Uso de sklearn en vino y conjunto de datos de calidad de vino 196.

Ejercicio 2: Construya un modelo de agrupamiento de K-Means basado en el conjunto de datos del vino 196.

Ejercicio 3: Construya un modelo de clasificación SVM basado en el conjunto de datos de vino 197.

Ejercicio 4: Construya un modelo de regresión basado en el conjunto de datos Wine_quality 197.

Ejercicios después de clase 198

Capítulo 7 Análisis del valor para el cliente de las aerolíneas 199

Tarea 7.1 Comprender la situación actual de las aerolíneas y el análisis del valor para el cliente 199

7.1.1 Comprender la situación actual de las aerolíneas 200

7.1.2 Comprender el análisis de valor para el cliente 201

7.1.3 Familiarizarse con los pasos y procesos del análisis de valor para el cliente de la aviación 201

Tarea 7.2 Preprocesar datos de clientes de aerolíneas 202

7.2.1 Manejar datos faltantes y anormales 202

7.2.2 Establecer características clave para el análisis del valor del cliente de aerolíneas 202

7.2.3 Cinco características del modelo LRFMC estandarizado 206

Implementación de la tarea 207

Tarea 7.3 Uso del algoritmo K-means para agrupación de clientes 209

7.3 .1 Comprender el algoritmo de agrupamiento de K-medias 209

7.3.2 Análisis de resultados de agrupamiento 210

7.3.3 Aplicación del modelo 213

7.3. 4 Implementación de la tarea 214

Resumen 215

Capacitación 215

Capacitación 1 Manejo de datos atípicos de tarjetas de crédito 215

Ejercicio 2 Construcción de características clave de Evaluación de riesgos del cliente de tarjetas de crédito 217

Ejercicio 3 Construcción del modelo de agrupamiento de medias K 218

Ejercicio posterior a la clase 218

Capítulo 8 Pronóstico y análisis de ingresos fiscales Página 220

Tarea 8.1 Comprender los antecedentes y el método de previsión de ingresos fiscales 220

8.1.1 Análisis de antecedentes de la previsión de ingresos fiscales 220

8.1.2 Comprender el método de pronóstico de ingresos fiscales 222

8.1.3 Familiarizado con los pasos y procesos de pronóstico de ingresos fiscales 223

Tarea 8.2 Analizar la correlación de las características de los datos de ingresos fiscales 223

8.2.1 Comprender el análisis de correlación 223

p>

Análisis de los resultados del cálculo 224

Implementación de la tarea 225

Tarea 8.3 Usar la regresión Lasso para seleccionar características clave de los ingresos fiscales pronóstico 225

8.3.1 Comprensión del método de regresión Lasso 226

8 3 2 Análisis de resultados de la regresión Lasso 227

8.3.3 Implementación de tareas

.

Tarea 8.4 Uso de la predicción de grises y la regresión de vectores de soporte para construir un modelo de predicción de ingresos fiscales 228

Comprensión del algoritmo de predicción de grises 228

8.4.2 Comprensión del algoritmo SVR 229

8.4.3 Resultados de análisis y predicción 232

p>

Implementación de tareas 234

Resumen 236

Entrenamiento 236

Ejercicio 1 Encuentre el coeficiente de correlación entre las características del impuesto sobre la renta empresarial 236

Ejercicio 2 Selección de características clave de la previsión del impuesto sobre la renta empresarial 237

Ejercicio 3: Construcción de un modelo de previsión del impuesto sobre la renta empresarial 237

Ejercicio después de clase 237

Capítulo 9 Uso en el hogar Análisis del comportamiento del usuario del calentador de agua e identificación de eventos 239

Tarea 9.1 Comprender los antecedentes y los pasos del comportamiento del usuario del calentador de agua doméstico análisis 239

9.1.1 Análisis de la situación actual de la industria de calentadores de agua domésticos 240

9.1.2 Comprender la situación básica de la recopilación de datos por calentador de agua 240

9.1.3 Familiarizarse con los pasos y el proceso del análisis del comportamiento del usuario de calentadores de agua domésticos 241

Tarea 9.2 Preprocesar los datos de consumo de agua de los usuarios de calentadores de agua 242

Eliminar funciones redundantes 242

9.2.2 Clasificar eventos de uso de agua 243

9.2.3 Determinar el umbral de duración de un solo evento de uso de agua 244

Implementación de tareas 246

Tarea 9.3 Construir características de comportamiento de uso del agua y filtrar eventos de uso de agua 247

9.3.1 Características de duración y frecuencia del agua de construcción 248

9.3.2 Consumo de agua de construcción y características de fluctuación 249

9.3.3 Selección de proyectos de natación candidatos 250

9.3.4 Realización de tareas 251

La tarea 9.4 es un evento de comportamiento Analizar y establecer un modelo de red neuronal BP 255

9.4.1 Comprender los principios del algoritmo de red neuronal BP 255

9.4.2 Modelo arquitectónico 259

9.4.3 Modelo de evaluación 260

Implementación de tareas 260

Resumen 263

Capacitación 263

Capacitación 1 Datos del cliente del operador de limpieza 263

Ejercicio 2 Filtrado de datos del operador del cliente 264

Ejercicio 3 Creación de un modelo de predicción de red neuronal 265

Entrada de la lección -ejercicio 265

Apéndice A 267

Apéndice B 270

Archivo de referencia 295

Notas de estudio

Jupyter Notebook (anteriormente conocido como cuaderno IPython) es un cuaderno interactivo que admite más de 40 lenguajes de programación. La esencia de Jupyter Notebook es una aplicación web que facilita la creación y * * * disfrute de documentos de programas literarios, admitiendo código en tiempo real, ecuaciones matemáticas, visualización y rebajas. Los usos incluyen: limpieza y transformación de datos, simulación numérica, modelado estadístico, aprendizaje automático, etc. Definición (Aprendizaje recomendado: tutorial en vídeo de Python) Los usuarios pueden compartir cuadernos de Júpiter con otros a través de correo electrónico, Dropbox, GitHub y Jupyter Notebook Viewer. En Jupyter Notebook, el código puede generar imágenes, vídeos, LaTeX y JavaScript en tiempo real. Los datos de Kaggle, la competencia más popular en el campo de la minería de datos, están en formato Jupyter. Arquitectura Componentes de Júpiter Júpiter incluye los siguientes componentes: cuaderno Jupyter y...

Este artículo ofrece un ejemplo de la función de análisis de datos de amigos de WeChat implementada en Python. Compártalo con todos para su referencia, de la siguiente manera: Aquí utilizamos principalmente Python para analizar amigos personales de WeChat y enviar los resultados a un documento html. Los principales paquetes de Python utilizados son itchat, pandas, pyecharts, etc. 1. Instale el SDK de Python de itchat WeChat para ganar amistad personal. El código resultante es el siguiente: importar itchat importar panda como PD desde gráficos pye importar geo, barit iniciar sesión()amigos = it chat obtener _ amigos(actualizar = Verdadero)[0:]def Usuario 2 dict(Usuario) :Usuario _ dict = { } Usuario _ dict[" NickName "]= Usuario[" NickName "]if Usuario[" NickName "]else " NaN " Usuario _ dict[" Ciudad "]= Usuario[" Ciudad "]if Usuario [" Ciudad "]else " NaN " User _ dict[" Sex "]= User[" Sex "]if

Itchat, una biblioteca de Python basada en la interfaz de cuenta personal abierta de WeChat, realiza la adquisición de WeChat amigos y proporciona Provincia, género y firma de WeChat se utilizaron para el análisis de datos. Efecto: codificación directa, cree tres archivos de texto vacíos: stopwords.txt, newdit.txt, unionWords.txt, descargue la fuente simhei.ttf o elimine el código requerido para la fuente y luego ejecútelo directamente. # wx amigos. py 2065 438+08-07-09 importar itchat importar sys importar pandas como PD importar matplotlib. py plot como PLT rcparams[' sans-serif ']=[' sim hei ']# Chinese PLT. rcparams['axes.unicode _ MINUS ']= false #Se puede mostrar al dibujar. Importado de China.

Probablemente una falsificación de scipy. Se mostrará engañoso en imread desde la nube de palabras, importar la nube de palabras desde la ruta de osimport # al dibujar. Resuelva el problema de codificaciónnon _ BMP _ map = dict from key(range(0x 10000, sys.maxunicode+1), 0xfffd) # Obtener información de amigos def get friends():...

Un dos. -color ball Ejemplo, utilizado para el análisis de datos de Python para predecir el próximo resultado de la lotería según un algoritmo de regresión lineal

Este artículo utiliza el análisis de datos de Python como ejemplo para predecir el próximo resultado de la lotería según un algoritmo de regresión lineal. Lo comparto contigo para tu referencia. Los detalles son los siguientes: He descrito varios algoritmos para bolas de dos colores. Aquí predeciré los números del próximo Shuangseqiu. Pensar en ello me emociona un poco. El algoritmo de regresión lineal se utiliza en el código. Este escenario utiliza este algoritmo y el efecto de predicción es promedio. Puede considerar utilizar otros algoritmos para probar los resultados. Descubrí que mucho código solía ser un trabajo repetitivo. Para que el código pareciera más elegante, definí una función, la llamé y de repente se convirtió en #! /usr/bin/python# -*-encoding:UTF-8 -*-#Importar paquetes requeridos importar pandas como PD importar numpy como NP importar maplotlib.py trazar como operador de importación PLT importar conjunto de datos desde sklearn, desde sklearn .linear _ model importar regresión logística #Leer archivo d...

Lo anterior es todo el contenido relevante del libro electrónico de datos de Python presentado esta vez. Esperamos que los recursos que hemos recopilado puedan ayudar a todos y gracias por su apoyo a Guigui.

Nota: Método de acceso: Mensaje privado (666)