32. Acerca de los números de análisis de funciones de series de análisis
Artículo anterior: 31. Análisis de todos los parámetros de las funciones de la serie de lectura en el paquete readr
Artículo siguiente: 33. Acerca del análisis de cadenas de las funciones de la serie de análisis
La familia de funciones de análisis acepta un vector de caracteres y devuelve un vector más especializado, como lógico, entero o de fecha.
El propósito de aprender estas funciones es comprender mejor cómo readr analiza el archivo más adelante.
Hay ocho funciones de análisis particularmente importantes: parse_logic() y parse_integer(), parse_double(), parse_double(), parse_factor(), parse_factor() y parse_factor() y parse_time().
Las listas de parámetros de estas funciones son muy similares: na especifica qué caracteres se analizan en valores faltantes; la configuración regional establece la región, que por defecto es Estados Unidos. También puedes usar locale() para crear la tuya propia. región, control como zona horaria predeterminada, codificación, punto decimal, marca grande, nombre de día/mes, etc. trim_ws elimina los espacios en blanco antes y después de los caracteres de forma predeterminada.
La primera parte es analizar los números.
En cuanto a los números, hay tres problemas principales:
1) Las personas en diferentes regiones del mundo escriben los números de diferentes maneras. Por ejemplo, las personas en algunos países usan "." punto) representa el punto decimal y algunos usan "," (coma). La solución es el concepto local del lector.
2) El contexto numérico tiene otros caracteres, como "$1000" y "10%". Utilice la función parse_number() para resolver este problema. Esta función ignora los caracteres no numéricos antes y después del número. Es especialmente útil para monedas y porcentajes. También se puede utilizar para extraer números incrustados en texto.
3) Para facilitar la lectura, se agregarán caracteres de agrupación entre números. Algunos países usan comas, como 1.000.000.000 (Estados Unidos), y algunos países usan comillas simples, como 1'000'000. ' 000 (Suiza), algunos países utilizan puntos, como 1.000.000.000 (Europa). Esto se puede resolver usando el parámetro local de parse_number(). Valor predeterminado de la función parse_number(): la marca de agrupación especificada por la configuración regional se ignora dentro del número.
Resumen: parse_double() y parse_number() se analizan juntos en el libro. parse_double() es una función de análisis relativamente estricta, mientras que parse_number() es más flexible.
Artículo anterior: 31. Análisis de todos los parámetros de las funciones de la serie de lectura en el paquete readr
Artículo siguiente: 33. Acerca del análisis de cadenas de las funciones de la serie de análisis