¿Cuáles son los principales sistemas de archivos distribuidos actuales? ¿Cuáles son las ventajas y desventajas de cada uno?
¿Cuáles son los principales sistemas de archivos distribuidos actuales? ¿Cuáles son las ventajas y desventajas de cada uno?
En la actualidad, además de GPFS, varios sistemas de archivos distribuidos convencionales incluyen PVFS, Lustre, PanFS, GoogleFS, etc.
1. El proyecto PVFS (Parallel Virtual File System) es un proyecto de código abierto establecido por la Universidad de Clemson para implementar clústeres de Linux. Actualmente, PVFS todavía tiene las siguientes deficiencias:
1) Nodo de administración único: solo hay un nodo de administración para administrar los metadatos. Cuando el sistema del clúster alcanza una cierta escala, el nodo de administración puede estar demasiado ocupado. En este momento, el nodo de administración se convertirá en el cuello de botella del sistema. > 2) La gestión del almacenamiento de datos carece de un mecanismo tolerante a fallos: cuando un determinado nodo de E/S no funciona, los datos no estarán disponibles;
3) Configuración estática: la configuración de PVFS solo puede debe realizarse antes del inicio Una vez que se ejecuta el sistema Entonces la configuración original no se puede cambiar.
2. El sistema de archivos Lustre es un sistema de archivos distribuido basado en almacenamiento de objetos. Este proyecto se lanzó en la Universidad Carnegie Mellon en 1999. Lustre también es un proyecto de código abierto. Tiene solo dos nodos de gestión de metadatos, similar a PVFS. Cuando el sistema alcanza una cierta escala, los nodos de gestión se convertirán en el cuello de botella del sistema Lustre.
3.PanFS (Panasas File System) es un sistema de archivos distribuido utilizado por Panasas para administrar su propio sistema de almacenamiento en clúster.
4. GoogleFS (Google File System) es un sistema de archivos distribuido diseñado por Google para satisfacer las necesidades internas de procesamiento de datos de la empresa.
5. En comparación con otros sistemas de archivos, las principales ventajas de GPFS son los siguientes tres puntos:
1) Utilice la gestión de bloqueos distribuidos y una estrategia de grandes bloques de datos para admitir sistemas de clúster más grandes. El administrador de tokens del sistema de archivos establece bloqueos detallados para bloques, inodos, atributos y entradas de directorio. El primer cliente en obtener el bloqueo será responsable de mantener la gestión de coherencia de los objetos compartidos correspondientes, lo que reduce la necesidad de servidores de metadatos. La carga sobre el servidor;
2) Hay varios servidores de metadatos y los metadatos también se distribuyen, por lo que la gestión de metadatos ya no es un cuello de botella del sistema
3) Los bytes de administración de tokens se utilizan como la unidad más pequeña de bloqueo, lo que significa que, a menos que dos solicitudes accedan a los mismos datos de bytes del mismo archivo, las solicitudes de acceso a los datos nunca entrarán en conflicto. ¿Cuáles son los principales sistemas de archivos distribuidos actuales?
Los sistemas de archivos distribuidos, los sistemas de archivos en clúster y los sistemas de archivos paralelos se confunden fácilmente. En la práctica, la gente suele utilizarlos indiscriminadamente. La gente siempre pregunta sobre las diferencias y conexiones entre estos tres. De hecho, existen superposiciones conceptuales entre ellos, pero también diferencias significativas. ¿Cuáles son las ventajas y desventajas del sistema de archivos distribuido de Google?
Sistema de archivos del sistema de archivos de Google
Para satisfacer las crecientes necesidades de procesamiento de datos de Google, Google diseñó e implementó el sistema de archivos de Google. (GFS, sistema de archivos de Google). GFS comparte muchos de los mismos objetivos que los sistemas de archivos distribuidos del pasado, como rendimiento, escalabilidad, confiabilidad y disponibilidad. Sin embargo, su diseño también estuvo influenciado por la carga de aplicaciones y el entorno técnico de Google. Se refleja principalmente en los siguientes cuatro aspectos:
1. La falla del nodo en el clúster es un estado normal, no una anomalía. Dado que la cantidad de nodos que participan en el cálculo y el procesamiento es muy grande, generalmente se utilizan miles de nodos para los cálculos conjuntos. Por lo tanto, siempre habrá nodos en un estado fallido en todo momento.
Se necesitan módulos de programas de software para monitorear el estado de ejecución dinámica del sistema, detectar errores e integrar sistemas de tolerancia a fallas y recuperación automática en el sistema.
2. El concepto de tamaño de archivo en el sistema de Google es diferente al de los sistemas de archivos normales. El tamaño de archivo generalmente se mide en G bytes. Además, el significado de los archivos en el sistema de archivos es diferente al de los archivos normales. Un archivo grande puede contener una gran cantidad de archivos pequeños en el sentido habitual. Por lo tanto, es necesario reconsiderar las expectativas de diseño y parámetros como las operaciones de E/S y el tamaño de los bloques.
3. El modo de lectura y escritura de archivos en el sistema de archivos de Google es diferente del sistema de archivos tradicional. Las modificaciones realizadas en la mayoría de los archivos de las aplicaciones de Google (como las de búsqueda) no sobrescriben los datos originales, sino que añaden datos nuevos al final del archivo. La escritura aleatoria en el archivo es casi inexistente. Para este tipo de modo de acceso a archivos enormes, el caché del bloque de datos del cliente pierde significado y las operaciones de adición se convierten en optimización del rendimiento y atomicidad (piense en una transacción como un programa. Se ejecuta por completo o no se ejecuta en absoluto) Enfoque garantizado.
4. Algunas operaciones específicas del sistema de archivos ya no son transparentes y requieren la ayuda de aplicaciones. El codiseño de aplicaciones y API del sistema de archivos mejora la flexibilidad de todo el sistema. Por ejemplo, los requisitos para el modelo de coherencia GFS se relajan, lo que simplifica enormemente el diseño del sistema de archivos sin aumentar la carga de la aplicación. También se introducen operaciones de adición atómica, de modo que cuando varios clientes se agregan al mismo tiempo, no se requieren operaciones de sincronización adicionales.
En definitiva, GFS está diseñado para las propias aplicaciones de Google. Se dice que Google ha implementado muchos clústeres GFS. Algunos clústeres tienen más de 1000 nodos de almacenamiento y más de 300 T de espacio en el disco duro, a los que cientos de clientes acceden de forma continua y frecuente en diferentes máquinas. ¿Cuáles son las principales categorías de sistemas de archivos distribuidos?
1. Sistema de archivos independiente
Se utiliza para el almacenamiento local de sistemas operativos y aplicaciones.
2. Sistema de archivos de red (NAS)
Basado en la arquitectura Ethernet existente, se realiza el intercambio de datos del sistema de archivos tradicional entre diferentes servidores.
3. Sistema de archivos en clúster
Basado en el almacenamiento compartido, mediante bloqueos de clúster, diferentes servidores pueden utilizar un sistema de archivos tradicional.
4. Sistema de archivos distribuido
En el sistema de archivos tradicional, se utilizan módulos adicionales para realizar la distribución de datos entre servidores, y la función de protección contra incursiones integrada puede garantizar que múltiples servidores accedan y modifiquen el mismo sistema de archivos al mismo tiempo. El rendimiento es superior, el kit de expansión es muy bueno y el costo es bajo.
¿Cuáles son los sistemas de archivos distribuidos comúnmente utilizados en Linux? ¿Cuáles son los principales sistemas de archivos distribuidos basados en la plataforma Linux?
Los sistemas de archivos distribuidos comunes incluyen GFS, HDFS, Lustre, Ceph, GridFS, mogileFS, TFS, FastDFS, etc. Cada uno es adecuado para diferentes campos. Ninguno de ellos es un sistema de archivos distribuido a nivel de sistema, sino un servicio de almacenamiento de archivos distribuido a nivel de aplicación.
GFS (Sistema de archivos de Google)
---------------------------- -- ------
Un sistema de archivos distribuido propietario basado en Linux desarrollado por Google para satisfacer las necesidades de la empresa. . Aunque Google ha anunciado algunos detalles técnicos del sistema, no ha publicado la parte del software del sistema como software de código abierto.
Los siguientes sistemas de archivos distribuidos son todos productos similares a GFS.
HDFS
----------------------------------- --
Hadoop implementa un sistema de archivos distribuido (Hadoop Distributed File System), denominado HDFS. Hadoop es una biblioteca de búsqueda de texto ampliamente utilizada desarrollada por el fundador de Apache Lucene, Doug Cutting. Se originó en Apache Nutch, que es un motor de búsqueda web de código abierto y que en sí mismo forma parte del proyecto Luene. La arquitectura Aapche Hadoop es una aplicación de código abierto del algoritmo MapReduce y es una piedra angular importante del imperio de Google.
Cef
----------------------------------- ---
Es un sistema de archivos distribuido desarrollado por Sage Weil de la Universidad de California, Santa Cruz cuando estudiaba su doctorado. y completó su tesis utilizando Ceph.
Se dijo que ceph tiene el mayor rendimiento. El código escrito en C es compatible con Fuse y no tiene dependencias de punto único de falla, así que lo descargué e instalé porque ceph usa el sistema de archivos btrfs. El sistema de archivos btrfs requiere Linux 2.6.34 o superior. Solo el núcleo lo admite.
Sin embargo, ceph es demasiado inmaduro. El btrfs en el que se basa es en sí mismo inmaduro. Su sitio web oficial también establece claramente que no se debe utilizar ceph en un entorno de producción.
Brillo
---------------------------------- - ---
Lustre es un sistema de archivos en clúster a gran escala, seguro, confiable y de alta disponibilidad desarrollado y mantenido por SUN.
El objetivo principal de este proyecto es desarrollar un sistema de archivos de clúster de próxima generación que pueda soportar más de 10.000 nodos y un sistema de almacenamiento de datos con petabytes de datos.
En la actualidad, Lustre se ha utilizado en algunos campos, como en los productos HP SFS. ¿Cuáles son los principales sistemas de archivos distribuidos en la plataforma Linux?
¿Cuáles son los sistemas de archivos distribuidos recomendados, como hadoop, lustre, gluster, sector/sphere, etc. Comparación fastfs tfs glusterfs gridfs 2015
Un proceso de operación del Modelo de datos económicos: Sección de datos: Objeto/NuevoObjeto, y seleccione la opción Ecuación de este menú. Ingrese la ecuación en el cuadro de diálogo Especificación de ecuación que aparece. Datos del panel: abra vistas electrónicas, abra un archivo de trabajo, haga clic en el panel equilibrado, ingrese al cuadro de datos del panel y luego ingrese los datos