Antecedentes del desarrollo del procesador celular
Ya en 2001, Sony reveló que cooperaría con IBM, e IBM diseñaría el procesador para la consola de juegos PS3. Este procesador se llamó "Cell", que significa "célula" en chino. . Ambas partes afirman que la potencia informática de Cell alcanzará un 1TeraFLOPS (operaciones flotantes por segundo) sin precedentes, lo que significa que puede realizar un billón de operaciones de punto flotante por segundo. Este rendimiento definitivamente puede alcanzar el estándar de una supercomputadora. En ese momento, la computadora más rápida del mundo era el "Earth Simulator" de NEC, que tenía una potencia informática de 36 billones de operaciones de punto flotante por segundo. En otras palabras, la potencia informática combinada de 36 consolas de juegos PS3 alcanzó el mismo nivel. Además, Cell puede admitir una tecnología informática distribuida especial. Varias PS3 conectadas entre sí pueden compartir potencia informática, logrando así un mayor rendimiento. En aquel momento, semejante concepto de diseño sorprendió. La primera reacción del mundo exterior fue que Sony sólo intentaba abrir el apetito de los jugadores, mientras IBM alardeaba.
Después de esto, PS3 y Cell fueron rápidamente olvidados. No fue hasta 2004 que Sony e IBM volvieron a anunciar algunas novedades sobre PS3 y Cell. Se dijo que Cell había completado el diseño y estaba en las pruebas de muestra. La frecuencia operativa alcanza los 2 GHz, lo que ha logrado bien los objetivos de diseño esperados, pero esto sigue siendo solo un simple informe en papel y ninguna de las partes ha exhibido ninguna muestra relevante como referencia. En este momento, la atención del mundo exterior ha sido atraída durante mucho tiempo por la feroz competencia entre Intel y AMD. Naturalmente, es imposible que el procesador Cell exclusivo para consolas de juegos obtenga una atención generalizada en la industria. En febrero de 2005, IBM publicó varios artículos técnicos sobre Cell en la "Conferencia Internacional de Circuitos de Estado Sólido (ISSCC) del IEEE", revelando las especificaciones detalladas del procesador Cell y exhibiendo muestras relacionadas. IBM también anunció que Cell había entrado en producción en masa. etapa y se presentará a Sony en los próximos meses. Así nació un microprocesador revolucionario comparable a una supercomputadora. En el siguiente texto, realizaremos un análisis técnico profundo y detallado del procesador Cell. Si los lectores tienen la paciencia de leer este artículo, es posible que descubran que el procesador X86 del que hablamos hoy está varias veces atrasado en su pensamiento.
Antes de presentar la arquitectura lógica de Cell, echemos un vistazo a las especificaciones físicas de Cell: Cell integra 234 millones de transistores y se fabrica utilizando el proceso SOI de 90 nanómetros y Low-K de IBM. Con un área de 221 milímetros cuadrados, el tamaño del chip es equivalente al Pentium D de doble núcleo de Intel y los costos de fabricación de los dos están al mismo nivel. Lógicamente, el procesador Cell se basa en un "Elemento de procesador de energía (en lo sucesivo, PPE, simplificado de PowerPC970)", que puede admitir la tecnología virtual de subprocesos múltiples SMT y ejecutar dos subprocesos no relacionados simultáneamente. Además, Cell también cuenta con ocho coprocesadores basados en SIMD (Synergistic Processor Element, en lo sucesivo denominado SPE), que pueden admitir el funcionamiento simultáneo de hasta diez subprocesos. Además, Cell también integra un controlador de memoria XDR, que puede coincidir con un sistema de memoria de ancho de banda de 25,6 GBps, y su bus frontal también utiliza el bus paralelo FlexIO de 96 bits y 6,4 GHz de frecuencia (originalmente llamado "Redwood", desarrollado por RAMBUS Company), que también es el bus informático más rápido jamás construido.
Todo esto hace que la gente se sienta increíble si comparamos Cell con ¿Qué nivel puede alcanzar? ¿Cuánto más rápido es el rendimiento real que el último procesador X86? ¿Podrá Cell alcanzar los objetivos de diseño esperados?
Si tiene preguntas similares en mente, nuestra sugerencia es aclarar todos sus conocimientos previos sobre los procesadores X86 y luego aprender sobre Cell nuevamente. Sabemos que el récord actual de mayor frecuencia de un tuvo que declararse fallido, y la industria consideró difícil aumentar aún más la frecuencia. Sin embargo, la frecuencia operativa de Cell supera fácilmente los 4 GHz y alcanzará un nuevo máximo de 4,6 GHz, lo que obviamente está más allá del alcance de la comprensión de la industria X86. Lo que es aún más irrazonable es que la alta frecuencia del rendimiento alcanza los 256 Gigaflops, lo que significa que puede realizar 256 mil millones de operaciones de punto flotante por segundo. El diseño original de IBM era integrar cuatro procesadores en uno, para poder alcanzar velocidades ultraaltas. rendimiento de un billón de operaciones de punto flotante por segundo. Si no tiene una comprensión perceptiva de esto, también podríamos darle algunos ejemplos para comparar: el rendimiento SIMD del Pentium 4 E 3.8GHz es de 15Gigaflops, que también es el nivel más alto que los procesadores X86 pueden alcanzar actualmente, pero este rendimiento Es solo una decimoséptima parte de Cell First, los dos son completamente incomparables, aunque sus parámetros físicos y costos de fabricación están al mismo nivel. IBM está muy orgullosa de llamar a Cell una "supercomputadora de un solo chip", que también logra los objetivos de diseño previstos.
El alto rendimiento de Cell sin duda se beneficia de la arquitectura Power altamente optimizada. Power es un sistema de instrucción RISC creado por IBM para supercomputadoras. La arquitectura RISC es intrínsecamente eficiente, tiene una estructura de procesador optimizada y técnicamente es significativamente superior a X86. Debido a esto, casi todos los sistemas de supercomputadoras pertenecen al sistema RISC, y el X86 del que estamos hablando en realidad se limita al entorno de PC. Solo porque las PC están estrechamente relacionadas con el trabajo y la vida de las personas, son ampliamente conocidas (sobre). La comparación de RISC y CISC se detalla en el artículo "Future Processor Design Thoughts" del número anterior de esta revista. Los lectores interesados pueden consultarlo por sí mismos y no entrarán en detalles aquí. Sin embargo, la arquitectura RISC obviamente no es la única razón por la que Cell tiene un rendimiento ultraalto. Si comparamos el procesador PowerPC 970 (llamado "PowerPC G5" por Apple) con el Cell, aún podemos encontrar que la diferencia de rendimiento entre los dos es extremadamente diferente: el número de transistores del PowerPC 970 es de 58 millones, y el número de transistores de 4 PowerPC 970 El total equivale a una celda, pero el Xserve G5 equipado con procesadores duales PowerPC 970 solo puede proporcionar 9,0 Gigaflops de potencia informática, lo que está lejos de ser comparable a Cell, aunque ambos pertenecen al sistema Power en términos de arquitectura de diseño. De hecho, el alto rendimiento de Cell proviene en gran medida de su novedoso concepto de diseño: el procesador principal y el coprocesador realizan cada uno sus propias funciones, el diseño del núcleo es racionalizado y eficiente para lograr un funcionamiento de alta frecuencia y la unidad informática adopta un sistema de 128 bits. Estructura paralela, puede comprender esto gradualmente a partir del análisis a continuación.
El diseño altamente flexible y la computación distribuida son los dos aspectos más destacados de Cell, además del alto rendimiento. IBM espera que Cell pueda usarse en casi todos los dispositivos informáticos, desde dispositivos integrados hasta computadoras centrales, por lo que diseñó Cell como una plataforma de procesador universal.
Según las diferentes necesidades, Cell puede reducir arbitrariamente el número de núcleos de procesamiento. Por ejemplo, los productos para dispositivos integrados tienen un solo núcleo y funcionan a una frecuencia más baja para lograr un menor consumo de energía; use el mismo Cell estándar que la consola de juegos PS3, o reduzca adecuadamente la cantidad de SPE si se va a usar en una estación de trabajo/sistema de servidor, IBM puede integrar directamente dos procesadores Cell juntos para obtener un mayor rendimiento si se usa; En computadoras grandes, Cell se puede configurar como un "módulo MCM" que contiene cuatro procesadores independientes. En este momento, tiene la capacidad de teraflops de computación, que también es el estándar prometido por IBM. El soporte de la tecnología informática distribuida es aún más revolucionario. Cell tiene un bus de conexión de chip FlexIO de ultra alta velocidad, a través del cual se pueden conectar diferentes dispositivos informáticos basados en Cell para compartir potencia informática y recursos de memoria. Cuantos más dispositivos haya en la red, más potente será la potencia informática. En este momento, el procesador Cell es como el componente celular más básico de la red informática, y esta función supondrá una revolución en la informática. Piénselo, cualquiera puede construir fácilmente su propia supercomputadora en casa, lo que sin duda significa la verdadera liberación de la potencia informática.
La compatibilidad con sistemas operativos múltiples es una tecnología popular para los procesadores X86 actuales. De hecho, IBM aplicó esta tecnología a los procesadores de arquitectura Power hace unos años y Cell, naturalmente, heredó esta característica. Además, Cell tiene sólidas capacidades de corrección de errores autónoma: los científicos del laboratorio de IBM se han comprometido a investigar computación verdaderamente confiable. Esperan que las computadoras puedan tener capacidades de recuperación automática de fallas y lograr una verdadera operación "sin tiempo de inactividad", y estos resultados ahora se están utilizando. en Cell también. Durante la operación, Cell puede detectar automáticamente si los datos que se procesan están dañados. Si los datos están dañados, Cell utilizará algún mecanismo para restaurarlos automáticamente a un estado normal, evitando así resultados erróneos o el apagado del sistema. En el siguiente texto, analizaremos en detalle los detalles de diseño y los patrones de aplicación de Cell, a partir de los cuales podrá tener una comprensión más profunda de Cell.
Como presentamos anteriormente, el procesador Cell incluye una unidad de procesamiento PPE, ocho coprocesadores SPE, un controlador de memoria XDR y una interfaz FlexIO. La clave del alto rendimiento de Cell radica en la conexión entre PPE y SPE. diseño.
EPI/SPE: Diseñados para “tareas sencillas”. La unidad de procesamiento PPE es el centro de control y computación de Cell. Debe diseñarse en base al procesador Power 4 de IBM y puede admitir tecnología de subprocesos múltiples simultáneos. La unidad de procesamiento tiene una caché de primer nivel de 32 KB incorporada y una caché de segundo nivel de 512 KB, y sus especificaciones son muy similares a las del procesador PowerPC 970 de la misma línea. En Cell, los ocho coprocesadores SPE son en realidad responsables de las operaciones de punto flotante. La Figura 5 muestra la estructura lógica de SPE. SPE consta de 4 unidades de procesamiento responsables de operaciones de punto flotante, 4 unidades de procesamiento responsables de operaciones de números enteros, un registro de estructura de 128 bits × 128 y un caché local de 256 KB. Según la información publicada por IBM, aprendimos que la longitud de la tubería de SPE es de 18 etapas, lo que también es muy diferente del procesador X86: cuanto más larga es la tubería, más fácil le resulta al procesador aumentar la frecuencia de operación y viceversa. viceversa, más difícil es. El Northwood Pentium 4 con una tubería de 20 etapas se detiene en 3,2 GHz, y el núcleo Prescott con una tubería de 31 etapas solo alcanza los 3,8 GHz, mientras que Cell logra una operación de alta frecuencia por encima de 4 GHz con una tubería corta de 18 etapas.
El diseñador explicó esto en detalle: los procesadores X86 deben completar funciones informáticas grandes y completas, y la lógica informática a menudo está diseñada para ser muy compleja, lo que también hace que sea muy difícil aumentar su frecuencia mientras Cell realiza cálculos simplificados en la arquitectura básica; La idea es que cada tarea compleja se pueda descomponer en múltiples tareas básicas simples. El SPE en Cell está especialmente diseñado para estas tareas básicas. De esta manera, puede tener una estructura lógica mucho más simple manteniendo una alta eficiencia. , no hay suspenso en lograr una operación de alta frecuencia. También se puede ver desde aquí que la mayor diferencia entre los procesadores Cell y X86 radica en su diferente comprensión de las tareas informáticas.
Aunque el bus y los registros son estructuras de 128 bits, la unidad de punto flotante y la unidad entera en el SPE son en realidad solo 32 bits. Es solo que IBM usa 4 operaciones paralelas para obtener el efecto de 128 bits. SIMD desde el exterior Por lo tanto, SPE es equivalente a una unidad de procesamiento que puede ejecutar instrucciones de 128 bits. La unidad de punto flotante y la unidad de enteros en el SPE tienen cada una tres buses de entrada de 128 bits de ancho y un bus de salida de 128 bits de ancho. Los dos operan en modo full-duplex y las operaciones de entrada/salida de datos se pueden realizar simultáneamente. También debería encontrar que esta es una solución desigual. El ancho de banda del bus de entrada es tres veces mayor que el del bus de salida. La razón es que la cantidad total de datos necesarios para el cálculo es siempre mucho mayor que el resultado de salida de la operación. El ancho del autobús tiene un diseño diferente. En realidad, es muy científico. Con la ayuda de estos dos buses, la unidad de operación de punto flotante/entero del coprocesador SPE se conecta a un conjunto de 128 matrices de registros con un ancho de 128 bits. La matriz de registros se opera a su vez a través de un par de full-duplex. 128 bits El bus está conectado al caché local (almacenamiento local): cada coprocesador SPE tiene un caché local de 256 KB y 8 SPE tienen un caché de 2 MB. Junto con el caché secundario de 512 KB de la unidad de procesamiento PPE, el procesador Cell tiene un. total ***Tiene una unidad de caché con una capacidad de más de 2,5 MB para un procesador con un rendimiento súper informático, un indicador tan bajo también es sorprendente.
Después de analizar el diseño interno de los coprocesadores PPE y SPE, veamos cómo forman una Célula. Con referencia a la Figura 4 anterior, podemos ver que hay un "Anillo de BUS de interconexión de unidades EIB (anillo EIB)" de 768 bits de ancho dentro de la celda. En realidad, es una poderosa lógica de control de bus interno: todos los componentes de la celda son funcionales. Todas las unidades están conectadas entre sí a través del anillo de bus EIB, incluido el PPE, ocho SPE, el controlador de memoria XDR y la interfaz de bus externo. Todas ellas utilizan un bus de conexión full-duplex de 128 bits. Si la celda funciona a la frecuencia de 4GHz, cada unidad funcional dentro de la celda tendrá un ancho de banda de 4GHz×128bit/Hz×2 (full duplex) ÷8Byte/bit=128GBps. Este número es obviamente muy impresionante.
Podemos calcular fácilmente el rendimiento informático de Cell en función de estos parámetros: cada coprocesador SPE tiene 4 unidades paralelas de punto flotante/entero, que pueden ejecutar dos ciclos informáticos en un ciclo de reloj (similar al efecto DDR, técnicamente Aún no se conocen los detalles), cada ciclo de operación puede realizar 4 operaciones de punto flotante de 32 bits; cada celda tiene 8 coprocesadores SPE y se supone que su frecuencia de trabajo es de 4 GHz. Celda El rendimiento es 2×4×8×4GHz=256Gigaflops, lo que debería ser fácil de entender.
A diferencia de los procesadores convencionales de doble núcleo, el 1 PPE y los 8 SPE de la celda son bastante independientes. Entre ellas, la tarea de la unidad de procesamiento PPE es ejecutar el sistema operativo. Esta tarea es sencilla para un núcleo de procesamiento con una estructura similar al PowerPC 970, una frecuencia de hasta 4 GHz y soporte para operación de doble hilo.
Pero a excepción del sistema operativo, al PPE no le importa nada, y las operaciones de subprocesos relacionadas con la aplicación las ejecuta completamente el coprocesador SPE. Como se muestra en la Figura 6, podemos ver que los subprocesos de múltiples aplicaciones se distribuyen uniformemente en cada SPE. Todo el sistema tiene equilibrio de carga y está diseñado de manera muy científica. Este diseño de múltiples núcleos estructurado verticalmente es completamente diferente del procesador de doble núcleo defendido por la industria X86, ya sea Pentium D, Yonha o el Athlon 64 de doble núcleo de AMD, cada uno de sus núcleos de procesamiento tiene el mismo estado y cada núcleo puede ser. Independiente, completar todas las operaciones representa una idea informática amplia y completa. A medida que el diseño de chips se vuelve cada vez más complejo, su frecuencia operativa tiene que ir cuesta abajo. Intel estaba obsesionado con la estrategia ganadora de alta frecuencia y terminó rezagado respecto de sus oponentes. La industria generalmente cree que la búsqueda de alta frecuencia no tiene futuro. El procesador Cell ha abierto una nueva idea sin precedentes: cada núcleo de procesamiento se centra en sus propias tareas, depende unos de otros y coopera entre sí. La simplificación de las tareas también permite que cada núcleo se diseñe para ser ágil y eficiente. La frecuencia de trabajo también es fácil Al alcanzar una altura más allá del alcance de los procesadores X86, finalmente logró un rendimiento sorprendente comparable al de las supercomputadoras. Mientras cooperan entre sí, cada coprocesador SPE en la celda mantiene un alto grado de independencia. Además de completar las tareas informáticas de la máquina local, el SPE también puede aceptar solicitudes informáticas de otros dispositivos en la red informática de la celda. Tareas relacionadas: Calcule la tarea y los resultados se transmitirán al iniciador de la tarea a través de la red. En otras palabras, el coprocesador SPE puede realizar una itinerancia fluida independiente de la plataforma en la red informática basada en Cell. Las tareas en la red se pueden distribuir uniformemente a todos los procesadores Cell y completarse en el menor tiempo posible.
Después de leer el análisis anterior, definitivamente pensarás que Cell será un gran consumidor de energía. Antes de ver la información detallada, el autor también tenía esta actitud. La información publicada por IBM vuelve a sorprender. Cuando la frecuencia de funcionamiento es de 4 GHz, el voltaje de funcionamiento de cada coprocesador SPE es superior a 1,1 V, pero su consumo de energía es de sólo 4 vatios. Si la frecuencia se reduce a 3 GHz, el voltaje de funcionamiento sólo necesita 0,9 V y su consumo de energía es de sólo 2 vatios. Si la frecuencia se reduce a 2 GHz, el consumo de energía de cada SPE es de solo 1 vatio. Entonces, el consumo total de energía de todos los coprocesadores SPE en la celda es de solo 4 vatios × 8 = 32 vatios como máximo. En cuanto a la parte central de la unidad de procesamiento del PPE, el nivel de consumo de energía también se controlará a un nivel muy bajo. Una estimación lógica es que el nivel de consumo de energía de la parte operativa de la celda será de alrededor de 40 vatios, incluso si la potencia total. El consumo de la unidad de caché está incluido, se puede controlar a un mejor nivel. Volvamos la mirada al Pentium D, que consume hasta 130 vatios de potencia y tiene menos de una décima parte del rendimiento del Cell. ¿Cómo te sientes?
Teniendo en cuenta las aplicaciones prácticas, el bajo consumo de energía de Cell no es sorprendente. Cell fue diseñado originalmente para la consola de juegos PS3. La consola de juegos es de tamaño pequeño y es bastante sensible al índice de consumo de energía del chip. Si el índice es demasiado alto, causará problemas en la disipación de calor y producirá mucho ruido, lo que generará mucho ruido. Es absolutamente inaceptable para los jugadores de. En 2006, IBM utilizará tecnología más avanzada de 65 nanómetros para fabricar Cell, que tendrá un mejor nivel de consumo de energía, y el bajo consumo de energía también sentará una buena base para la amplia aplicación de Cell, usándolo para dispositivos integrados. con los equipos, computadoras portátiles, PC de escritorio o sistemas de estaciones de trabajo. Lo que IBM debe preocuparse en el futuro debería ser la coordinación de recursos en el sistema operativo y el software de aplicación.
*Nota: Dado que SPE no puede ejecutarse independientemente de PPE como un núcleo físico separado, estrictamente hablando, Cell es un procesador único de un solo núcleo
El desarrollo del procesador CELL ha finalizado p >
El sitio web alemán Heise Online confirma (en alemán) que IBM ha detenido el desarrollo futuro del procesador Cell. El procesador Cell alguna vez fue considerado un producto revolucionario, pero las aplicaciones reales demostraron que no era mejor que sus competidores.
David Turek, vicepresidente de IBM a cargo de Deep Computing, confirmó que PowerXCell 8i es el último procesador Cell.
Por supuesto, detener el diseño de chips no significa su muerte. Actualmente, la mayoría de los chips Cell son producidos principalmente por Toshiba y utilizados en la consola PS3 de Sony. Sun señaló una vez que el procesador Cell de 3,2 GHz no es tan rápido como el procesador SUN Niagara de 1,4 GHz. Algunos comentarios decían que no es más potente que GPGPU ni tan flexible como una CPU real. No es sorprendente que IBM lo abandonara.