Cómo diagnosticar problemas de reinicio del nodo Blog oficial de Oracle
¿Cómo analizar este problema? Primero mire el registro del sistema. Si es HP-UX, entonces el registro del sistema es /var/log/syslog/syslog.log y AIX es errpt
En el registro del sistema, veo:
11 de noviembre 18:43:57 rx8640c syslog: el monitor de la familia Oracle CSS se apaga el 3
11 de noviembre 18:43:59 rx8640c su: + tty root-oracle
.11 de noviembre 18:43:59 rx8640c syslog: Cluster Ready Services completó la espera de dependencias.
Después de comparar el registro de ALERTAS, descubrimos que el sistema básicamente se reinició en este momento
Miércoles 11 de noviembre 18:43:28 2009
El volcado de seguimiento se está realizando id=[cdmp_20091111184328]
Miércoles 11 de noviembre 18:57:17 2009
Iniciando Instancia ORACLE (normal)
LICENSE_MAX_SESSION = 0
LICENSE_SESSIONS_WARNING = 0
Si es un sistema AIX, puede usar el último apagado para ver si es HP .
Aquí, puede ver en syslog.log que el proceso CSS se cierra (esto significa, supongo), CSS está cerrado o es anormal y el host se reiniciará automáticamente, lo cual es consistente con la configuración actual. situación
Siguiente Simplemente analice el registro de ocssd en ORA_CRS_HOME
[CSSD]2009-11-11 18:39:18.460 [13] >ADVERTENCIA: clssgmAssignMemberNo(): grock(#CSS_CLSSOMON ) memberNo(1) ya asignado
[ CSSD]2009-11-11 18:39:34.313 [14] >ADVERTENCIA: clssnmPollingThread: nodo rx8640c (1) al 50% de latido fatal, desalojo en 14.807 se
conds
[ CSSD]2009-11-11 18:39:35.313 [14] >ADVERTENCIA: clssnmPollingThread: nodo rx8640c (1) al 50% de latido fatal, desalojo en 13.807 se
conds
[ CSSD]2009-11-11 18:39:42.313 [14] >ADVERTENCIA: clssnmPollingThread: nodo rx8640c (1) al 75% de latido fatal, desalojo en 6,807 segundos
onds
[ CSSD]2009-11-11 18:39:45.313 [14] >TRACE: clssnmPollingThread: el nodo rx8640c (1) es una reconfiguración inminente
> [ CSSD]2009-11-11 18:39:45.314 [14] >TRACE: clssnmPollingThread: diskTimeout establecido en (27000)ms estado de reconfiguración inminente(1)
[ CSSD]2009-11-11 18:39:46.313 [14] >TRACE: clssnmPollingThread: el nodo rx8640c (1) es una reconfiguración inminente
[ CSSD]2009-11-11 18:39:46.314 [14] >ADVERTENCIA: clssnmPollingThread: nodo rx8640c (1) al 90 % de latidos mortales, desalojo en 2,807 segundos
segundos
[ CSSD]2009-11-11 18:39:47.313 [14] >TRACE: clssnmPollingThread: el nodo rx8640c (1) es una reconfiguración inminente
[ CSSD]2009-11-11 18:39:47.314 [14] >ADVERTENCIA: clssnmPollingThread: nodo rx8640c (1) al 90% de latido fatal, desalojo en 1.807 segundos
segundos
[ CSSD]2009-11-11 18:39:48.313 [14] >TRACE: clssnmPollingThread: el nodo rx8640c (1) es una reconfiguración inminente
[ CSSD]2009-11-11 18:39:48.314 [14] >ADVERTENCIA: clssnmPollingThread: nodo rx8640c (1) al 90% de latido fatal, desalojo en 0,807 segundos
segundos
[ CSSD]2009-11-11 18:39:49.133 [14] >TRACE: clssnmPollingThread: el nodo rx8640c (1) es una reconfiguración inminente
[ CSSD]2009-11-11 18:39 :49.134 [14] >TRACE: clssnmPollingThread: Se inició el desalojo para el nodo rx8640c (1), indicadores 0x000f, estado 3,
Esta información de registro es obvia, el latido de la red privada se pierde y el nodo se desaloja
En cuanto a por qué hay un problema en la red privada y se pierde el latido, creo que esto no es algo que el DBA pueda manejar. Escriba un informe y entregárselo al administrador de la red.
Además, puede provocar que el nodo se reinicie. Hay tres procesos, OCSSD, OPROCD y OCLSOMON
Generalmente, los motivos de OCSSD son la pérdida de latidos (latidos de la red o problemas con el disco de votación) y la pérdida de latidos. El proceso CSS no puede solicitar recursos de CPU y ERROR; OPROCD, OCLSOMON La razón es que el proceso no puede solicitar recursos de CPU y ERROR
También informó un error 600 antes de reiniciar el nodo
Miércoles de noviembre 11 18:43:27
2009
Errores en el archivo /oracle/app/oracle/admin/ora10g/udump/ora10g1_ora_24884.trc:
ORA-00600: código de error interno, argumentos: [keltnfy-ldmInit] , [46], [1], [], [], [], [], []
Confirmado como error 5486074
ORA-600 [keltnfy-ldminit ] puede ocurrir en el subsistema de alerta generada por el servidor
cuando no puede determinar el nombre del host o
la dirección de red. Esto puede deberse a que el servidor DNS no está disponible.
> Verificar No mencioné que este error provocará que CSS muera y el host se reinicie, pero el cliente debe informar este error. . .
Al menos se puede confirmar que ha habido un problema con la red
Al iniciar se reportó un error
Miércoles 11 Nov 18:58: 06 2009
Errores en el archivo /oracle/app/oracle/admin/ora10g/udump/ora10g1_ora_7203.trc:
ORA-00600: código de error interno, argumentos: [ksprlspeeq3], [65536], [], [] , [], [], [], []
Miércoles 11 de noviembre 18:58:07 2009
Errores en el archivo /oracle/ app/oracle/admin/ora10g/udump /ora10g1_ora_7203.trc:
ORA-07445: excepción encontrada: volcado de núcleo [kgscDump()+801] [SIGSEGV] [Dirección no asignada al objeto] [0x000001004] [] []
ORA-00600: código de error interno, argumentos: [ksprlspeeq3], [65536], [], [], [], [], [], []
Miércoles 11 de noviembre 18:58 :08 2009
Errores en el archivo /oracle/app/oracle/admin/ora10g/udump/ora10g1_ora_7203.trc:
ORA-07445: excepción encontrada: volcado de núcleo [kgscDump() +801] [SIGSEGV] [Dirección no asignada al objeto] [0x000001004] [] []
ORA-07445: excepción encontrada: volcado de núcleo [kgscDump()+ 801] [SIGSEGV] [Dirección no asignada al objeto] [0x000001004] [] []
ORA-00600: código de error interno, argumentos: [ksprlspeeq3], [65536], [], [], [], [], [], []
ORA-07445[kgscDump] corresponde al error 5508574 - OERI[504] / OERI[99999] / Dump [kgscdump] con > 31 CPU, pero el El sistema solo tiene 15C y 30 núcleos.
ORA-00600[ksprlspeeq3] Este ERROR relacionado con 10203 no se encontró, así que no me importó por ahora.
Recomiende una nota de METALINK: 4.1, esta es la conocimiento previo, que contiene muchos artículos categorizados y listas de algunas herramientas