Red de conocimiento del abogados - Preguntas y respuestas jurídicas - 009 - Utilice XPath para analizar páginas web

009 - Utilice XPath para analizar páginas web

Xpath es un lenguaje para buscar información en documentos XML. XPath se puede utilizar para recorrer elementos y atributos en documentos XML. XPath es un elemento importante del estándar W3C XSLT, y tanto XQuery como XPointer se basan en expresiones XPath.

XPath utiliza expresiones de ruta para seleccionar nodos en documentos XML. Los nodos se seleccionan siguiendo una ruta o paso. Usar XPath para analizar el contenido de una página web es determinar la ruta del contenido, es decir, reducirlo desde un rango amplio hasta una ubicación específica.

text() extrae contenido de texto

@xxx extrae contenido de atributos

Hay dos métodos para encontrar XPath. Uno es el análisis manual, que requiere familiaridad con HTML. Comprenda el nivel de anidación de etiquetas; el otro es copiar la herramienta Chrome y verificarla junto con las etiquetas de la página web.

Tomemos como ejemplo el chiste/texto de la Enciclopedia Embarrassing

El contenido XPath copiado es el siguiente:

Tenga en cuenta que aquí [@id="qiushi_tag_118963704 "] Se refiere a div class="bloque de artículos sin etiquetar mb15", que es único. Si quieres extraer el contenido de todas las posiciones, no puedes hacer un límite único. Modificar a:

La identificación de la etiqueta de la página web es única y la etiqueta de clase es el estilo del mismo tipo de etiqueta. El uso de atributos de etiquetas nos facilita la recuperación de contenido del mismo tipo.

PD Ver artículo anterior: Uso de los artefactos de búsqueda del rastreador BeautifulSoup y XPath