Actividad de Scrape Page de WebCrawler
Introducción
Una actividad de Scrape Page de WebCrawler, utilizando su conexión de WebCrawler, raspa una página y está destinada a ser utilizada como un objetivo para consumir datos en una operación.
Crear una actividad de Scrape Page de WebCrawler
Una instancia de una actividad de Scrape Page de WebCrawler se crea a partir de una conexión de WebCrawler utilizando su tipo de actividad Scrape Page.
Para crear una instancia de una actividad, arrastre el tipo de actividad al lienzo de diseño o copie el tipo de actividad y péguelo en el lienzo de diseño. Para más detalles, consulte Creando una instancia de actividad en Reutilización de componentes.
Una actividad de Scrape Page de WebCrawler existente se puede editar desde estas ubicaciones:
- El lienzo de diseño (consulte Menú de acciones de componentes en Lienzo de diseño).
- La pestaña Componentes del panel del proyecto (consulte Menú de acciones de componentes en Pestaña de componentes del panel del proyecto).
Configurar una actividad de Scrape Page de WebCrawler
Siga estos pasos para configurar una actividad de Scrape Page de WebCrawler:
-
Paso 1: Ingrese un nombre y especifique configuraciones
Proporcione un nombre para la actividad y configure las configuraciones, incluyendo la URL del sitio web, el formato de contenido de salida, la lista de etiquetas de selector CSS, la inclusión de metadatos y el manejo de errores. -
Paso 2: Revise los esquemas de datos
Se mostrarán los esquemas de solicitud o respuesta.
Paso 1: Ingresa un nombre y especifica configuraciones
En este paso, proporciona un nombre para la actividad y configura ajustes que incluyen la URL del sitio web, el formato de contenido de salida, la lista de etiquetas de selectores CSS, la inclusión de metadatos y el manejo de errores. Cada elemento de la interfaz de usuario de este paso se describe a continuación.
Consejo
Los campos con un ícono de variable admiten el uso de variables globales, variables de proyecto, y variables de Jitterbit. Comienza escribiendo un corchete cuadrado abierto [ en el campo o haciendo clic en el ícono de variable para mostrar una lista de las variables existentes de las que elegir.
-
Menú de endpoint: Si tienes múltiples endpoints del mismo tipo de conector configurados, un menú en la parte superior de la pantalla muestra el nombre del endpoint actual. Haz clic en el menú para cambiar a un endpoint diferente. Para más información, consulta Cambiar el endpoint asignado en Pantallas de configuración.
- Editar endpoint: Aparece cuando pasas el cursor sobre el nombre del endpoint actual. Haz clic para editar la configuración de conexión del endpoint seleccionado actualmente.
-
Nombre: Ingresa un nombre para identificar la actividad. El nombre debe ser único para cada actividad de Scrape Page de WebCrawler y no debe contener barras inclinadas
/o dos puntos:. -
URL del sitio web: Ingresa la URL de la página a raspar.
-
Formato de contenido de salida: Especifica el formato de contenido de salida a utilizar, uno de Texto o HTML.
-
Lista de etiquetas (selectores CSS): Haz clic en el ícono de agregar para añadir una fila a la tabla e ingresa una lista de etiquetas de selectores CSS Tag List para cada elemento de la página que deseas excluir de la salida raspada. Utiliza la sintaxis estándar de selectores CSS para dirigirte a elementos específicos (por ejemplo,
.adsofooter).Para guardar la fila, haz clic en el ícono de enviar en la columna más a la derecha.
Para editar o eliminar una sola fila, pasa el cursor sobre la columna más a la derecha y utiliza el ícono de editar o el ícono de eliminar .
Para eliminar todas las filas, haz clic en Limpiar todo.
-
Include metadata: Selecciona para extraer metadatos encontrados en la página.
-
Continuar en caso de error: Selecciona para continuar la ejecución de la actividad si se encuentra un error para un conjunto de datos en una solicitud por lotes. Si se encuentran errores, se escriben en el registro de operaciones.
-
Guardar y salir: Si está habilitado, haz clic para guardar la configuración de este paso y cerrar la configuración de la actividad.
-
Siguiente: Haz clic para almacenar temporalmente la configuración de este paso y continuar al siguiente paso. La configuración no se guardará hasta que hagas clic en el botón Finalizado en el último paso.
-
Descartar cambios: Después de realizar cambios, haz clic para cerrar la configuración sin guardar los cambios realizados en ningún paso. Un mensaje te pide que confirmes que deseas descartar los cambios.
Paso 2: Revisar los esquemas de datos
Cualquier esquema de solicitud o respuesta se muestra. Cada elemento de la interfaz de usuario de este paso se describe a continuación.
-
Esquema de datos: Estos esquemas de datos son heredados por transformaciones adyacentes y se muestran nuevamente durante el mapeo de transformaciones.
Nota
Los datos suministrados en una transformación tienen prioridad sobre la configuración de la actividad.
-
Actualizar: Haz clic en el ícono de actualizar o en la palabra Actualizar para regenerar esquemas desde el punto final de WebCrawler. Esta acción también regenera un esquema en otras ubicaciones a lo largo del proyecto donde se hace referencia al mismo esquema, como en una transformación adyacente.
-
Atrás: Haz clic para almacenar temporalmente la configuración de este paso y regresar al paso anterior.
-
Finalizado: Haz clic para guardar la configuración de todos los pasos y cerrar la configuración de la actividad.
-
Descartar cambios: Después de realizar cambios, haz clic para cerrar la configuración sin guardar los cambios realizados en ningún paso. Un mensaje te pide que confirmes que deseas descartar los cambios.
Próximos pasos
Después de configurar una actividad de WebCrawler Scrape Page, completa la configuración de la operación añadiendo y configurando otras actividades, transformaciones o scripts como pasos de la operación. También puedes configurar los ajustes de la operación, que incluyen la capacidad de encadenar operaciones que están en los mismos o diferentes flujos de trabajo.
Las acciones del menú para una actividad son accesibles desde el panel del proyecto y el lienzo de diseño. Para más detalles, consulta el menú de acciones de actividad en Conceptos básicos de conectores.
Las actividades de WebCrawler Scrape Page se pueden utilizar como un objetivo con estos patrones de operación:
- Patrón de transformación
- Patrón de dos transformaciones (como el primer o segundo objetivo)
Para utilizar la actividad con funciones de scripting, escribe los datos en una ubicación temporal y luego utiliza esa ubicación temporal en la función de scripting.
Cuando estés listo, despliega y ejecuta la operación y valida el comportamiento revisando los registros de operación.