Actividad de rastreo de WebCrawler en Jitterbit Studio

Introducción

Una actividad de Rastreo de WebCrawler, utilizando su conexión de WebCrawler, rastrea sitios web y está destinada a ser utilizada como un objetivo para consumir datos en una operación.

Crear una actividad de rastreo de WebCrawler

Una instancia de una actividad de Rastreo de WebCrawler se crea a partir de una conexión de WebCrawler utilizando su tipo de actividad Rastreo.

Para crear una instancia de una actividad, arrastre el tipo de actividad al lienzo de diseño o copie el tipo de actividad y péguelo en el lienzo de diseño. Para más detalles, consulte Creando una instancia de actividad en Reutilización de componentes.

Una actividad de Rastreo de WebCrawler existente se puede editar desde estas ubicaciones:

El lienzo de diseño (consulte Menú de acciones de componentes en Lienzo de diseño).
La pestaña Componentes del panel del proyecto (consulte Menú de acciones de componentes en Pestaña de componentes del panel del proyecto).

Configurar una actividad de rastreo de WebCrawler

Siga estos pasos para configurar una actividad de Rastreo de WebCrawler:

Paso 1: Ingrese un nombre y especifique configuraciones
Proporcione un nombre para la actividad y configure las configuraciones, incluyendo las URL de los sitios web semilla, el formato de contenido de salida, la profundidad de rastreo y los límites de páginas, el retraso de rastreo, la lógica de filtro de URL, la lista de etiquetas de selectores CSS, la restricción de ruta, la recuperación de etiquetas meta y el manejo de errores.
Paso 2: Revise los esquemas de datos
Se muestran los esquemas de solicitud o respuesta.

Paso 1: Ingresa un nombre y especifica configuraciones

En este paso, proporciona un nombre para la actividad y configura ajustes que incluyen las URL de los sitios web semilla, el formato de contenido de salida, la profundidad de rastreo y los límites de páginas, el retraso de rastreo, la lógica de filtrado de URL, la lista de etiquetas de selectores CSS, las restricciones de ruta, la recuperación de etiquetas meta y el manejo de errores. Cada elemento de la interfaz de usuario de este paso se describe a continuación.

Consejo

Los campos con un ícono de variable admiten el uso de variables globales, variables de proyecto, y variables de Jitterbit. Comienza escribiendo un corchete cuadrado abierto [ en el campo o haciendo clic en el ícono de variable para mostrar una lista de las variables existentes de las que elegir.

Menú de endpoint: Si tienes múltiples endpoints del mismo tipo de conector configurados, un menú en la parte superior de la pantalla muestra el nombre del endpoint actual. Haz clic en el menú para cambiar a un endpoint diferente. Para más información, consulta Cambiar el endpoint asignado en Pantallas de configuración.
- Editar endpoint: Aparece cuando pasas el cursor sobre el nombre del endpoint actual. Haz clic para editar la configuración de conexión del endpoint seleccionado actualmente.
Nombre: Ingresa un nombre para identificar la actividad. El nombre debe ser único para cada actividad de Rastreo de WebCrawler y no debe contener barras inclinadas / ni dos puntos :.
URLs de sitios web: Haz clic en el ícono de agregar para añadir una fila a la tabla e ingresa una URL para cada URL semilla que se utilizará como punto de partida para el rastreo.

Para guardar la fila, haz clic en el ícono de enviar en la columna más a la derecha.

Para editar o eliminar una sola fila, pasa el cursor sobre la columna más a la derecha y utiliza el ícono de editar o el ícono de eliminar .

Para eliminar todas las filas, haz clic en Limpiar todo.
Formato de contenido de salida: Selecciona el formato de contenido de salida a utilizar, ya sea Texto o HTML.
Profundidad máxima: Ingresa la profundidad del enlace para un rastreo (max_depth). Mientras que el valor predeterminado es 1, no hay un límite de profundidad requerido.
Páginas máximas: Ingresa el número máximo de páginas a recuperar durante un rastreo (items_limit). El valor predeterminado es 10.
Retraso de rastreo (ms): Ingresa el retraso de rastreo en milisegundos. El valor predeterminado es 5.
Lógica de filtro de URL Regex: Selecciona el modo de filtro regex a aplicar a las URLs descubiertas durante el rastreo:
- Incluir: Solo extraer contenido de URLs que coincidan con los patrones especificados.
  - Incluir URLs regex: Haz clic en el ícono de agregar para añadir una fila a la tabla e ingresa una URL de inclusión para cada patrón de expresión regular que coincida con las URLs descubiertas. Solo se rastrean las URLs que coincidan con al menos un patrón.
    
    Para guardar la fila, haz clic en el ícono de enviar en la columna más a la derecha.
    
    Para editar o eliminar una sola fila, pasa el cursor sobre la columna más a la derecha y utiliza el ícono de editar o el ícono de eliminar .
    
    Para eliminar todas las filas, haz clic en Limpiar todo.
- Excluir: Omitir URLs que coincidan con los patrones especificados.
  - Excluir URLs regex: Haz clic en el ícono de agregar para añadir una fila a la tabla e ingresa una URL de exclusión para cada patrón de expresión regular que coincida con las URLs descubiertas. Las URLs que coincidan con cualquier patrón se omiten durante el rastreo.
    
    Para guardar la fila, haz clic en el ícono de enviar en la columna más a la derecha.
    
    Para editar o eliminar una sola fila, pasa el cursor sobre la columna más a la derecha y utiliza el ícono de editar o el ícono de eliminar .
    
    Para eliminar todas las filas, haz clic en Limpiar todo.
Lista de etiquetas (selectores CSS): Haz clic en el ícono de agregar para añadir una fila a la tabla e ingresa un selector CSS Lista de etiquetas para cada elemento de página que se desea excluir de la salida extraída. Utiliza la sintaxis estándar de selectores CSS para dirigirte a elementos específicos (por ejemplo, .ads o footer).

Para guardar la fila, haz clic en el ícono de enviar en la columna más a la derecha.

Para editar o eliminar una sola fila, pasa el cursor sobre la columna más a la derecha y utiliza el ícono de editar o el ícono de eliminar .

Para eliminar todas las filas, haz clic en Limpiar todo.
Restringir a la ruta: Selecciona para restringir el rastreo a URLs que compartan el mismo prefijo de ruta que la URL semilla. Por ejemplo, si la URL semilla es https://example.com/blog/, solo se rastrean las URLs bajo /blog/.
Recuperar etiquetas meta: Selecciona para recuperar etiquetas meta durante el rastreo.
Continuar en caso de error: Selecciona para continuar la ejecución de la actividad si se encuentra un error para un conjunto de datos en una solicitud por lotes. Si se encuentran errores, se escriben en el registro de operaciones.
Guardar y salir: Si está habilitado, haz clic para guardar la configuración de este paso y cerrar la configuración de la actividad.
Siguiente: Haz clic para almacenar temporalmente la configuración de este paso y continuar al siguiente paso. La configuración no se guardará hasta que hagas clic en el botón Finalizado en el último paso.
Descartar cambios: Después de realizar cambios, haz clic para cerrar la configuración sin guardar los cambios realizados en ningún paso. Un mensaje te pedirá que confirmes que deseas descartar los cambios.

Paso 2: Revisar los esquemas de datos

Cualquier esquema de solicitud o respuesta se muestra. Cada elemento de la interfaz de usuario de este paso se describe a continuación.

Esquema de datos: Estos esquemas de datos son heredados por transformaciones adyacentes y se muestran nuevamente durante el mapeo de transformaciones.

Nota

Los datos suministrados en una transformación tienen prioridad sobre la configuración de la actividad.
Actualizar: Haz clic en el ícono de actualizar o en la palabra Actualizar para regenerar esquemas desde el punto final de WebCrawler. Esta acción también regenera un esquema en otras ubicaciones a lo largo del proyecto donde se hace referencia al mismo esquema, como en una transformación adyacente.
Atrás: Haz clic para almacenar temporalmente la configuración de este paso y regresar al paso anterior.
Terminado: Haz clic para guardar la configuración de todos los pasos y cerrar la configuración de la actividad.
Descartar Cambios: Después de realizar cambios, haz clic para cerrar la configuración sin guardar los cambios realizados en ningún paso. Un mensaje te pide que confirmes que deseas descartar los cambios.

Próximos pasos

Después de configurar una actividad de WebCrawler Crawl, completa la configuración de la operación añadiendo y configurando otras actividades, transformaciones o scripts como pasos de la operación. También puedes configurar los ajustes de la operación, que incluyen la capacidad de encadenar operaciones que están en los mismos o diferentes flujos de trabajo.

Las acciones del menú para una actividad son accesibles desde el panel del proyecto y el lienzo de diseño. Para más detalles, consulta el menú de acciones de actividad en Conceptos básicos de conectores.

Las actividades de WebCrawler Crawl pueden ser utilizadas como un objetivo con estos patrones de operación:

Patrón de transformación
Patrón de dos transformaciones (como el primer o segundo objetivo)

Para usar la actividad con funciones de scripting, escribe los datos en una ubicación temporal y luego utiliza esa ubicación temporal en la función de scripting.

Cuando estés listo, despliega y ejecuta la operación y valida el comportamiento revisando los registros de operación.