Actividad de Extracción de URL de WebCrawler en Jitterbit Studio

Introducción

Una actividad de WebCrawler Extracción de URL, utilizando su conexión de WebCrawler, extrae contenido de una URL y está destinada a ser utilizada como un objetivo para consumir datos en una operación.

Crear una actividad de Extracción de URL de WebCrawler

Una instancia de una actividad de WebCrawler Extracción de URL se crea a partir de una conexión de WebCrawler utilizando su tipo de actividad Extracción de URL.

Para crear una instancia de una actividad, arrastre el tipo de actividad al lienzo de diseño o copie el tipo de actividad y péguelo en el lienzo de diseño. Para más detalles, consulte Creando una instancia de actividad en Reutilización de componentes.

Una actividad de WebCrawler Extracción de URL existente se puede editar desde estas ubicaciones:

El lienzo de diseño (consulte Menú de acciones de componentes en Lienzo de diseño).
La pestaña Componentes del panel del proyecto (consulte Menú de acciones de componentes en Pestaña de componentes del panel del proyecto).

Configurar una actividad de Extracción de URL de WebCrawler

Siga estos pasos para configurar una actividad de WebCrawler Extracción de URL:

Paso 1: Ingrese un nombre y especifique configuraciones
Proporcione un nombre para la actividad y especifique la URL del sitio web, la profundidad máxima, el número máximo de páginas, el retraso de rastreo, la lógica de filtro de URL, la restricción de ruta y el manejo de errores.
Paso 2: Revise los esquemas de datos
Se mostrarán los esquemas de solicitud o respuesta.

Paso 1: Ingrese un nombre y especifique configuraciones

En este paso, proporcione un nombre para la actividad y especifique la URL del sitio web, la profundidad máxima, el número máximo de páginas, el retraso de rastreo, la lógica del filtro de URL, la restricción de ruta y el manejo de errores. Cada elemento de la interfaz de usuario de este paso se describe a continuación.

Consejo

Los campos con un ícono variable admiten el uso de variables globales, variables de proyecto, y variables de Jitterbit. Comience escribiendo un corchete cuadrado abierto [ en el campo o haciendo clic en el ícono de variable para mostrar una lista de las variables existentes de las que elegir.

Menú de endpoint: Si tiene múltiples endpoints del mismo tipo de conector configurados, un menú en la parte superior de la pantalla muestra el nombre del endpoint actual. Haga clic en el menú para cambiar a un endpoint diferente. Para más información, consulte Cambiar el endpoint asignado en Pantallas de configuración.
- Editar endpoint: Aparece cuando pasa el cursor sobre el nombre del endpoint actual. Haga clic para editar la configuración de conexión del endpoint seleccionado actualmente.
Nombre: Ingrese un nombre para identificar la actividad. El nombre debe ser único para cada actividad de Extraer URL de WebCrawler y no debe contener barras diagonales / ni dos puntos :.
URL del sitio web: Ingrese una URL que se utilizará como punto de partida para la extracción de contenido.
Profundidad máxima: Ingrese la profundidad de enlace para la extracción. Mientras que el valor predeterminado es 1, no hay un límite de profundidad requerido.
Número máximo de páginas: Ingrese el número máximo de páginas a recuperar durante la extracción. El valor predeterminado es 10.
Retraso de rastreo (ms): Ingrese el retraso de rastreo en milisegundos. El valor predeterminado es 5.
Lógica de filtro de URL Regex: Seleccione el modo de filtro regex que se aplicará a las URL descubiertas durante la extracción de contenido:
- Incluir: Solo extraer contenido de URLs que coincidan con los patrones especificados.
  - Incluir URLs regex: Haz clic en el ícono de agregar para añadir una fila a la tabla e ingresa una URL de inclusión para cada patrón de expresión regular que coincida con las URLs descubiertas. Solo se extraen las URLs que coincidan con al menos un patrón.
    
    Para guardar la fila, haz clic en el ícono de enviar en la columna más a la derecha.
    
    Para editar o eliminar una sola fila, pasa el cursor sobre la columna más a la derecha y utiliza el ícono de editar o el ícono de eliminar .
    
    Para eliminar todas las filas, haz clic en Limpiar todo.
- Excluir: Omitir URLs que coincidan con los patrones especificados.
  - Excluir URLs regex: Haz clic en el ícono de agregar para añadir una fila a la tabla e ingresa una URL de exclusión para cada patrón de expresión regular que coincida con las URLs descubiertas. Las URLs que coincidan con cualquier patrón se omiten durante la extracción.
    
    Para guardar la fila, haz clic en el ícono de enviar en la columna más a la derecha.
    
    Para editar o eliminar una sola fila, pasa el cursor sobre la columna más a la derecha y utiliza el ícono de editar o el ícono de eliminar .
    
    Para eliminar todas las filas, haz clic en Limpiar todo.
Restringir a la ruta: Selecciona para restringir la extracción a URLs que compartan el mismo prefijo de ruta que la URL semilla. Por ejemplo, si la URL semilla es https://example.com/blog/, solo se extraen las URLs bajo /blog/.
Continuar en caso de error: Selecciona para continuar la ejecución de la actividad si se encuentra un error para un conjunto de datos en una solicitud por lotes. Si se encuentran errores, se escriben en el registro de operaciones.
Guardar y salir: Si está habilitado, haz clic para guardar la configuración de este paso y cerrar la configuración de la actividad.
Siguiente: Haz clic para almacenar temporalmente la configuración de este paso y continuar al siguiente paso. La configuración no se guardará hasta que hagas clic en el botón Terminado en el último paso.
Descartar cambios: Después de realizar cambios, haz clic para cerrar la configuración sin guardar los cambios realizados en ningún paso. Un mensaje te pide que confirmes que deseas descartar los cambios.

Paso 2: Revisar los esquemas de datos

Se muestran los esquemas de solicitud o respuesta. Cada elemento de la interfaz de usuario de este paso se describe a continuación.

Esquema de datos: Estos esquemas de datos son heredados por transformaciones adyacentes y se muestran nuevamente durante el mapeo de transformaciones.

Nota

Los datos suministrados en una transformación tienen prioridad sobre la configuración de la actividad.
Actualizar: Haz clic en el ícono de actualizar o en la palabra Actualizar para regenerar esquemas desde el punto final de WebCrawler. Esta acción también regenera un esquema en otras ubicaciones a lo largo del proyecto donde se hace referencia al mismo esquema, como en una transformación adyacente.
Atrás: Haz clic para almacenar temporalmente la configuración de este paso y regresar al paso anterior.
Terminado: Haz clic para guardar la configuración de todos los pasos y cerrar la configuración de la actividad.
Descartar cambios: Después de realizar cambios, haz clic para cerrar la configuración sin guardar los cambios realizados en ningún paso. Un mensaje te pide que confirmes que deseas descartar los cambios.

Próximos pasos

Después de configurar una actividad de WebCrawler Extraer URL, completa la configuración de la operación agregando y configurando otras actividades, transformaciones o scripts como pasos de operación. También puedes configurar los ajustes de la operación, que incluyen la capacidad de encadenar operaciones que están en los mismos o diferentes flujos de trabajo.

Las acciones del menú para una actividad son accesibles desde el panel del proyecto y el lienzo de diseño. Para más detalles, consulta el menú de acciones de actividad en Conceptos básicos de conectores.

Las actividades de WebCrawler Extraer URL se pueden utilizar como un objetivo con estos patrones de operación:

Patrón de transformación
Patrón de dos transformaciones (como el primer o segundo objetivo)

Para utilizar la actividad con funciones de scripting, escriba los datos en una ubicación temporal y luego use esa ubicación temporal en la función de scripting.

Cuando esté listo, despliegue y ejecute la operación y valide el comportamiento revisando los registros de operación.