Conexión WebCrawler
Introducción
Una conexión WebCrawler, creada utilizando el conector WebCrawler, permite la exploración y extracción de información de sitios web y páginas específicas. Una vez que se configura una conexión, se pueden crear instancias de actividades WebCrawler asociadas con esa conexión para ser utilizadas como fuentes (para proporcionar datos en una operación) o como destinos (para consumir datos en una operación).
Crear o editar una conexión WebCrawler
Se crea una nueva conexión WebCrawler utilizando el conector WebCrawler desde una de estas ubicaciones:
- La pestaña Puntos finales y conectores del componente de diseño en la paleta de componentes de diseño (ver Paleta de componentes de diseño).
- La página de Puntos finales globales (ver Crear un punto final global en Puntos finales globales).
Una conexión WebCrawler existente se puede editar desde estas ubicaciones:
- La pestaña Puntos finales y conectores del componente de diseño en la paleta de componentes de diseño (ver Paleta de componentes de diseño).
- La pestaña Componentes del panel del proyecto (ver Menú de acciones del componente en Pestaña de componentes del panel del proyecto).
- La página de Puntos finales globales (ver Editar un punto final global en Puntos finales globales).
Configurar una conexión WebCrawler
Cada elemento de la interfaz de usuario de la pantalla de configuración de la conexión WebCrawler se describe a continuación.
Consejo
Los campos con un ícono de variable admiten el uso de variables globales, variables de proyecto, y variables de Jitterbit. Comience escribiendo un corchete cuadrado abierto [ en el campo o haciendo clic en el ícono de variable para mostrar una lista de las variables existentes de las que elegir.
-
Nombre de conexión: Ingresa un nombre para identificar la conexión. El nombre debe ser único para cada conexión de WebCrawler y no debe contener barras inclinadas
/ni dos puntos:. Este nombre también se utiliza para identificar el endpoint de WebCrawler, que se refiere tanto a una conexión específica como a sus actividades. -
URL base: Ingresa una URL base a la que se dirigirán las actividades de WebCrawler por defecto. Esta URL puede ser sobrescrita por la configuración de la actividad.
-
Referente: Ingresa la URL que se utilizará como el encabezado de solicitud HTTP
Referer. Esto identifica la página de origen de la solicitud. -
Autenticación: Selecciona el método de autenticación a utilizar al conectarse a un sitio web, uno de API Key, Bearer Token, Basic Auth o No Auth.
-
API Key: Selecciona esta opción para autenticar utilizando una clave API:
-
Clave: Ingresa el nombre del encabezado o parámetro de consulta de la clave API.
-
Valor: Ingresa la clave API que se utilizará para la autenticación.
-
Agregar a: Selecciona dónde incluir la clave API en la solicitud, ya sea en Encabezados o Parámetros de consulta.
-
Encabezados: Incluye la clave API como un encabezado de solicitud con el nombre establecido para Clave.
-
Parámetros de consulta: Incluye la clave API como un parámetro de consulta de URL con el nombre establecido para Clave.
-
-
-
Bearer Token: Selecciona esta opción para autenticar utilizando un token de portador:
-
Token de portador: Ingresa el token de portador que se utilizará para la autenticación.
Importante
No incluyas un prefijo
Beareral autenticar con un token de portador. El conector lo agrega automáticamente al encabezado al utilizar este método de autenticación.
-
-
Basic Auth: Selecciona esta opción para autenticar utilizando un nombre de usuario y una contraseña:
-
Nombre de usuario: Ingresa el nombre de usuario.
-
Contraseña: Ingresa la contraseña.
Importante
No incluyas un prefijo
Basical autenticar con un nombre de usuario y una contraseña. El conector lo agrega automáticamente al encabezado al utilizar este método de autenticación.Al usar un agente privado, puede ser necesaria una configuración adicional para la autenticación básica a través de HTTPS.
-
-
Sin autenticación: Seleccione esta opción si no se requiere autenticación.
-
-
Configuraciones opcionales: Haga clic para expandir configuraciones opcionales adicionales:
-
Usar configuraciones de proxy (solo agente privado): Al usar un agente privado, se puede seleccionar esta configuración para utilizar configuraciones de proxy del agente privado.
-
Seguir redirecciones: Seleccione para seguir redirecciones HTTP cuando la URL de destino devuelva una respuesta de redirección.
-
Hacer cumplir Robot.txt: Seleccione para honrar las directivas
robots.txtdel sitio web de destino. Cuando se selecciona, las páginas prohibidas porrobots.txtno se rastrean ni se extraen. -
Verificación del certificado SSL: Seleccione para verificar el certificado SSL del servidor de destino.
-
Agente de usuario: Ingrese la cadena
User-Agentpara incluir en los encabezados de solicitud al hacer solicitudes a sitios web de destino. -
Tiempo de espera: Ingrese la duración del tiempo de espera de la solicitud en milisegundos.
-
Solo aplicable al usar HTTPS: Seleccione la versión del protocolo TLS a utilizar para conexiones HTTPS, una de Negociar, Usar TLSv1.3, Usar TLSv1.2, Usar TLSv1.1 o Usar TLSv1.0.
-
Encabezados de solicitud: Haga clic en el ícono de agregar para añadir una fila a la tabla a continuación e ingrese un Nombre y un Valor para cada encabezado de solicitud personalizado que se incluirá en todas las solicitudes realizadas a través de esta conexión.
Para guardar la fila, haga clic en el ícono de enviar en la columna más a la derecha.
Para editar o eliminar una sola fila, pase el cursor sobre la columna más a la derecha y use el ícono de editar o el ícono de eliminar .
Para eliminar todas las filas, haga clic en Limpiar todo.
-
Nombre: Ingrese el nombre del encabezado de solicitud.
-
Valor: Ingrese el valor del encabezado de solicitud.
-
-
Enviar encabezados de solicitud en la ejecución de actividades: Seleccione para incluir los encabezados de solicitud a nivel de conexión al ejecutar actividades asociadas con esta conexión.
-
-
Prueba: Haz clic para verificar la conexión utilizando la configuración especificada. Cuando se prueba la conexión, la última versión del conector es descargada por el(los) agente(s) en el grupo de agentes asociado con el entorno actual. Este conector admite suspender la descarga de la última versión del conector utilizando la Política de Desactivar Actualización Automática del Conector política de organización.
-
Guardar Cambios: Haz clic para guardar y cerrar la configuración de la conexión.
-
Descartar Cambios: Después de realizar cambios en una configuración nueva o existente, haz clic para cerrar la configuración sin guardar. Un mensaje te pide que confirmes que deseas descartar los cambios.
-
Eliminar: Después de abrir una configuración de conexión existente, haz clic para eliminar permanentemente la conexión del proyecto y cerrar la configuración (ver Dependencias de componentes, eliminación y remoción). Un mensaje te pide que confirmes que deseas eliminar la conexión.
Próximos pasos
Después de que se ha creado una conexión WebCrawler, colocas un tipo de actividad en el lienzo de diseño para crear instancias de actividad que se utilizarán como fuentes (para proporcionar datos en una operación) o como destinos (para consumir datos en una operación).
Las acciones del menú para una conexión y sus tipos de actividad son accesibles desde el panel del proyecto y la paleta de componentes de diseño. Para más detalles, consulta Menús de acciones en Conceptos básicos del conector.
Estos tipos de actividad están disponibles:
- Rastrear: Rastrear sitios web y está destinado a ser utilizado como un destino en una operación.