Saltar al contenido

Conector WebCrawler para Jitterbit Studio

Resumen

El conector WebCrawler permite la exploración y extracción de información de sitios web y páginas específicas.

El conector WebCrawler proporciona una interfaz para crear una conexión WebCrawler, que es la base utilizada para generar instancias de actividades de WebCrawler. Estas actividades, una vez configuradas, interactúan con los sitios web y páginas especificados a través de la conexión.

El conector WebCrawler se accede desde la pestaña Puntos finales y conectores del proyecto en la paleta de componentes de diseño (ver Paleta de componentes de diseño).

Descripción general del conector

Este conector se utiliza primero para configurar una conexión WebCrawler. Los tipos de actividad asociados con esa conexión se utilizan luego para crear instancias de actividades que están destinadas a ser utilizadas como fuentes (para proporcionar datos en una operación) o destinos (para consumir datos en una operación).

Juntos, una conexión WebCrawler específica y sus actividades se denominan un punto final de WebCrawler:

Tipos de actividades de WebCrawler

  • Extraer Página: Extrae una página y está destinada a ser utilizada como un destino en una operación.

  • Extraer URL: Extrae contenido de una URL y está destinada a ser utilizada como un destino en una operación.

  • Explorar: Explora sitios web y está destinada a ser utilizada como un destino en una operación.

Nota

Este conector es un conector basado en Connector SDK, que puede ser mencionado por Jitterbit al comunicar cambios realizados en conectores construidos con el Connector SDK.

Los puntos finales creados con este conector están incluidos en informe de uso de puntos finales y cuentan para su licencia.

Prerrequisitos y versiones de API compatibles

El conector WebCrawler requiere el uso de una versión de agente 10.1 o posterior. Estas versiones de agente descargan automáticamente la última versión del conector cuando es necesario.

Solución de problemas

Si experimenta problemas con el conector WebCrawler, se recomiendan los siguientes pasos de solución de problemas:

  1. Haga clic en el botón Probar en la configuración de conexión para asegurarse de que la conexión sea exitosa y de que la última versión del conector se descargue al agente (a menos que esté utilizando la política de organización Deshabilitar actualización automática del conector).

  2. Verifique los registros de operaciones para cualquier información escrita durante la ejecución de la operación.

  3. Habilite el registro de depuración de operaciones (para agentes en la nube o para agentes privados) para generar archivos de registro y datos adicionales.

  4. Si utiliza agentes privados, puede habilitar el registro detallado del conector para este conector agregando esta entrada de configuración de registrador al archivo logback.xml de su agente privado:

    <logger name="org.jitterbit.connector.web.crawler" level="DEBUG"/>
    

    Para más información sobre el registro detallado del conector, consulte Registro detallado para conectores que utilizan agentes privados de Jitterbit.

  5. Si utiliza agentes privados, puede consultar los registros del agente para obtener más información.