Zum Inhalt springen

WebCrawler-Connector für Jitterbit Studio

Zusammenfassung

Der WebCrawler-Connector ermöglicht das Crawlen und Scrapen von Informationen von gezielten Websites und Seiten.

Der WebCrawler-Connector bietet eine Schnittstelle zur Erstellung einer WebCrawler-Verbindung, die als Grundlage für die Generierung von Instanzen von WebCrawler-Aktivitäten dient. Diese Aktivitäten interagieren, sobald sie konfiguriert sind, über die Verbindung mit den angegebenen Websites und Seiten.

Der WebCrawler-Connector wird über die Registerkarte Projektendpunkte und -connectoren in der Design-Komponentenpalette aufgerufen (siehe Design-Komponentenpalette).

Übersicht über den Connector

Dieser Connector wird zunächst verwendet, um eine WebCrawler-Verbindung zu konfigurieren. Die mit dieser Verbindung verbundenen Aktivitätstypen werden dann verwendet, um Instanzen von Aktivitäten zu erstellen, die als Quellen (um Daten in einem Vorgang bereitzustellen) oder Ziele (um Daten in einem Vorgang zu konsumieren) gedacht sind.

Zusammen werden eine spezifische WebCrawler-Verbindung und ihre Aktivitäten als WebCrawler-Endpunkt bezeichnet:

WebCrawler-Aktivitätstypen

  • Crawl: Crawlt Websites und ist als Ziel in einem Vorgang gedacht.

Hinweis

Dieser Connector ist ein Connector SDK-basierter Connector, auf den Jitterbit möglicherweise verweist, wenn Änderungen an mit dem Connector SDK erstellten Connectors kommuniziert werden.

Endpunkte, die mit diesem Connector erstellt wurden, sind in Endpunktnutzungsberichten enthalten und zählen zu Ihrer Lizenz.

Voraussetzungen und unterstützte API-Versionen

Der WebCrawler-Connector erfordert die Verwendung einer Agenten-Version 10.1 oder höher. Diese Agenten-Versionen laden automatisch die neueste Version des Connectors herunter, wenn dies erforderlich ist.

Fehlerbehebung

Wenn Sie Probleme mit dem WebCrawler-Connector haben, werden die folgenden Schritte zur Fehlerbehebung empfohlen:

  1. Klicken Sie auf die Test-Schaltfläche in der Verbindungs-Konfiguration, um sicherzustellen, dass die Verbindung erfolgreich ist und die neueste Version des Connectors auf den Agenten heruntergeladen wird (es sei denn, Sie verwenden die Organisationsrichtlinie Auto Connector Update deaktivieren).

  2. Überprüfen Sie die Betriebsprotokolle auf Informationen, die während der Ausführung des Vorgangs geschrieben wurden.

  3. Aktivieren Sie das Debug-Protokoll für den Betrieb (für Cloud-Agenten oder für private Agenten), um zusätzliche Protokolldateien und Daten zu generieren.

  4. Wenn Sie private Agenten verwenden, können Sie das ausführliche Protokollieren des Connectors für diesen Connector aktivieren, indem Sie diesen Logger-Konfigurationseintrag in die logback.xml-Datei Ihres privaten Agenten hinzufügen:

    <logger name="org.jitterbit.connector.web.crawler" level="DEBUG"/>
    

    Weitere Informationen zum ausführlichen Protokollieren von Connectors finden Sie unter Ausführliches Protokollieren für Connectors, die Jitterbit private Agenten verwenden.

  5. Wenn Sie private Agenten verwenden, können Sie die Agentenprotokolle auf weitere Informationen überprüfen.