Zum Inhalt springen

WebCrawler-Verbindung

Einführung

Eine WebCrawler-Verbindung, die mit dem WebCrawler-Connector erstellt wurde, ermöglicht das Crawlen und Scrapen von Informationen von gezielten Websites und Seiten. Sobald eine Verbindung konfiguriert ist, können Instanzen von WebCrawler-Aktivitäten erstellt werden, die mit dieser Verbindung verknüpft sind, um entweder als Quellen (um Daten in einem Vorgang bereitzustellen) oder als Ziele (um Daten in einem Vorgang zu konsumieren) verwendet zu werden.

Erstellen oder Bearbeiten einer WebCrawler-Verbindung

Eine neue WebCrawler-Verbindung wird mit dem WebCrawler-Connector aus einem dieser Standorte erstellt:

Eine vorhandene WebCrawler-Verbindung kann von diesen Standorten bearbeitet werden:

Konfigurieren einer WebCrawler-Verbindung

Jedes Benutzeroberflächenelement des Konfigurationsbildschirms für die WebCrawler-Verbindung wird im Folgenden beschrieben.

Tipp

Felder mit einem Variablen-Icon unterstützen die Verwendung von globalen Variablen, Projektvariablen und Jitterbit-Variablen. Beginnen Sie entweder, indem Sie eine offene eckige Klammer [ in das Feld eingeben oder indem Sie auf das Variablen-Icon klicken, um eine Liste der vorhandenen Variablen anzuzeigen, aus denen Sie wählen können.

  • Verbindungsname: Geben Sie einen Namen ein, um die Verbindung zu identifizieren. Der Name muss für jede WebCrawler-Verbindung eindeutig sein und darf keine Schrägstriche / oder Doppelpunkte : enthalten. Dieser Name wird auch verwendet, um den WebCrawler-Endpunkt zu identifizieren, der sich sowohl auf eine bestimmte Verbindung als auch auf deren Aktivitäten bezieht.

  • Basis-URL: Geben Sie eine Basis-URL ein, auf die die WebCrawler-Aktivitäten standardmäßig verweisen. Diese URL kann durch die Konfigurationseinstellungen der Aktivität überschrieben werden.

  • Referrer: Geben Sie die URL ein, die als HTTP Referer-Anforderungsheader verwendet werden soll. Dies identifiziert die Ursprungsseite der Anfrage.

  • Authentifizierung: Wählen Sie die Authentifizierungsmethode aus, die beim Verbinden mit einer Website verwendet werden soll, eine von API-Schlüssel, Bearer-Token, Basic Auth oder Keine Auth.

    • API-Schlüssel: Wählen Sie diese Option, um sich mit einem API-Schlüssel zu authentifizieren:

      • Schlüssel: Geben Sie den Namen des API-Schlüssel-Headers oder des Abfrageparameters ein.

      • Wert: Geben Sie den API-Schlüssel ein, der für die Authentifizierung verwendet werden soll.

      • Hinzufügen zu: Wählen Sie aus, wo der API-Schlüssel in der Anfrage enthalten sein soll, entweder Header oder Abfrageparameter.

        • Header: Enthält den API-Schlüssel als Anforderungsheader mit dem für Schlüssel festgelegten Namen.

        • Abfrageparameter: Enthält den API-Schlüssel als URL-Abfrageparameter mit dem für Schlüssel festgelegten Namen.

    • Bearer-Token: Wählen Sie diese Option, um sich mit einem Bearer-Token zu authentifizieren:

      • Bearer-Token: Geben Sie das Bearer-Token ein, das für die Authentifizierung verwendet werden soll.

        Wichtig

        Fügen Sie beim Authentifizieren mit einem Bearer-Token kein Bearer-Präfix hinzu. Der Connector fügt es automatisch zum Header hinzu, wenn diese Authentifizierungsmethode verwendet wird.

    • Basic Auth: Wählen Sie diese Option, um sich mit einem Benutzernamen und Passwort zu authentifizieren:

      • Benutzername: Geben Sie den Benutzernamen ein.

      • Passwort: Geben Sie das Passwort ein.

        Wichtig

        Fügen Sie beim Authentifizieren mit einem Benutzernamen und Passwort kein Basic-Präfix hinzu. Der Connector fügt es automatisch zum Header hinzu, wenn diese Authentifizierungsmethode verwendet wird.

        Bei der Verwendung eines privaten Agents kann eine zusätzliche Konfiguration für die grundlegende Authentifizierung über HTTPS erforderlich sein.

    • Keine Authentifizierung: Wählen Sie diese Option, wenn keine Authentifizierung erforderlich ist.

  • Optionale Einstellungen: Klicken Sie, um zusätzliche optionale Einstellungen zu erweitern:

    • Proxy-Einstellungen verwenden (nur privater Agent): Bei der Verwendung eines privaten Agents kann diese Einstellung ausgewählt werden, um die Proxy-Einstellungen des privaten Agents zu verwenden.

    • Weiterleitungen folgen: Wählen Sie diese Option, um HTTP-Weiterleitungen zu folgen, wenn die Ziel-URL eine Weiterleitungsantwort zurückgibt.

    • Robot.txt durchsetzen: Wählen Sie diese Option, um die robots.txt-Richtlinien der Zielwebsite zu beachten. Wenn ausgewählt, werden Seiten, die durch robots.txt verboten sind, nicht gecrawlt oder gescraped.

    • Überprüfung des SSL-Zertifikats: Wählen Sie diese Option, um das SSL-Zertifikat des Zielservers zu überprüfen.

    • Benutzer-Agent: Geben Sie die User-Agent-Zeichenfolge ein, die in den Anfrage-Headern enthalten sein soll, wenn Anfragen an Zielwebsites gesendet werden.

    • Zeitüberschreitung: Geben Sie die Dauer der Anfrage-Zeitüberschreitung in Millisekunden ein.

    • Nur anwendbar bei Verwendung von HTTPS: Wählen Sie die zu verwendende TLS-Protokollversion für HTTPS-Verbindungen, eine der Optionen Negotiate, Use TLSv1.3, Use TLSv1.2, Use TLSv1.1 oder Use TLSv1.0.

    • Anfrage-Header: Klicken Sie auf das Hinzufügen-Symbol , um eine Zeile in die Tabelle unten hinzuzufügen, und geben Sie einen Namen und Wert für jeden benutzerdefinierten Anfrage-Header ein, der in allen über diese Verbindung gesendeten Anfragen enthalten sein soll.

      Um die Zeile zu speichern, klicken Sie auf das Senden-Symbol in der rechten Spalte.

      Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie mit der Maus über die rechte Spalte und verwenden Sie das Bearbeiten-Symbol oder das Löschen-Symbol .

      Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.

      • Name: Geben Sie den Namen des Anfrage-Headers ein.

      • Wert: Geben Sie den Wert des Anfrage-Headers ein.

    • Anfrage-Header bei der Ausführung von Aktivitäten senden: Wählen Sie diese Option, um die Anfrage-Header auf Verbindungsebene bei der Ausführung von Aktivitäten, die mit dieser Verbindung verbunden sind, einzuschließen.

  • Test: Klicken Sie, um die Verbindung mit der angegebenen Konfiguration zu überprüfen. Wenn die Verbindung getestet wird, wird die neueste Version des Connectors von den Agenten in der Agentengruppe heruntergeladen, die mit der aktuellen Umgebung verbunden ist. Dieser Connector unterstützt das Aussetzen des Downloads der neuesten Connector-Version durch die Verwendung der Deaktivieren Sie die automatische Connector-Aktualisierung Organisationsrichtlinie.

  • Änderungen speichern: Klicken Sie, um die Konfiguration der Verbindung zu speichern und zu schließen.

  • Änderungen verwerfen: Nachdem Sie Änderungen an einer neuen oder bestehenden Konfiguration vorgenommen haben, klicken Sie, um die Konfiguration ohne Speichern zu schließen. Eine Nachricht fordert Sie auf, zu bestätigen, dass Sie die Änderungen verwerfen möchten.

  • Löschen: Nachdem Sie eine bestehende Verbindungs-Konfiguration geöffnet haben, klicken Sie, um die Verbindung dauerhaft aus dem Projekt zu löschen und die Konfiguration zu schließen (siehe Komponentenabhängigkeiten, Löschung und Entfernung). Eine Nachricht fordert Sie auf, zu bestätigen, dass Sie die Verbindung löschen möchten.

Nächste Schritte

Nachdem eine WebCrawler-Verbindung erstellt wurde, platzieren Sie einen Aktivitätstyp auf der Entwurfsgrafik, um Aktivitätsinstanzen zu erstellen, die entweder als Quellen (um Daten in einem Vorgang bereitzustellen) oder als Ziele (um Daten in einem Vorgang zu konsumieren) verwendet werden.

Menüaktionen für eine Verbindung und ihre Aktivitätstypen sind im Projektbereich und in der Palette der Entwurfskomponenten zugänglich. Für Details siehe Aktionsmenüs in Connector-Grundlagen.

Diese Aktivitätstypen sind verfügbar:

  • Crawl: Durchsucht Websites und ist als Ziel in einem Vorgang vorgesehen.