WebCrawler Crawl-Aktivität in Jitterbit Studio

Einführung

Eine WebCrawler Crawl-Aktivität, die ihre WebCrawler-Verbindung verwendet, durchsucht Websites und ist als Ziel gedacht, um Daten in einer Operation zu konsumieren.

Erstellen einer WebCrawler Crawl-Aktivität

Eine Instanz einer WebCrawler Crawl-Aktivität wird aus einer WebCrawler-Verbindung unter Verwendung des Aktivitätstyps Crawl erstellt.

Um eine Instanz einer Aktivität zu erstellen, ziehen Sie den Aktivitätstyp auf die Entwurfsfläche oder kopieren Sie den Aktivitätstyp und fügen Sie ihn auf der Entwurfsfläche ein. Für Details siehe Erstellen einer Aktivitätsinstanz in Komponentenwiederverwendung.

Eine vorhandene WebCrawler Crawl-Aktivität kann von diesen Orten aus bearbeitet werden:

Die Entwurfsfläche (siehe Komponentenaktionsmenü in Entwurfsfläche).
Der Komponenten-Tab im Projektbereich (siehe Komponentenaktionsmenü in Projektbereich Komponenten-Tab).

Konfigurieren einer WebCrawler Crawl-Aktivität

Befolgen Sie diese Schritte, um eine WebCrawler Crawl-Aktivität zu konfigurieren:

Schritt 1: Geben Sie einen Namen ein und spezifizieren Sie die Einstellungen
Geben Sie einen Namen für die Aktivität ein und konfigurieren Sie Einstellungen, einschließlich der Seed-Website-URLs, des Ausgabeinhaltsformats, der Crawltiefe und Seitenlimits, der Crawl-Verzögerung, der URL-Filterlogik, der CSS-Selektor-Tag-Liste, der Pfadbeschränkung, der Meta-Tag-Abfrage und der Fehlerbehandlung.
Schritt 2: Überprüfen Sie die Datenschemas
Alle Anforderungs- oder Antwortschemas werden angezeigt.

Schritt 1: Geben Sie einen Namen ein und spezifizieren Sie die Einstellungen

In diesem Schritt geben Sie einen Namen für die Aktivität ein und konfigurieren Einstellungen, einschließlich der Seed-Website-URLs, des Ausgabeinhaltsformats, der Crawltiefe und Seitenlimits, der Crawl-Verzögerung, der URL-Filterlogik, der CSS-Selektor-Tag-Liste, der Pfadeinschränkung, der Meta-Tag-Abfrage und der Fehlerbehandlung. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

Tipp

Felder mit einem Variablen-Icon unterstützen die Verwendung von globalen Variablen, Projektvariablen und Jitterbit-Variablen. Beginnen Sie entweder, indem Sie eine öffnende eckige Klammer [ in das Feld eingeben oder indem Sie auf das Variablen-Icon klicken, um eine Liste der vorhandenen Variablen anzuzeigen, aus denen Sie wählen können.

Endpoint-Menü: Wenn Sie mehrere Endpunkte desselben Verbindungstyps konfiguriert haben, wird ein Menü oben auf dem Bildschirm angezeigt, das den aktuellen Endpunktnamen anzeigt. Klicken Sie auf das Menü, um zu einem anderen Endpunkt zu wechseln. Weitere Informationen finden Sie unter Ändern des zugewiesenen Endpunkts in Konfigurationsbildschirmen.
- Endpunkt bearbeiten: Erscheint, wenn Sie über den aktuellen Endpunktnamen fahren. Klicken Sie, um die Verbindungsconfiguration des aktuell ausgewählten Endpunkts zu bearbeiten.
Name: Geben Sie einen Namen ein, um die Aktivität zu identifizieren. Der Name muss für jede WebCrawler Crawl-Aktivität eindeutig sein und darf keine Schrägstriche / oder Doppelpunkte : enthalten.
Website-URLs: Klicken Sie auf das Hinzufügen-Icon , um eine Zeile zur Tabelle hinzuzufügen, und geben Sie eine URL für jede Seed-URL ein, die als Ausgangspunkt für den Crawl verwendet werden soll.

Um die Zeile zu speichern, klicken Sie auf das Senden-Icon in der rechten Spalte.

Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie über die rechte Spalte und verwenden Sie das Bearbeiten-Icon oder das Löschen-Icon .

Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.
Ausgabeinhaltformat: Wählen Sie das zu verwendende Ausgabeinhaltformat, entweder Text oder HTML.
Maximale Tiefe: Geben Sie die Linktiefe für einen Crawl (max_depth) ein. Während der Standardwert 1 ist, gibt es keine erforderliche Tiefenbegrenzung.
Maximale Seiten: Geben Sie die maximale Anzahl von Seiten ein, die während eines Crawls abgerufen werden sollen (items_limit). Der Standardwert beträgt 10.
Crawl-Verzögerung (ms): Geben Sie die Crawl-Verzögerung in Millisekunden ein. Der Standardwert beträgt 5.
Regex-URL-Filterlogik: Wählen Sie den Regex-Filtermodus aus, der auf während des Crawls entdeckte URLs angewendet werden soll:
- Einbeziehen: Extrahieren Sie nur Inhalte von URLs, die mit den angegebenen Mustern übereinstimmen.
  - Einbeziehen regex URLs: Klicken Sie auf das Hinzufügen-Symbol , um eine Zeile zur Tabelle hinzuzufügen, und geben Sie eine Einbeziehen-URL für jedes reguläre Ausdrucksmuster ein, das mit entdeckten URLs übereinstimmen soll. Nur URLs, die mit mindestens einem Muster übereinstimmen, werden gecrawlt.
    
    Um die Zeile zu speichern, klicken Sie auf das Einreichen-Symbol in der rechten Spalte.
    
    Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie mit der Maus über die rechte Spalte und verwenden Sie das Bearbeiten-Symbol oder das Löschen-Symbol .
    
    Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.
- Ausschließen: Überspringen Sie URLs, die mit den angegebenen Mustern übereinstimmen.
  - Ausschließen regex URLs: Klicken Sie auf das Hinzufügen-Symbol , um eine Zeile zur Tabelle hinzuzufügen, und geben Sie eine Ausschließen-URL für jedes reguläre Ausdrucksmuster ein, das mit entdeckten URLs übereinstimmen soll. URLs, die mit einem Muster übereinstimmen, werden während des Crawls übersprungen.
    
    Um die Zeile zu speichern, klicken Sie auf das Einreichen-Symbol in der rechten Spalte.
    
    Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie mit der Maus über die rechte Spalte und verwenden Sie das Bearbeiten-Symbol oder das Löschen-Symbol .
    
    Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.
Tag-Liste (CSS-Selektoren): Klicken Sie auf das Hinzufügen-Symbol , um eine Zeile zur Tabelle hinzuzufügen, und geben Sie einen CSS-Selektor Tag-Liste für jedes Seitenelement ein, das aus der extrahierten Ausgabe ausgeschlossen werden soll. Verwenden Sie die Standard-CSS-Selektorsyntax, um spezifische Elemente anzusprechen (zum Beispiel .ads oder footer).

Um die Zeile zu speichern, klicken Sie auf das Symbol "Absenden" in der rechten Spalte.

Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie mit der Maus über die rechte Spalte und verwenden Sie das Bearbeitungssymbol oder das Löschsymbol .

Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.
Auf Pfad beschränken: Wählen Sie diese Option, um das Crawlen auf URLs zu beschränken, die denselben Pfadpräfix wie die Seed-URL teilen. Wenn die Seed-URL beispielsweise https://example.com/blog/ ist, werden nur URLs unter /blog/ gecrawlt.
Meta-Tags abrufen: Wählen Sie diese Option, um während des Crawlens Meta-Tags abzurufen.
Bei Fehler fortfahren: Wählen Sie diese Option, um die Ausführung der Aktivität fortzusetzen, wenn ein Fehler für einen Datensatz in einer Batch-Anfrage auftritt. Wenn Fehler auftreten, werden diese im Betriebsprotokoll aufgezeichnet.
Speichern & Beenden: Wenn aktiviert, klicken Sie, um die Konfiguration für diesen Schritt zu speichern und die Aktivitätskonfiguration zu schließen.
Weiter: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum nächsten Schritt fortzufahren. Die Konfiguration wird nicht gespeichert, bis Sie auf die Schaltfläche Fertig im letzten Schritt klicken.
Änderungen verwerfen: Nachdem Sie Änderungen vorgenommen haben, klicken Sie, um die Konfiguration zu schließen, ohne die vorgenommenen Änderungen zu speichern. Eine Nachricht fordert Sie auf, zu bestätigen, dass Sie die Änderungen verwerfen möchten.

Schritt 2: Überprüfen der Datenschemas

Alle Anfrage- oder Antwortschemas werden angezeigt. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

Datenschema: Diese Datenschemas werden von benachbarten Transformationen geerbt und während der Transformationszuordnung erneut angezeigt.

Hinweis

Daten, die in einer Transformation bereitgestellt werden, haben Vorrang vor der Aktivitätskonfiguration.
Aktualisieren: Klicken Sie auf das Aktualisierungssymbol oder das Wort Aktualisieren, um die Schemata vom WebCrawler-Endpunkt neu zu generieren. Diese Aktion regeneriert auch ein Schema an anderen Stellen im Projekt, an denen dasselbe Schema referenziert wird, wie z. B. in einer benachbarten Transformation.
Zurück: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum vorherigen Schritt zurückzukehren.
Fertig: Klicken Sie, um die Konfiguration für alle Schritte zu speichern und die Aktivitätskonfiguration zu schließen.
Änderungen verwerfen: Nachdem Sie Änderungen vorgenommen haben, klicken Sie, um die Konfiguration zu schließen, ohne die Änderungen an einem Schritt zu speichern. Eine Nachricht fordert Sie auf, zu bestätigen, dass Sie die Änderungen verwerfen möchten.

Nächste Schritte

Nachdem Sie eine WebCrawler Crawl-Aktivität konfiguriert haben, vervollständigen Sie die Konfiguration des Vorgangs, indem Sie andere Aktivitäten, Transformationen oder Skripte als Vorgangsschritte hinzufügen und konfigurieren. Sie können auch die Betriebseinstellungen konfigurieren, die die Möglichkeit umfassen, Vorgänge zusammenzuführen, die sich in denselben oder unterschiedlichen Workflows befinden.

Menüaktionen für eine Aktivität sind im Projektbereich und auf der Entwurfsgrafik zugänglich. Für Details siehe Aktivitätsaktionsmenü in Connector-Grundlagen.

WebCrawler Crawl-Aktivitäten können als Ziel mit diesen Vorgangsmustern verwendet werden:

Transformationsmuster
Zwei-Transformationsmuster (als erstes oder zweites Ziel)

Um die Aktivität mit Skriptfunktionen zu verwenden, schreiben Sie die Daten an einen temporären Speicherort und verwenden Sie dann diesen temporären Speicherort in der Skriptfunktion.

Wenn Sie bereit sind, bereitstellen und ausführen Sie den Vorgang und validieren Sie das Verhalten, indem Sie die Vorgangsprotokolle überprüfen.