WebCrawler Extract URL-Aktivität in Jitterbit Studio

Einführung

Eine WebCrawler Extract URL-Aktivität, die ihre WebCrawler-Verbindung verwendet, extrahiert Inhalte von einer URL und ist als Ziel gedacht, um Daten in einem Vorgang zu konsumieren.

Erstellen einer WebCrawler Extract URL-Aktivität

Eine Instanz einer WebCrawler Extract URL-Aktivität wird aus einer WebCrawler-Verbindung unter Verwendung des Aktivitätstyps Extract URL erstellt.

Um eine Instanz einer Aktivität zu erstellen, ziehen Sie den Aktivitätstyp auf die Entwurfsfläche oder kopieren Sie den Aktivitätstyp und fügen Sie ihn auf der Entwurfsfläche ein. Weitere Informationen finden Sie unter Erstellen einer Aktivitätsinstanz in Komponentenwiederverwendung.

Eine vorhandene WebCrawler Extract URL-Aktivität kann von diesen Orten aus bearbeitet werden:

Die Entwurfsfläche (siehe Komponentenaktionsmenü in Entwurfsfläche).
Der Komponenten-Tab im Projektbereich (siehe Komponentenaktionsmenü in Projektbereich Komponenten-Tab).

Konfigurieren einer WebCrawler Extract URL-Aktivität

Befolgen Sie diese Schritte, um eine WebCrawler Extract URL-Aktivität zu konfigurieren:

Schritt 1: Geben Sie einen Namen ein und spezifizieren Sie die Einstellungen
Geben Sie einen Namen für die Aktivität an und spezifizieren Sie die Website-URL, maximale Tiefe, maximale Seitenanzahl, Crawl-Verzögerung, URL-Filterlogik, Pfadeinschränkung und Fehlerbehandlung.
Schritt 2: Überprüfen Sie die Datenschemas
Alle Anfrage- oder Antwortschemas werden angezeigt.

Schritt 1: Geben Sie einen Namen ein und spezifizieren Sie die Einstellungen

In diesem Schritt geben Sie einen Namen für die Aktivität ein und spezifizieren die Website-URL, maximale Tiefe, maximale Seitenanzahl, Crawl-Verzögerung, URL-Filterlogik, Pfadeinschränkung und Fehlerbehandlung. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

Hinweis

Felder mit einem Variablen-Icon unterstützen die Verwendung von globalen Variablen, Projektvariablen und Jitterbit-Variablen. Beginnen Sie entweder, indem Sie eine öffnende eckige Klammer [ in das Feld eingeben oder indem Sie auf das Variablen-Icon klicken, um eine Liste der vorhandenen Variablen anzuzeigen, aus denen Sie auswählen können.

Endpunktmenü: Wenn Sie mehrere Endpunkte desselben Connector-Typs konfiguriert haben, wird ein Menü oben auf dem Bildschirm angezeigt, das den aktuellen Endpunktnamen anzeigt. Klicken Sie auf das Menü, um zu einem anderen Endpunkt zu wechseln. Weitere Informationen finden Sie unter Ändern des zugewiesenen Endpunkts in Konfigurationsbildschirmen.
- Endpunkt bearbeiten: Erscheint, wenn Sie über den aktuellen Endpunktnamen fahren. Klicken Sie, um die Verbindungs-Konfiguration des aktuell ausgewählten Endpunkts zu bearbeiten.
Name: Geben Sie einen Namen ein, um die Aktivität zu identifizieren. Der Name muss für jede WebCrawler URL extrahieren-Aktivität eindeutig sein und darf keine Schrägstriche / oder Doppelpunkte : enthalten.
Website-URL: Geben Sie eine URL ein, die als Ausgangspunkt für die Inhaltsextraktion verwendet werden soll.
Maximale Tiefe: Geben Sie die Linktiefe für die Extraktion ein. Während der Standardwert 1 beträgt, gibt es keine erforderliche Tiefenbegrenzung.
Maximale Seiten: Geben Sie die maximale Anzahl von Seiten ein, die während der Extraktion abgerufen werden sollen. Der Standardwert beträgt 10.
Crawl-Verzögerung (ms): Geben Sie die Crawl-Verzögerung in Millisekunden ein. Der Standardwert beträgt 5.
Regex-URL-Filterlogik: Wählen Sie den Regex-Filtermodus aus, der auf die während der Inhaltsextraktion entdeckten URLs angewendet werden soll:
- Include: Nur Inhalte von URLs extrahieren, die mit den angegebenen Mustern übereinstimmen.
  - Include regex URLs: Klicken Sie auf das Hinzufügen-Symbol , um eine Zeile zur Tabelle hinzuzufügen, und geben Sie eine Include URL für jedes reguläre Ausdrucksmuster ein, das mit entdeckten URLs übereinstimmen soll. Nur URLs, die mit mindestens einem Muster übereinstimmen, werden extrahiert.
    
    Um die Zeile zu speichern, klicken Sie auf das Senden-Symbol in der rechten Spalte.
    
    Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie mit der Maus über die rechte Spalte und verwenden Sie das Bearbeiten-Symbol oder das Löschen-Symbol .
    
    Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.
- Exclude: URLs überspringen, die mit den angegebenen Mustern übereinstimmen.
  - Exclude regex URLs: Klicken Sie auf das Hinzufügen-Symbol , um eine Zeile zur Tabelle hinzuzufügen, und geben Sie eine Exclude URL für jedes reguläre Ausdrucksmuster ein, das mit entdeckten URLs übereinstimmen soll. URLs, die mit einem Muster übereinstimmen, werden während der Extraktion übersprungen.
    
    Um die Zeile zu speichern, klicken Sie auf das Senden-Symbol in der rechten Spalte.
    
    Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie mit der Maus über die rechte Spalte und verwenden Sie das Bearbeiten-Symbol oder das Löschen-Symbol .
    
    Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.
Restrict to path: Wählen Sie aus, um die Extraktion auf URLs zu beschränken, die denselben Pfadpräfix wie die Seed-URL teilen. Wenn die Seed-URL beispielsweise https://example.com/blog/ ist, werden nur URLs unter /blog/ extrahiert.
Continue on error: Wählen Sie aus, um die Ausführung der Aktivität fortzusetzen, wenn ein Fehler für einen Datensatz in einer Batch-Anfrage auftritt. Wenn Fehler auftreten, werden diese im Betriebsprotokoll aufgezeichnet.
Save & Exit: Wenn aktiviert, klicken Sie, um die Konfiguration für diesen Schritt zu speichern und die Aktivitätskonfiguration zu schließen.
Next: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum nächsten Schritt fortzufahren. Die Konfiguration wird nicht gespeichert, bis Sie auf die Schaltfläche Fertig im letzten Schritt klicken.
Änderungen verwerfen: Nach dem Vornehmen von Änderungen klicken Sie, um die Konfiguration zu schließen, ohne die Änderungen an einem Schritt zu speichern. Eine Nachricht fragt Sie, ob Sie die Änderungen wirklich verwerfen möchten.

Schritt 2: Überprüfen der Datenschemas

Alle Anfrage- oder Antwortschemas werden angezeigt. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

Datenschema: Diese Datenschemas werden von benachbarten Transformationen übernommen und während der Transformationszuordnung erneut angezeigt.

Hinweis

Daten, die in einer Transformation bereitgestellt werden, haben Vorrang vor der Aktivitätskonfiguration.
Aktualisieren: Klicken Sie auf das Aktualisierungssymbol oder das Wort Aktualisieren, um die Schemata vom WebCrawler-Endpunkt neu zu generieren. Diese Aktion regeneriert auch ein Schema an anderen Stellen im Projekt, wo dasselbe Schema referenziert wird, wie in einer benachbarten Transformation.
Zurück: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum vorherigen Schritt zurückzukehren.
Fertig: Klicken Sie, um die Konfiguration für alle Schritte zu speichern und die Aktivitätskonfiguration zu schließen.
Änderungen verwerfen: Nach dem Vornehmen von Änderungen klicken Sie, um die Konfiguration zu schließen, ohne die Änderungen an einem Schritt zu speichern. Eine Nachricht fragt Sie, ob Sie die Änderungen wirklich verwerfen möchten.

Nächste Schritte

Nachdem Sie eine WebCrawler URL extrahieren-Aktivität konfiguriert haben, vervollständigen Sie die Konfiguration des Vorgangs, indem Sie andere Aktivitäten, Transformationen oder Skripte als Vorgangsschritte hinzufügen und konfigurieren. Sie können auch die Betriebseinstellungen konfigurieren, die die Möglichkeit umfassen, Vorgänge zusammenzuschalten, die sich in denselben oder unterschiedlichen Workflows befinden.

Menüaktionen für eine Aktivität sind im Projektbereich und auf der Entwurfskanvas zugänglich. Weitere Informationen finden Sie im Aktivitätsaktionsmenü in Connector-Grundlagen.

WebCrawler URL extrahieren-Aktivitäten können als Ziel mit diesen Betriebsmustern verwendet werden:

Transformationsmuster
Zwei-Transformationsmuster (als erstes oder zweites Ziel)

Um die Aktivität mit Skriptfunktionen zu verwenden, schreiben Sie die Daten an einen temporären Speicherort und verwenden Sie dann diesen temporären Speicherort in der Skriptfunktion.

Wenn Sie bereit sind, bereitstellen und ausführen Sie den Betrieb und validieren Sie das Verhalten, indem Sie die Betriebsprotokolle überprüfen.