WebCrawler Extract URL-Aktivität
Einführung
Eine WebCrawler Extract URL-Aktivität, die ihre WebCrawler-Verbindung verwendet, extrahiert Inhalte von einer URL und ist dazu gedacht, als Ziel zum Konsumieren von Daten in einem Vorgang verwendet zu werden.
Erstellen einer WebCrawler Extract URL-Aktivität
Eine Instanz einer WebCrawler Extract URL-Aktivität wird aus einer WebCrawler-Verbindung unter Verwendung des Aktivitätstyps Extract URL erstellt.
Um eine Instanz einer Aktivität zu erstellen, ziehen Sie den Aktivitätstyp auf die Entwurfsgrafik oder kopieren Sie den Aktivitätstyp und fügen Sie ihn in die Entwurfsgrafik ein. Weitere Einzelheiten finden Sie unter Erstellen einer Aktivitätsinstanz in Komponentenwiederverwendung.
Eine vorhandene WebCrawler Extract URL-Aktivität kann von diesen Orten aus bearbeitet werden:
- Die Entwurfsgrafik (siehe Komponentenaktionsmenü in Entwurfsgrafik).
- Der Komponenten-Tab im Projektbereich (siehe Komponentenaktionsmenü in Projektbereich Komponenten-Tab).
Konfigurieren einer WebCrawler Extract URL-Aktivität
Befolgen Sie diese Schritte, um eine WebCrawler Extract URL-Aktivität zu konfigurieren:
-
Schritt 1: Geben Sie einen Namen ein und spezifizieren Sie die Einstellungen
Geben Sie einen Namen für die Aktivität ein und spezifizieren Sie die Website-URL, maximale Tiefe, maximale Seitenanzahl, Crawl-Verzögerung, URL-Filterlogik, Pfadeinschränkung und Fehlerbehandlung. -
Schritt 2: Überprüfen Sie die Datenschemas
Alle Anfrage- oder Antwortschemas werden angezeigt.
Schritt 1: Geben Sie einen Namen ein und spezifizieren Sie die Einstellungen
In diesem Schritt geben Sie einen Namen für die Aktivität ein und spezifizieren die Website-URL, maximale Tiefe, maximale Seitenanzahl, Crawl-Verzögerung, URL-Filterlogik, Pfadeinschränkung und Fehlerbehandlung. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.
Hinweis
Felder mit einem Variablen-Icon unterstützen die Verwendung von globalen Variablen, Projektvariablen und Jitterbit-Variablen. Beginnen Sie entweder, indem Sie eine öffnende eckige Klammer [ in das Feld eingeben oder indem Sie auf das Variablen-Icon klicken, um eine Liste der vorhandenen Variablen anzuzeigen, aus denen Sie auswählen können.
-
Endpunktmenü: Wenn Sie mehrere Endpunkte desselben Connector-Typs konfiguriert haben, wird ein Menü oben auf dem Bildschirm angezeigt, das den aktuellen Endpunktnamen anzeigt. Klicken Sie auf das Menü, um zu einem anderen Endpunkt zu wechseln. Weitere Informationen finden Sie unter Ändern des zugewiesenen Endpunkts in Konfigurationsbildschirmen.
- Endpunkt bearbeiten: Wird angezeigt, wenn Sie über den aktuellen Endpunktnamen fahren. Klicken Sie, um die Verbindungs-Konfiguration des aktuell ausgewählten Endpunkts zu bearbeiten.
-
Name: Geben Sie einen Namen ein, um die Aktivität zu identifizieren. Der Name muss für jede WebCrawler Extract URL-Aktivität eindeutig sein und darf keine Schrägstriche
/oder Doppelpunkte:enthalten. -
Website-URL: Geben Sie eine URL ein, die als Ausgangspunkt für die Inhaltsextraktion verwendet werden soll.
-
Maximale Tiefe: Geben Sie die Linktiefe für die Extraktion ein. Während der Standardwert
1ist, gibt es keine erforderliche Tiefenbegrenzung. -
Maximale Seiten: Geben Sie die maximale Anzahl von Seiten ein, die während der Extraktion abgerufen werden sollen. Der Standardwert beträgt
10. -
Crawl-Verzögerung (ms): Geben Sie die Crawl-Verzögerung in Millisekunden ein. Der Standardwert beträgt
5. -
Regex-URL-Filterlogik: Wählen Sie den Regex-Filtermodus aus, der auf die während der Inhaltsextraktion entdeckten URLs angewendet werden soll:
-
Include: Nur Inhalte von URLs extrahieren, die den angegebenen Mustern entsprechen.
-
Include regex URLs: Klicken Sie auf das Hinzufügen-Symbol , um eine Zeile zur Tabelle hinzuzufügen, und geben Sie eine Include URL für jedes reguläre Ausdrucksmuster ein, das mit den entdeckten URLs übereinstimmen soll. Nur URLs, die mindestens einem Muster entsprechen, werden extrahiert.
Um die Zeile zu speichern, klicken Sie auf das Senden-Symbol in der rechten Spalte.
Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie mit der Maus über die rechte Spalte und verwenden Sie das Bearbeiten-Symbol oder das Löschen-Symbol .
Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.
-
-
Exclude: URLs überspringen, die den angegebenen Mustern entsprechen.
-
Exclude regex URLs: Klicken Sie auf das Hinzufügen-Symbol , um eine Zeile zur Tabelle hinzuzufügen, und geben Sie eine Exclude URL für jedes reguläre Ausdrucksmuster ein, das mit den entdeckten URLs übereinstimmen soll. URLs, die einem Muster entsprechen, werden während der Extraktion übersprungen.
Um die Zeile zu speichern, klicken Sie auf das Senden-Symbol in der rechten Spalte.
Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie mit der Maus über die rechte Spalte und verwenden Sie das Bearbeiten-Symbol oder das Löschen-Symbol .
Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.
-
-
-
Restrict to path: Wählen Sie aus, um die Extraktion auf URLs zu beschränken, die denselben Pfadpräfix wie die Seed-URL teilen. Wenn die Seed-URL beispielsweise
https://example.com/blog/ist, werden nur URLs unter/blog/extrahiert. -
Continue on error: Wählen Sie aus, um die Ausführung der Aktivität fortzusetzen, wenn ein Fehler für einen Datensatz in einer Batch-Anfrage auftritt. Wenn Fehler auftreten, werden diese im Betriebsprotokoll aufgezeichnet.
-
Save & Exit: Wenn aktiviert, klicken Sie, um die Konfiguration für diesen Schritt zu speichern und die Aktivitätskonfiguration zu schließen.
-
Next: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum nächsten Schritt fortzufahren. Die Konfiguration wird nicht gespeichert, bis Sie auf die Schaltfläche Fertig im letzten Schritt klicken.
-
Änderungen verwerfen: Nach dem Vornehmen von Änderungen klicken Sie, um die Konfiguration zu schließen, ohne die an einem Schritt vorgenommenen Änderungen zu speichern. Eine Nachricht fordert Sie auf, zu bestätigen, dass Sie die Änderungen verwerfen möchten.
Schritt 2: Überprüfen der Datenschemas
Alle Anfrage- oder Antwortschemas werden angezeigt. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.
-
Datenschema: Diese Datenschemas werden von benachbarten Transformationen übernommen und während der Transformationszuordnung erneut angezeigt.
Hinweis
Daten, die in einer Transformation bereitgestellt werden, haben Vorrang vor der Aktivitätskonfiguration.
-
Aktualisieren: Klicken Sie auf das Aktualisierungssymbol oder das Wort Aktualisieren, um die Schemata vom WebCrawler-Endpunkt neu zu generieren. Diese Aktion regeneriert auch ein Schema an anderen Stellen im Projekt, an denen dasselbe Schema referenziert wird, wie in einer benachbarten Transformation.
-
Zurück: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum vorherigen Schritt zurückzukehren.
-
Fertig: Klicken Sie, um die Konfiguration für alle Schritte zu speichern und die Aktivitätskonfiguration zu schließen.
-
Änderungen verwerfen: Nach dem Vornehmen von Änderungen klicken Sie, um die Konfiguration zu schließen, ohne die an einem Schritt vorgenommenen Änderungen zu speichern. Eine Nachricht fordert Sie auf, zu bestätigen, dass Sie die Änderungen verwerfen möchten.
Nächste Schritte
Nachdem Sie eine WebCrawler URL extrahieren-Aktivität konfiguriert haben, vervollständigen Sie die Konfiguration der Operation, indem Sie andere Aktivitäten, Transformationen oder Skripte als operationale Schritte hinzufügen und konfigurieren. Sie können auch die Betriebseinstellungen konfigurieren, die die Möglichkeit umfassen, Operationen zusammenzuführen, die sich in denselben oder unterschiedlichen Workflows befinden.
Menüaktionen für eine Aktivität sind im Projektbereich und auf der Entwurfsgrafik zugänglich. Weitere Informationen finden Sie im Aktivitätsaktionsmenü in Connector-Grundlagen.
WebCrawler URL extrahieren-Aktivitäten können als Ziel mit diesen Betriebsmustern verwendet werden:
- Transformationsmuster
- Zwei-Transformationsmuster (als erstes oder zweites Ziel)
Um die Aktivität mit Skriptfunktionen zu verwenden, schreiben Sie die Daten an einen temporären Ort und verwenden Sie dann diesen temporären Ort in der Skriptfunktion.
Wenn Sie bereit sind, bereitstellen und ausführen Sie den Betrieb und validieren Sie das Verhalten, indem Sie die Betriebsprotokolle überprüfen.