Zum Inhalt springen

WebCrawler Scrape Page-Aktivität

Einführung

Eine WebCrawler Scrape Page-Aktivität, die ihre WebCrawler-Verbindung nutzt, durchsucht eine Seite und ist als Ziel gedacht, um Daten in einem Vorgang zu konsumieren.

Erstellen einer WebCrawler Scrape Page-Aktivität

Eine Instanz einer WebCrawler Scrape Page-Aktivität wird aus einer WebCrawler-Verbindung unter Verwendung des Aktivitätstyps Scrape Page erstellt.

Um eine Instanz einer Aktivität zu erstellen, ziehen Sie den Aktivitätstyp auf die Entwurfsfläche oder kopieren Sie den Aktivitätstyp und fügen Sie ihn auf der Entwurfsfläche ein. Für Details siehe Erstellen einer Aktivitätsinstanz in Komponentenwiederverwendung.

Eine vorhandene WebCrawler Scrape Page-Aktivität kann von diesen Orten aus bearbeitet werden:

Konfigurieren einer WebCrawler Scrape Page-Aktivität

Befolgen Sie diese Schritte, um eine WebCrawler Scrape Page-Aktivität zu konfigurieren:

Schritt 1: Geben Sie einen Namen ein und spezifizieren Sie die Einstellungen

In diesem Schritt geben Sie einen Namen für die Aktivität ein und konfigurieren Einstellungen, einschließlich der Website-URL, des Ausgabeinhaltsformats, der CSS-Selektor-Tagliste, der Einbeziehung von Metadaten und der Fehlerbehandlung. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

Tipp

Felder mit einem Variablen-Icon unterstützen die Verwendung von globalen Variablen, Projektvariablen und Jitterbit-Variablen. Beginnen Sie entweder, indem Sie eine öffnende eckige Klammer [ in das Feld eingeben oder indem Sie auf das Variablen-Icon klicken, um eine Liste der vorhandenen Variablen anzuzeigen.

  • Endpunktmenü: Wenn Sie mehrere Endpunkte desselben Verbindungstyps konfiguriert haben, wird ein Menü oben auf dem Bildschirm angezeigt, das den aktuellen Endpunktnamen anzeigt. Klicken Sie auf das Menü, um zu einem anderen Endpunkt zu wechseln. Weitere Informationen finden Sie unter Ändern des zugewiesenen Endpunkts in Konfigurationsbildschirmen.

    • Endpunkt bearbeiten: Erscheint, wenn Sie über den aktuellen Endpunktnamen fahren. Klicken Sie, um die Verbindungsconfiguration des aktuell ausgewählten Endpunkts zu bearbeiten.
  • Name: Geben Sie einen Namen ein, um die Aktivität zu identifizieren. Der Name muss für jede WebCrawler Scrape Page-Aktivität eindeutig sein und darf keine Schrägstriche / oder Doppelpunkte : enthalten.

  • Website-URL: Geben Sie die URL der zu scrapenden Seite ein.

  • Ausgabeinhaltsformat: Geben Sie das zu verwendende Ausgabeinhaltsformat an, eines von Text oder HTML.

  • Tagliste (CSS-Selektoren): Klicken Sie auf das Hinzufügen-Icon , um eine Zeile zur Tabelle hinzuzufügen, und geben Sie eine CSS-Selektor Tagliste für jedes Seitenelement ein, das aus der gescrapten Ausgabe ausgeschlossen werden soll. Verwenden Sie die Standard-CSS-Selektorsyntax, um spezifische Elemente anzusprechen (zum Beispiel .ads oder footer).

    Um die Zeile zu speichern, klicken Sie auf das Einreichungs-Icon in der rechten Spalte.

    Um eine einzelne Zeile zu bearbeiten oder zu löschen, fahren Sie mit der Maus über die rechte Spalte und verwenden Sie das Bearbeitungssymbol oder das Löschsymbol .

    Um alle Zeilen zu löschen, klicken Sie auf Alle löschen.

  • Include metadata: Wählen Sie diese Option, um Metadaten von der Seite zu extrahieren.

  • Bei Fehlern fortfahren: Wählen Sie diese Option, um die Ausführung der Aktivität fortzusetzen, wenn ein Fehler bei einem Datensatz in einer Batch-Anfrage auftritt. Wenn Fehler auftreten, werden diese im Betriebsprotokoll aufgezeichnet.

  • Speichern & Beenden: Wenn aktiviert, klicken Sie, um die Konfiguration für diesen Schritt zu speichern und die Aktivitätskonfiguration zu schließen.

  • Weiter: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum nächsten Schritt fortzufahren. Die Konfiguration wird nicht gespeichert, bis Sie auf die Schaltfläche Fertig im letzten Schritt klicken.

  • Änderungen verwerfen: Nach Änderungen klicken Sie, um die Konfiguration zu schließen, ohne die vorgenommenen Änderungen zu speichern. Eine Nachricht fragt Sie, ob Sie die Änderungen wirklich verwerfen möchten.

Schritt 2: Überprüfen der Datenschemas

Alle Anfrage- oder Antwortschemas werden angezeigt. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

  • Datenschema: Diese Datenschemas werden von benachbarten Transformationen übernommen und während der Transformationszuordnung erneut angezeigt.

    Hinweis

    Daten, die in einer Transformation bereitgestellt werden, haben Vorrang vor der Aktivitätskonfiguration.

  • Aktualisieren: Klicken Sie auf das Aktualisierungssymbol oder das Wort Aktualisieren, um die Schemata vom WebCrawler-Endpunkt neu zu generieren. Diese Aktion regeneriert auch ein Schema an anderen Stellen im Projekt, wo dasselbe Schema referenziert wird, wie in einer benachbarten Transformation.

  • Zurück: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum vorherigen Schritt zurückzukehren.

  • Fertig: Klicken Sie, um die Konfiguration für alle Schritte zu speichern und die Aktivitätskonfiguration zu schließen.

  • Änderungen verwerfen: Nach Änderungen klicken Sie, um die Konfiguration zu schließen, ohne die vorgenommenen Änderungen zu speichern. Eine Nachricht fragt Sie, ob Sie die Änderungen wirklich verwerfen möchten.

Nächste Schritte

Nachdem Sie eine WebCrawler Seite scrapen-Aktivität konfiguriert haben, vervollständigen Sie die Konfiguration des Vorgangs, indem Sie weitere Aktivitäten, Transformationen oder Skripte als Vorgangsschritte hinzufügen und konfigurieren. Sie können auch die Betriebseinstellungen konfigurieren, die die Möglichkeit umfassen, Vorgänge zusammenzuführen, die sich in denselben oder unterschiedlichen Workflows befinden.

Menüaktionen für eine Aktivität sind im Projektbereich und auf der Entwurfsgrafik zugänglich. Für Details siehe Aktivitätsaktionsmenü in Connector-Grundlagen.

WebCrawler Seite scrapen-Aktivitäten können als Ziel mit diesen Vorgangsmustern verwendet werden:

Um die Aktivität mit Skriptfunktionen zu verwenden, schreiben Sie die Daten an einen temporären Speicherort und verwenden Sie dann diesen temporären Speicherort in der Skriptfunktion.

Wenn Sie bereit sind, setzen Sie den Vorgang ein und führen Sie ihn aus und validieren Sie das Verhalten, indem Sie die Vorgangsprotokolle überprüfen.