Zum Inhalt springen

Google BigQuery Datenübertragungsaktivität

Einführung

Eine Google BigQuery Datenübertragungs-Aktivität, die ihre Google BigQuery-Verbindung verwendet, überträgt Daten von einer Datenquelle in ein Dataset in Google BigQuery und ist dazu gedacht, als Ziel verwendet zu werden, um Daten in einem Vorgang zu konsumieren.

Erstellen einer Google BigQuery Datenübertragungsaktivität

Eine Instanz einer Google BigQuery Datenübertragungs-Aktivität wird aus einer Google BigQuery-Verbindung unter Verwendung des Aktivitätstyps Datenübertragung erstellt.

Um eine Instanz einer Aktivität zu erstellen, ziehen Sie den Aktivitätstyp auf die Entwurfsfläche oder kopieren Sie den Aktivitätstyp und fügen Sie ihn auf der Entwurfsfläche ein. Weitere Einzelheiten finden Sie unter Erstellen einer Aktivitäts- oder Toolinstanz in Komponentenwiederverwendung.

Eine vorhandene Google BigQuery Datenübertragungs-Aktivität kann von diesen Orten aus bearbeitet werden:

Konfigurieren einer Google BigQuery Datenübertragungsaktivität

Befolgen Sie diese Schritte, um eine Google BigQuery Datenübertragungs-Aktivität zu konfigurieren:

Schritt 1: Geben Sie einen Namen ein und wählen Sie die Datenquelle aus

In diesem Schritt geben Sie einen Namen für die Aktivität ein und wählen die Datenquelle aus. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

  • Name: Geben Sie einen Namen ein, um die Aktivität zu identifizieren. Der Name muss für jede Google BigQuery Datenübertragungs-Aktivität einzigartig sein und darf keine Schrägstriche / oder Doppelpunkte : enthalten.

  • Wählen Sie die Datenquelle aus: In diesem Abschnitt werden die in der Google BigQuery-Endpunkt verfügbaren Datenquellen angezeigt, entweder Amazon S3 oder Google Cloud Storage.

    • Ausgewählte Datenquelle: Nachdem eine Datenquelle ausgewählt wurde, wird sie hier aufgelistet.

    • Suche: Geben Sie den Wert einer beliebigen Spalte in das Suchfeld ein, um die Liste der Datenquellen zu filtern. Die Suche ist nicht groß-/kleinschreibungsempfindlich. Wenn Datenquellen bereits in der Tabelle angezeigt werden, werden die Tabellenergebnisse in Echtzeit mit jedem Tastendruck gefiltert. Um Datenquellen vom Endpunkt beim Suchen neu zu laden, geben Sie Suchkriterien ein und aktualisieren Sie dann, wie unten beschrieben.

    • Aktualisieren: Klicken Sie auf das Aktualisierungssymbol oder das Wort Aktualisieren, um die Datenquellen vom Google BigQuery-Endpunkt neu zu laden. Dies kann nützlich sein, wenn Datenquellen zu Google BigQuery hinzugefügt wurden. Diese Aktion aktualisiert alle Metadaten, die zum Erstellen der in der Konfiguration angezeigten Tabelle der Datenquellen verwendet werden.

    • Auswählen einer Datenquelle: Klicken Sie innerhalb der Tabelle auf eine beliebige Stelle in einer Zeile, um eine Datenquelle auszuwählen. Es kann nur eine Datenquelle ausgewählt werden. Die Informationen, die für jede Datenquelle verfügbar sind, werden vom Google BigQuery-Endpunkt abgerufen:

      • Name: Der Name der Datenquelle.

      • Beschreibung: Die Beschreibung der Datenquelle.

    Tipp

    Wenn die Tabelle nicht mit verfügbaren Datenquellen gefüllt wird, könnte die Google BigQuery-Verbindung nicht erfolgreich sein. Stellen Sie sicher, dass Sie verbunden sind, indem Sie die Verbindung erneut öffnen und die Anmeldeinformationen erneut testen.

  • Speichern & Beenden: Wenn aktiviert, klicken Sie, um die Konfiguration für diesen Schritt zu speichern und die Aktivitätskonfiguration zu schließen.

  • Weiter: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum nächsten Schritt fortzufahren. Die Konfiguration wird nicht gespeichert, bis Sie die Schaltfläche Fertig im letzten Schritt klicken.

  • Änderungen verwerfen: Nach Änderungen klicken Sie, um die Konfiguration zu schließen, ohne die vorgenommenen Änderungen an einem Schritt zu speichern. Eine Nachricht fragt Sie, ob Sie die Änderungen wirklich verwerfen möchten.

Schritt 2: Wählen Sie das Dataset

In diesem Schritt wählen Sie das Dataset aus. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

  • Dataset auswählen: In diesem Abschnitt werden die in der Google BigQuery-Schnittstelle verfügbaren Datasets angezeigt.

    • Ausgewählte Datenquelle: Die im vorherigen Schritt ausgewählte Datenquelle wird hier aufgelistet.

    • Ausgewähltes Dataset: Nachdem ein Dataset ausgewählt wurde, wird es hier aufgelistet.

    • Suche: Geben Sie den Wert einer beliebigen Spalte in das Suchfeld ein, um die Liste der Datasets zu filtern. Die Suche ist nicht groß-/kleinschreibungsempfindlich. Wenn Datasets bereits in der Tabelle angezeigt werden, werden die Tabellenergebnisse in Echtzeit mit jedem Tastendruck gefiltert. Um Datasets von der Schnittstelle beim Suchen neu zu laden, geben Sie Suchkriterien ein und aktualisieren Sie dann, wie unten beschrieben.

    • Aktualisieren: Klicken Sie auf das Aktualisierungssymbol oder das Wort Aktualisieren, um Datasets von der Google BigQuery-Schnittstelle neu zu laden. Dies kann nützlich sein, wenn Datasets zu Google BigQuery hinzugefügt wurden. Diese Aktion aktualisiert alle Metadaten, die zum Erstellen der in der Konfiguration angezeigten Tabelle der Datasets verwendet werden.

    • Ein Dataset auswählen: Klicken Sie innerhalb der Tabelle irgendwo auf eine Zeile, um ein Dataset auszuwählen. Es kann nur ein Dataset ausgewählt werden. Die für jedes Dataset verfügbaren Informationen werden von der Google BigQuery-Schnittstelle abgerufen:

      • Name: Der Name des Datasets.

      • Beschreibung: Die Beschreibung des Datasets.

    Tipp

    Wenn die Tabelle nicht mit verfügbaren Datasets gefüllt wird, könnte die Google BigQuery-Verbindung nicht erfolgreich sein. Stellen Sie sicher, dass Sie verbunden sind, indem Sie die Verbindung erneut öffnen und die Anmeldeinformationen erneut testen.

  • Zurück: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum vorherigen Schritt zurückzukehren.

  • Weiter: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und mit dem nächsten Schritt fortzufahren. Die Konfiguration wird nicht gespeichert, bis Sie die Schaltfläche Fertig im letzten Schritt klicken.

  • Änderungen verwerfen: Nach Änderungen klicken Sie, um die Konfiguration zu schließen, ohne die vorgenommenen Änderungen zu speichern. Eine Nachricht fordert Sie auf, zu bestätigen, dass Sie die Änderungen verwerfen möchten.

Schritt 3: Wählen Sie die Tabelle

In diesem Schritt wählen Sie die Tabelle aus. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

Tipp

Felder mit einem Symbol für Variablen unterstützen die Verwendung von globalen Variablen, Projektvariablen und Jitterbit-Variablen. Beginnen Sie entweder, indem Sie eine öffnende eckige Klammer [ in das Feld eingeben, oder indem Sie auf das Symbol für Variablen klicken, um ein Menü anzuzeigen, das vorhandene Variablen zur Auswahl auflistet.

  • Tabelle auswählen: In diesem Abschnitt werden die in der Google BigQuery-Schnittstelle verfügbaren Tabellen angezeigt.

    • Ausgewähltes Dataset: Das im vorherigen Schritt ausgewählte Dataset wird hier aufgelistet.

    • Ausgewählte Tabelle: Nachdem eine Tabelle ausgewählt wurde, wird sie hier aufgelistet.

    • Suche: Geben Sie den Wert einer beliebigen Spalte in das Suchfeld ein, um die Liste der Tabellen zu filtern. Die Suche ist nicht groß-/kleinschreibungsempfindlich. Wenn Tabellen bereits innerhalb der Tabelle angezeigt werden, werden die Tabellenergebnisse in Echtzeit mit jedem Tastendruck gefiltert. Um Tabellen von der Schnittstelle beim Suchen neu zu laden, geben Sie Suchkriterien ein und aktualisieren Sie dann, wie unten beschrieben.

    • Aktualisieren: Klicken Sie auf das Aktualisierungssymbol oder das Wort Aktualisieren, um Tabellen von der Google BigQuery-Schnittstelle neu zu laden. Dies kann nützlich sein, wenn Tabellen zu Google BigQuery hinzugefügt wurden. Diese Aktion aktualisiert alle Metadaten, die zum Erstellen der in der Konfiguration angezeigten Tabelle von Tabellen verwendet werden.

    • Tabelle auswählen: Klicken Sie innerhalb der Tabelle auf eine Zeile, um eine Tabelle auszuwählen. Es kann nur eine Tabelle ausgewählt werden. Die Informationen, die für jede Tabelle verfügbar sind, werden vom Google BigQuery-Endpunkt abgerufen:

      • Name: Der Name der Tabelle.

      • Beschreibung: Die Beschreibung der Tabelle.

    Hinweis

    Wenn die Tabelle nicht mit verfügbaren Tabellen gefüllt wird, könnte die Google BigQuery-Verbindung nicht erfolgreich sein. Stellen Sie sicher, dass Sie verbunden sind, indem Sie die Verbindung erneut öffnen und die Anmeldeinformationen erneut testen.

  • Anzeigename: Legen Sie einen Anzeigenamen für die Datenübertragung fest.

  • Zurück: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum vorherigen Schritt zurückzukehren.

  • Weiter: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum nächsten Schritt fortzufahren. Die Konfiguration wird nicht gespeichert, bis Sie auf die Schaltfläche Fertig im letzten Schritt klicken.

  • Änderungen verwerfen: Klicken Sie nach Änderungen, um die Konfiguration zu schließen, ohne die vorgenommenen Änderungen zu speichern. Eine Nachricht fragt Sie, ob Sie die Änderungen wirklich verwerfen möchten.

Schritt 4: Überprüfen der Datenschemas

Alle Anfrage- oder Antwortschemas werden angezeigt. Jedes Benutzeroberflächenelement dieses Schrittes wird im Folgenden beschrieben.

  • Datenschemas: Diese Datenschemas werden von benachbarten Transformationen geerbt und während der Transformationszuordnung erneut angezeigt.

    Der Google BigQuery-Connector verwendet die Google BigQuery REST API. Weitere Informationen zu den Schema-Knoten und -Feldern finden Sie in der API-Dokumentation.

    Wichtig

    Der Wert, der für das Feld custom_schedule verwendet wird, sollte eine Zeichenfolge sein, die dem in der Google-Dokumentation zu Jobs mit cron.yml planen definierten Format folgt, ohne schedule: voranzustellen. Zum Beispiel alle 12 Stunden oder jeden Montag um 09:00.

Die Datenübertragungs-Aktivität verwendet JSON sowohl in ihren Anfrage- als auch in ihren Antwortschemata.

  • Aktualisieren: Klicken Sie auf das Aktualisierungssymbol oder das Wort Aktualisieren, um die Schemata vom Google BigQuery-Endpunkt neu zu generieren. Diese Aktion regeneriert auch ein Schema an anderen Stellen im Projekt, an denen dasselbe Schema referenziert wird, wie zum Beispiel in einer angrenzenden Transformation.

  • Zurück: Klicken Sie, um die Konfiguration für diesen Schritt vorübergehend zu speichern und zum vorherigen Schritt zurückzukehren.

  • Fertig: Klicken Sie, um die Konfiguration für alle Schritte zu speichern und die Aktivitätskonfiguration zu schließen.

  • Änderungen verwerfen: Nachdem Sie Änderungen vorgenommen haben, klicken Sie, um die Konfiguration zu schließen, ohne die Änderungen an einem Schritt zu speichern. Eine Nachricht fragt Sie, ob Sie die Änderungen wirklich verwerfen möchten.

Nächste Schritte

Nachdem Sie eine Google BigQuery Datenübertragungs-Aktivität konfiguriert haben, vervollständigen Sie die Konfiguration des Vorgangs, indem Sie andere Aktivitäten oder Werkzeuge als Vorgangsschritte hinzufügen und konfigurieren. Sie können auch die Betriebseinstellungen konfigurieren, die die Möglichkeit umfassen, Vorgänge zusammenzuschalten, die sich in denselben oder unterschiedlichen Workflows befinden.

Menüaktionen für eine Aktivität sind im Projektbereich und auf der Entwurfsgrafik zugänglich. Für Details siehe Aktivitätsaktionsmenü in Connector-Grundlagen.

Google BigQuery Datenübertragungs-Aktivitäten können als Ziel mit diesen Vorgangsmustern verwendet werden:

Um die Aktivität mit Skriptfunktionen zu verwenden, schreiben Sie die Daten an einen temporären Ort und verwenden Sie dann diesen temporären Ort in der Skriptfunktion.

Wenn Sie bereit sind, führen Sie die Operation aus und validieren Sie das Verhalten, indem Sie die Betriebsprotokolle überprüfen.