Jitterbit Dokumenten-Compliance-Agent

Übersicht

Jitterbit stellt den Dokumenten-Compliance-Agenten über den Jitterbit Marketplace seinen Kunden zur Verfügung. Dieser Agent automatisiert die dokumentenverarbeitungsorientierte Compliance, indem er PDF-Dateien von Amazon S3 abruft, deren Textinhalt mithilfe von optischer Zeichenerkennung (OCR) extrahiert und eine KI-gestützte Analyse anwendet, um personenbezogene Daten (PII) zu erkennen und zu entfernen. Dadurch hilft er Organisationen, die Anforderungen an den Datenschutz zu erfüllen, ohne dass eine manuelle Dokumentenprüfung erforderlich ist.

Der Agent ruft PDF-Dateien aus einem konfigurierten Quell-Bucket ab, reicht jede Datei zur asynchronen OCR-Verarbeitung ein und sammelt den vollständigen extrahierten Text über alle Seiten. Ein LLM analysiert dann den extrahierten Text in zwei Durchgängen: einmal, um PII-Daten zu identifizieren und zu speichern, und erneut, um eine bereinigte Version mit allen entfernten PII zu erstellen. Beide Ausgabedateien werden auf einen SFTP-Server geschrieben, die ursprüngliche PDF wird in einem separaten S3-Bucket archiviert, und nach jedem Verarbeitungsdurchlauf werden Email-Benachrichtigungen an die konfigurierten Empfänger gesendet.

Der Agent führt die folgenden Aufgaben aus:

Ruft eine Liste von PDF-Dateien aus einem konfigurierten Amazon S3 Quell-Bucket ab.
Liest jede PDF-Datei und reicht sie zur asynchronen OCR-Textextraktion an Amazon Textract ein.
Sammelt den extrahierten Text über alle Seiten und verarbeitet mehrseitige Dokumente mithilfe von Textract-Paginierungstokens.
Sendet den extrahierten Text an ein LLM, um PII-Daten zu erkennen und zu extrahieren, und schreibt die Ausgabe in eine Datei auf einem SFTP-Server.
Sendet den extrahierten Text an das LLM, um eine bereinigte Version mit allen entfernten PII zu erstellen, und schreibt die Ausgabe in eine Datei auf einem SFTP-Server.
Archiviert verarbeitete PDF-Dateien in einem konfigurierten Ziel-S3-Bucket.
Sendet Email-Benachrichtigungen an konfigurierten Empfänger, nachdem die Verarbeitung abgeschlossen ist.

Dieses Dokument erklärt, wie man diesen KI-Agenten einrichtet und betreibt. Es behandelt die Architektur, Voraussetzungen und Schritte zur Installation, Konfiguration und Betrieb des KI-Agenten.

KI-Agent-Architektur

Dieser KI-Agent verbindet Amazon S3, Amazon Textract, ein LLM und einen SFTP-Server, um Text aus PDF-Dokumenten zu extrahieren und zu bereinigen. Ein typischer Verarbeitungsablauf folgt diesen Schritten:

Die Initial Controller-Operation initialisiert die Verarbeitungsvariablen und löst den Schritt zur Dateiliste aus.
Der Agent verbindet sich mit dem konfigurierten Amazon S3-Quell-Bucket und ruft eine Liste der verfügbaren PDF-Dateien ab.
Für jede Datei liest der Agent den PDF-Inhalt von Amazon S3 und reicht ihn zur asynchronen OCR-Verarbeitung an Amazon Textract weiter.
Der Agent wartet, bis der Textract-Job abgeschlossen ist, ruft den extrahierten Text mit der Job-ID ab und folgt den Seiten-Token, bis alle Seiten gesammelt sind.
Der Agent sendet den vollständigen extrahierten Text an das LLM mit einem PII-Erkennungs-Prompt. Die identifizierten PII-Daten werden in einer Datei auf dem SFTP-Server gespeichert.
Der Agent sendet den extrahierten Text an das LLM mit einem Datenbereinigungs-Prompt, um eine bereinigte Version zu erstellen. Der bereinigte Text wird in einer Datei auf dem SFTP-Server gespeichert.
Die ursprüngliche PDF wird in den Ziel-S3-Archiv-Bucket verschoben.
Eine Email-Benachrichtigung wird an die konfigurierten Empfänger gesendet, um den Abschluss der Verarbeitung zu bestätigen.

Workflow-Diagramm

Das folgende Diagramm zeigt die Hauptverarbeitungspipeline für den Document Compliance Agent.

--- config: flowchart: padding: 20 nodeSpacing: 80 --- flowchart LR classDef default fill:white, stroke:black, stroke-width:3px, rx:15px, ry:15px JSP@{ shape: hex, label: "
Document Compliance
Agent" } S3SRC[fab:fa-aws
Amazon S3
Source Bucket] TXTRACT[fab:fa-aws
Amazon Textract] LLM[fas:fa-brain
LLM] SFTP[fas:fa-server
SFTP Server] S3ARC[fab:fa-aws
Amazon S3
Archive Bucket] EMAIL[fas:fa-envelope
Email] JSP <-->|1. List and get PDFs| S3SRC JSP <-->|2. OCR request / extracted text| TXTRACT JSP <-->|3. PII detection prompt / PII data| LLM JSP <-->|4. Clean data prompt / cleaned text| LLM JSP -->|5. Write output files| SFTP JSP -->|6. Archive PDF| S3ARC JSP -->|7. Processing notification| EMAIL

Voraussetzungen

Sie benötigen die folgenden Komponenten, um diesen KI-Agenten zu verwenden.

Harmony-Komponenten

Sie müssen über eine Jitterbit Harmony-Lizenz mit Zugriff auf die folgenden Komponenten verfügen:

Jitterbit Studio
Document Compliance Agent, der als Lizenz-Add-On erworben wurde

Unterstützte Endpunkte

Der KI-Agent verbindet sich mit den folgenden Endpunkten. Sie können andere Systeme unterstützen, indem Sie die Endpunktkonfigurationen und Workflows des Projekts anpassen.

Großes Sprachmodell (LLM)

Der Agent verwendet Amazon Bedrock, um auf große Sprachmodelle zur PII-Erkennung und Datenbereinigung zuzugreifen. Amazon Bedrock ist ein verwalteter Dienst, der den Zugriff auf Grundmodelle von Anbietern wie Anthropic, Amazon und Meta ermöglicht. Das Projekt ist standardmäßig so konfiguriert, dass es Amazon Nova Lite verwendet. Sie können ein anderes von Bedrock unterstütztes Modell verwenden, indem Sie die Modell-ID in der Bedrock-Aktivitätskonfiguration aktualisieren. Sie müssen über ein AWS-Konto mit aktiviertem Zugriff auf Amazon Bedrock in Ihrer Region und dem ausgewählten Modell verfügen.

Amazon S3

Der Agent verwendet Amazon S3 sowohl als PDF-Quelle als auch als Archivziel. Sie müssen über ein AWS-Konto mit IAM-Anmeldeinformationen verfügen, die AmazonS3FullAccess-Berechtigungen haben, sowie zwei konfigurierten Buckets: einen für eingehende PDF-Dateien und einen für das Archivieren verarbeiteter Dateien.

Amazon Textract

Der Agent verwendet Amazon Textract für die asynchrone OCR-Extraktion aus PDF-Dateien. Ihre IAM-Anmeldeinformationen müssen AmazonTextractFullAccess-Berechtigungen enthalten. Der Quell-S3-Bucket muss eine Ressourcenrichtlinie haben, die Amazon Textract das Lesen davon erlaubt (siehe AWS-Ressourcen konfigurieren).

SFTP

Der Agent schreibt verarbeitete Ausgabedateien (PII-Daten und bereinigten Text) auf einen SFTP-Server. Sie müssen über einen SFTP-Server verfügen, der von Jitterbit aus zugänglich ist, mit gültigen Verbindungsanmeldeinformationen.

Email

Der Agent sendet Verarbeitungsbenachrichtigungen über SMTP-Email. Die Standardkonfiguration verwendet Gmail (smtp.gmail.com). Sie müssen über ein Absender-Email-Konto mit aktiviertem SMTP-Zugriff verfügen und, falls Sie Gmail verwenden, ein App-Passwort konfigurieren.

Installation, Konfiguration und Betrieb

Befolgen Sie diese Schritte, um diesen KI-Agenten zu installieren, zu konfigurieren und zu betreiben:

Projekt herunterladen und installieren
AWS-Ressourcen konfigurieren
Projektvariablen konfigurieren
Verbindungen testen
Projekt bereitstellen
Projekt-Workflows überprüfen
Projekt-Workflows auslösen

Für Anleitungen zur Fehlersuche siehe Fehlerbehebung.

Projekt herunterladen und installieren

Befolgen Sie diese Schritte, um das Studio-Projekt für den KI-Agenten zu installieren:

Melden Sie sich im Harmony-Portal unter https://login.jitterbit.com an und öffnen Sie Marketplace.
Suchen Sie den KI-Agenten mit dem Namen Document Compliance Agent. Um den Agenten zu finden, verwenden Sie die Suchleiste oder wählen Sie im Bereich Filter unter Typ KI-Agent aus, um die Anzeige auf KI-Agenten zu beschränken.
Klicken Sie auf den Dokumentations-Link des Agents, um die Dokumentation in einem separaten Tab zu öffnen. Halten Sie den Tab geöffnet, um nach dem Start des Projekts darauf zurückzugreifen.
Klicken Sie auf Projekt starten, um einen Konfigurationsdialog zu öffnen.

Hinweis

Wenn Sie den KI-Agenten noch nicht gekauft haben, wird stattdessen Diesen Agenten erhalten angezeigt. Klicken Sie darauf, um einen Informationsdialog zu öffnen, und klicken Sie dann auf Absenden, damit sich ein Vertreter mit Ihnen in Verbindung setzt, um den KI-Agenten zu kaufen.
Wählen Sie im Dialog Neues Projekt erstellen eine Umgebung aus, in der das Studio-Projekt erstellt wird, und klicken Sie dann auf Projekt erstellen.
Nachdem der Fortschrittsdialog anzeigt, dass das Projekt erstellt wurde, verwenden Sie den Dialoglink Gehe zu Studio oder öffnen Sie das Projekt direkt von der Studio Projekte Seite.

AWS-Ressourcen konfigurieren

Bevor Sie die Projektvariablen konfigurieren, richten Sie die erforderlichen AWS-Ressourcen ein.

Erstellen Sie einen IAM-Benutzer und Zugriffsschlüssel

Öffnen Sie in der AWS Management Console IAM und wählen Sie Benutzer in der linken Seitenleiste aus.
Wählen Sie einen vorhandenen Benutzer aus oder klicken Sie auf Benutzer erstellen, um einen neuen zu erstellen. Stellen Sie sicher, dass der Benutzer Berechtigungen für Amazon S3, Amazon Textract und Amazon Bedrock hat.
Öffnen Sie die Registerkarte Sicherheitsanmeldeinformationen des Benutzers, scrollen Sie zu Zugriffsschlüssel und klicken Sie auf Zugriffsschlüssel erstellen.
Wählen Sie den entsprechenden Anwendungsfall aus, klicken Sie auf Weiter, und kopieren und speichern Sie die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel sicher. Der geheime Schlüssel wird nur einmal angezeigt.
Klicken Sie auf der Registerkarte Berechtigungen des Benutzers auf Berechtigungen hinzufügen und fügen Sie die folgenden Richtlinien an: AmazonBedrockFullAccess, AmazonS3FullAccess, AmazonTextractFullAccess.

Erstellen Sie S3-Buckets

Öffnen Sie in der AWS Management Console S3 und klicken Sie auf Bucket erstellen.
Erstellen Sie den Quell-Bucket, in den PDF-Dateien zur Verarbeitung gelegt werden. Notieren Sie sich den Bucket-Namen für die Projektvariable AmazonBucket.
Erstellen Sie einen zweiten Bucket, der als Archivziel für verarbeitete Dateien dient. Notieren Sie sich dessen Namen für die Projektvariable DestinationAmazonBucket.
Stellen Sie sicher, dass sich beide Buckets in derselben AWS-Region befinden.

Konfigurieren Sie die Quell-Bucket-Richtlinie

Amazon Textract benötigt Lesezugriff auf den Quell-S3-Bucket. Wenden Sie die folgende Ressourcenrichtlinie an, um diesen Zugriff zu gewähren, und ersetzen Sie <source-bucket-name> durch den tatsächlichen Namen Ihres Buckets:

Wählen Sie in Amazon S3 den Quell-Bucket aus und öffnen Sie die Registerkarte Berechtigungen.

Klicken Sie unter Bucket-Richtlinie auf Bearbeiten und fügen Sie die folgende Richtlinie ein:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "textract.amazonaws.com"
            },
            "Action": [
                "s3:GetObject",
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::<source-bucket-name>",
                "arn:aws:s3:::<source-bucket-name>/*"
            ]
        }
    ]
}

Klicken Sie auf Änderungen speichern.

Hinweis

Diese Richtlinie gewährt Amazon Textract nur Lesezugriff auf den Quell-Bucket. Es werden keine Schreibberechtigungen gewährt.

Konfigurieren Sie Projektvariablen

Im Studio-Projekt, das aus dem Marketplace installiert wurde, legen Sie Werte für die folgenden Projektvariablen fest.

Um Projektvariablen zu konfigurieren, verwenden Sie das Aktionsmenü des Projekts und wählen Sie Projektvariablen aus, um die Konfigurationsschublade zu öffnen.

Amazon Web Services

Variablenname	Beschreibung
`AmazonS3AccessKey`	AWS-Zugangs-ID zur Authentifizierung von Amazon S3- und Textract-API-Aufrufen.
`AmazonS3SecretKey`	AWS-Geheimzugangsschlüssel zur Authentifizierung von Amazon S3- und Textract-API-Aufrufen.
`AWS_Region`	AWS-Region für Amazon S3, Textract und Bedrock-Dienste (zum Beispiel `us-east-2`).
`AmazonBucket`	Name des S3-Quell-Buckets, in dem PDF-Dateien zur Verarbeitung abgelegt werden.
`DestinationAmazonBucket`	Name des S3-Archiv-Buckets, in den verarbeitete Dateien nach der Analyse verschoben werden.
`Textract_Base_URL`	Basis-URL für den Amazon Textract API-Endpunkt. Aktualisieren Sie die Region, um mit Ihrer AWS-Region übereinzustimmen (zum Beispiel `https://textract.us-east-2.amazonaws.com`).

SFTP

Variablenname	Beschreibung
`sftp_URL`	URL des SFTP-Servers, auf dem die verarbeiteten Ausgabedateien geschrieben werden.
`sftp_username`	Benutzername zur SFTP-Authentifizierung.
`sftp_password`	Passwort zur SFTP-Authentifizierung.

Email

Variablenname	Beschreibung
`From_Email`	Absender-Email-Adresse für Verarbeitungsbenachrichtigungen.
`To_Email`	Empfänger-Email-Adresse für Verarbeitungsbenachrichtigungen.
`Email_Username`	Benutzername zur Authentifizierung beim SMTP-Email-Server.
`Email_Password`	App-Passwort für das Email-Konto des Absenders. Erstellen Sie ein App-Passwort in den Sicherheitseinstellungen Ihres Google-Kontos für Gmail.
`Email_Server`	SMTP-Serveradresse zum Versenden von Email-Benachrichtigungen (zum Beispiel `smtp.gmail.com`).
`Email_Subject`	Betreffzeile für Benachrichtigungs-Emails.
`EmailMessage`	Textkörper für Benachrichtigungs-Emails. Lassen Sie das Feld leer, um die Standardnachricht zu verwenden.

Testverbindungen

Test die Endpunktkonfigurationen, um die Konnektivität mit den definierten Projektvariablenwerten zu überprüfen.

Um Verbindungen zu testen, gehen Sie zum Tab Projektendpunkte und -verbinder der Design-Komponentenpalette , fahren Sie mit der Maus über jeden Endpunkt und klicken Sie auf Test.

Projekt bereitstellen

Projekt bereitstellen das Studio-Projekt.

Um das Projekt bereitzustellen, verwenden Sie das Aktionsmenü des Projekts und wählen Sie Bereitstellen.

Projekt-Workflows überprüfen

Das Studio-Projekt enthält einen Workflow, der die Verarbeitungspipeline des Document Compliance Agent implementiert.

PDF-Parser

Operation	Beschreibung
Initial Controller	Initialisiert Verarbeitungsvariablen und startet die Pipeline.
Dateien von Amazon S3 auflisten	Ruft eine Liste der verfügbaren PDF-Dateien aus dem Quell-S3-Bucket ab.
Dateien von Amazon S3 lesen	Liest den Inhalt der PDF-Datei von Amazon S3.
Textract Pdf-Daten	Reicht die PDF zur asynchronen OCR-Verarbeitung an Amazon Textract ein.
Daten von Job-ID abrufen	Ruft die OCR-Ergebnisse von Textract mit der Job-ID ab.
Daten vom nächsten Token abrufen	Verarbeitet mehrseitige OCR-Ergebnisse mithilfe von Textract-Paginierungstokens.
Bedrock nach PII-Daten fragen	Sendet den extrahierten Text an das LLM, um PII zu erkennen und zu extrahieren.
Bedrock nach bereinigten Daten fragen	Sendet den extrahierten Text an das LLM, um eine PII-freie Version zu erstellen.
Datei ins Archiv verschieben	Verschiebt die verarbeitete PDF in den Zielarchiv-S3-Bucket.

Initial Controller

Die Operation Initial Controller dient als Einstiegspunkt für den Workflow. Sie führt das Controller Script aus, das die Variablen lineTexts und gv_extractedText in einen sauberen Zustand initialisiert und dann die Operation Dateien von Amazon S3 auflisten auslöst.

Dateien von Amazon S3 auflisten

Die Dateien von Amazon S3 auflisten-Operation verbindet sich mit dem konfigurierten Quell-S3-Bucket über den Amazon S3-Adapter und ruft eine Liste verfügbarer PDF-Dateinamen ab. Die Dateinamen werden in einer Variablen gespeichert und zur Referenz protokolliert, bevor der Workflow fortfährt, um jede Datei zu lesen.

Dateien von Amazon S3 lesen

Die Dateien von Amazon S3 lesen-Operation ruft den binären Inhalt jeder PDF von S3 ab. Die Antwortlast wird transformiert und in einer Variablen gespeichert, um sie an Amazon Textract zu übermitteln.

Textract PDF-Daten

Die Textract PDF-Daten-Operation übermittelt die PDF-Daten über HTTP an Amazon Textract zur asynchronen OCR-Verarbeitung. Die Operation ruft eine Job-ID aus der Textract-Antwort ab, protokolliert sie, wartet eine Minute, bis der Job abgeschlossen ist, und löst dann die Daten vom Job-ID abrufen-Operation aus.

Daten vom Job-ID abrufen

Die Daten vom Job-ID abrufen-Operation sendet die Job-ID an Amazon Textract, um die OCR-Ergebnisse abzurufen. Die Antwort wird transformiert, um zeilenweise Text zu extrahieren, der der globalen Variablen für extrahierten Text hinzugefügt wird. Wenn ein Paginierungstoken in der Antwort vorhanden ist, verzweigt die Operation zu Daten vom nächsten Token abrufen; andernfalls fährt sie mit dem Schritt zur PII-Erkennung fort.

Daten vom nächsten Token abrufen

Die Daten vom nächsten Token abrufen-Operation verarbeitet mehrseitige Textract-Ergebnisse, indem sie das Paginierungstoken verwendet, um die verbleibenden Seitendaten abzurufen. Der zeilenweise Text jeder Seite wird der globalen Textvariablen hinzugefügt. Die Operation fährt fort, Seiten abzurufen, bis keine weiteren Tokens zurückgegeben werden, und verzweigt dann zum Schritt zur PII-Erkennung.

Bedrock nach PII-Daten auffordern

Die Bedrock nach PII-Daten auffordern-Operation sendet den vollständigen extrahierten Text über Amazon Bedrock an Amazon Nova Lite mit einer Aufforderung zur Erkennung personenbezogener Daten. Die Antwort wird analysiert, um PII-Daten im JSON-Format zu extrahieren, die protokolliert und in einer Datei auf dem SFTP-Server gespeichert werden.

Prompt Bedrock for Clean Data

Die Prompt Bedrock for Clean Data-Operation sendet den extrahierten Text über Amazon Bedrock an Amazon Nova Lite mit einem Prompt, um eine bereinigte Version zu erstellen, bei der alle PII entfernt sind. Die Antwort wird mit Regex nachbearbeitet, um verbleibende sensible Daten zu entfernen, und der bereinigte Text wird in eine Datei auf dem SFTP-Server geschrieben.

Move File to archive

Die Move File to archive-Operation verschiebt die verarbeiteten PDF-Dateien vom Quell-S3-Bucket in den Ziel-Archiv-Bucket und stellt sicher, dass die Datei bei nachfolgenden Durchläufen nicht erneut verarbeitet wird.

Trigger the project workflows

Um den Document Compliance Agent auszuführen, implementieren und starten Sie die Initial Controller-Operation. In Studio fahren Sie mit der Maus über die Operation und klicken auf das Deploy and Run-Symbol in der oberen rechten Ecke der Operationsteilfläche.

Um die Pipeline zu automatisieren, konfigurieren Sie operation schedules für die Initial Controller-Operation, um sie in der von Ihnen bevorzugten Häufigkeit auszuführen.

Troubleshooting

Wenn Sie auf Probleme stoßen, überprüfen Sie die operation logs für detaillierte Informationen zur Fehlersuche.

Für zusätzliche Unterstützung kontaktieren Sie Jitterbit support.