Agente de Cumplimiento Documental de Jitterbit

Descripción General

Jitterbit proporciona el Agente de Cumplimiento Documental a los clientes a través de Jitterbit Marketplace. Este agente automatiza el procesamiento de documentos enfocado en el cumplimiento al recuperar archivos PDF de Amazon S3, extraer su contenido textual utilizando reconocimiento óptico de caracteres (OCR) y aplicar análisis impulsado por IA para detectar y eliminar información de identificación personal (PII), ayudando a las organizaciones a cumplir con los requisitos de privacidad de datos sin revisión manual de documentos.

El agente recupera archivos PDF de un bucket de origen configurado, envía cada archivo para procesamiento OCR asincrónico y recopila el texto completo extraído de todas las páginas. Un LLM luego analiza el texto extraído en dos pasadas: una para identificar y almacenar datos PII, y otra para producir una versión saneada con toda la PII eliminada. Ambos archivos de salida se escriben en un servidor SFTP, el PDF original se archiva en un bucket S3 separado y se envían notificaciones por correo electrónico a los destinatarios configurados después de cada ejecución de procesamiento.

El agente realiza las siguientes tareas:

Recupera una lista de archivos PDF de un bucket de origen configurado de Amazon S3.
Lee cada archivo PDF y lo envía a Amazon Textract para la extracción de texto OCR asincrónica.
Recopila el texto extraído de todas las páginas, manejando documentos de varias páginas utilizando tokens de paginación de Textract.
Envía el texto extraído a un LLM para detectar y extraer datos PII, y escribe la salida en un archivo en un servidor SFTP.
Envía el texto extraído al LLM para producir una versión limpia con toda la PII eliminada, y escribe la salida en un archivo en un servidor SFTP.
Archiva los archivos PDF procesados en un bucket S3 de destino configurado.
Envía notificaciones por correo electrónico a los destinatarios configurados después de que se complete el procesamiento.

Este documento explica cómo configurar y operar este agente de IA. Cubre arquitectura, requisitos previos y pasos para instalar, configurar y operar el agente de IA.

Arquitectura del agente de IA

Este agente de IA conecta Amazon S3, Amazon Textract, un LLM y un servidor SFTP para extraer y sanitizar texto de documentos PDF. Un ciclo de procesamiento típico sigue estos pasos:

La operación Initial Controller inicializa las variables de procesamiento y activa el paso de listado de archivos.
El agente se conecta al bucket de origen de Amazon S3 configurado y recupera una lista de archivos PDF disponibles.
Para cada archivo, el agente lee el contenido del PDF desde Amazon S3 y lo envía a Amazon Textract para el procesamiento OCR asincrónico.
El agente espera a que el trabajo de Textract se complete, recupera el texto extraído utilizando el ID del trabajo y sigue los tokens de paginación hasta que se recopilan todas las páginas.
El agente envía el texto extraído completo al LLM con un aviso de detección de PII. Los datos de PII identificados se escriben en un archivo en el servidor SFTP.
El agente envía el texto extraído al LLM con un aviso de limpieza de datos para producir una versión sanitizada. El texto limpio se escribe en un archivo en el servidor SFTP.
El PDF original se mueve al bucket de archivo de destino en S3.
Se envía una notificación por correo electrónico a los destinatarios configurados confirmando la finalización del procesamiento.

Diagrama de flujo

El siguiente diagrama muestra la principal canalización de procesamiento para el Agente de Cumplimiento de Documentos.

--- config: flowchart: padding: 20 nodeSpacing: 80 --- flowchart LR classDef default fill:white, stroke:black, stroke-width:3px, rx:15px, ry:15px JSP@{ shape: hex, label: "
Document Compliance
Agent" } S3SRC[fab:fa-aws
Amazon S3
Source Bucket] TXTRACT[fab:fa-aws
Amazon Textract] LLM[fas:fa-brain
LLM] SFTP[fas:fa-server
SFTP Server] S3ARC[fab:fa-aws
Amazon S3
Archive Bucket] EMAIL[fas:fa-envelope
Email] JSP <-->|1. List and get PDFs| S3SRC JSP <-->|2. OCR request / extracted text| TXTRACT JSP <-->|3. PII detection prompt / PII data| LLM JSP <-->|4. Clean data prompt / cleaned text| LLM JSP -->|5. Write output files| SFTP JSP -->|6. Archive PDF| S3ARC JSP -->|7. Processing notification| EMAIL

Requisitos previos

Necesitas los siguientes componentes para usar este agente de IA.

Componentes de Harmony

Debes tener una licencia de Jitterbit Harmony con acceso a los siguientes componentes:

Jitterbit Studio
Agente de Cumplimiento de Documentos adquirido como un complemento de licencia

Puntos finales soportados

El agente de IA se conecta a los siguientes puntos finales. Puedes acomodar otros sistemas modificando las configuraciones de puntos finales y flujos de trabajo del proyecto.

Modelo de lenguaje grande (LLM)

El agente utiliza Amazon Bedrock para acceder a modelos de lenguaje grandes para la detección de PII y la sanitización de datos. Amazon Bedrock es un servicio administrado que proporciona acceso a modelos fundamentales de proveedores como Anthropic, Amazon y Meta. El proyecto está configurado para usar Amazon Nova Lite por defecto. Puedes sustituir otro modelo compatible con Bedrock actualizando el ID del modelo en la configuración de actividad de Bedrock. Debes tener una cuenta de AWS con acceso a Amazon Bedrock habilitado en tu región y el modelo seleccionado habilitado.

Amazon S3

El agente utiliza Amazon S3 tanto como fuente de PDF como destino de archivo. Debe tener una cuenta de AWS con credenciales de IAM que tengan permisos de AmazonS3FullAccess y dos buckets configurados: uno para archivos PDF entrantes y otro para archivar archivos procesados.

Amazon Textract

El agente utiliza Amazon Textract para la extracción de OCR asíncrona de archivos PDF. Sus credenciales de IAM deben incluir permisos de AmazonTextractFullAccess. El bucket S3 de origen debe tener una política de recursos que permita a Amazon Textract leer desde él (ver Configurar recursos de AWS).

SFTP

El agente escribe archivos de salida procesados (datos PII y texto limpio) en un servidor SFTP. Debe tener un servidor SFTP accesible desde Jitterbit con credenciales de conexión válidas.

Email

El agente envía notificaciones de procesamiento a través de correo electrónico SMTP. La configuración predeterminada utiliza Gmail (smtp.gmail.com). Debe tener una cuenta de correo electrónico de remitente con acceso SMTP habilitado y, si utiliza Gmail, una contraseña de aplicación configurada.

Instalación, configuración y operación

Siga estos pasos para instalar, configurar y operar este agente de IA:

Descargar e instalar el proyecto
Configurar recursos de AWS
Configurar variables del proyecto
Probar conexiones
Desplegar el proyecto
Revisar flujos de trabajo del proyecto
Activar los flujos de trabajo del proyecto

Para orientación sobre solución de problemas, consulte Solución de problemas.

Descargar e instalar el proyecto

Siga estos pasos para instalar el proyecto de Studio para el agente de IA:

Inicie sesión en el portal de Harmony en https://login.jitterbit.com y abra Marketplace.
Localice el agente de IA llamado Agente de Cumplimiento de Documentos. Para localizar el agente, use la barra de búsqueda o, en el panel de Filtros bajo Tipo, seleccione Agente de IA para limitar la visualización a agentes de IA.
Haz clic en el enlace de Documentación del agente para abrir su documentación en una pestaña separada. Mantén la pestaña abierta para consultarla después de iniciar el proyecto.
Haz clic en Iniciar Proyecto para abrir un cuadro de diálogo de configuración.

Nota

Si aún no has comprado el agente de IA, se mostrará Obtener este agente en su lugar. Haz clic en él para abrir un cuadro de diálogo informativo, luego haz clic en Enviar para que un representante se comunique contigo sobre la compra del agente de IA.
En el cuadro de diálogo Crear un Nuevo Proyecto, selecciona un entorno donde se creará el proyecto de Studio, luego haz clic en Crear Proyecto.
Después de que el cuadro de diálogo de progreso indique que el proyecto ha sido creado, utiliza el enlace del cuadro de diálogo Ir a Studio o abre el proyecto directamente desde la página de Proyectos de Studio.

Configurar recursos de AWS

Antes de configurar las variables del proyecto, configura los recursos de AWS requeridos.

Crear un usuario IAM y claves de acceso

En la Consola de Administración de AWS, abre IAM y selecciona Usuarios en la barra lateral izquierda.
Selecciona un usuario existente o haz clic en Crear usuario para crear uno nuevo. Asegúrate de que el usuario tenga permisos para Amazon S3, Amazon Textract y Amazon Bedrock.
Abre la pestaña Credenciales de seguridad del usuario, desplázate hasta Claves de acceso y haz clic en Crear clave de acceso.
Selecciona el caso de uso apropiado, haz clic en Siguiente, luego copia y almacena de forma segura el ID de clave de acceso y la Clave de acceso secreta. La clave secreta se muestra solo una vez.
En la pestaña Permisos del usuario, haz clic en Agregar permisos y adjunta las siguientes políticas: AmazonBedrockFullAccess, AmazonS3FullAccess, AmazonTextractFullAccess.

Crear buckets S3

En la Consola de Administración de AWS, abre S3 y haz clic en Crear bucket.
Crea el bucket de origen donde se colocarán los archivos PDF para su procesamiento. Toma nota del nombre del bucket para la variable de proyecto AmazonBucket.
Crea un segundo bucket que sirva como destino de archivo para los archivos procesados. Toma nota de su nombre para la variable de proyecto DestinationAmazonBucket.
Asegúrate de que ambos buckets estén en la misma región de AWS.

Configurar la política del bucket de origen

Amazon Textract requiere acceso de lectura al bucket S3 de origen. Aplica la siguiente política de recursos para otorgar ese acceso, reemplazando <source-bucket-name> con el nombre real de tu bucket:

En Amazon S3, selecciona el bucket de origen y abre la pestaña de Permisos.

En Política del bucket, haz clic en Editar y pega la siguiente política:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "textract.amazonaws.com"
            },
            "Action": [
                "s3:GetObject",
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::<source-bucket-name>",
                "arn:aws:s3:::<source-bucket-name>/*"
            ]
        }
    ]
}

Haz clic en Guardar cambios.

Nota

Esta política otorga a Amazon Textract acceso de solo lectura al bucket de origen. No se otorgan permisos de escritura.

Configurar variables del proyecto

En el proyecto de Studio instalado desde Marketplace, establece valores para las siguientes variables del proyecto.

Para configurar las variables del proyecto, utiliza el menú de acciones del proyecto y selecciona Variables del Proyecto para abrir el panel de configuración.

Amazon Web Services

Nombre de variable	Descripción
`AmazonS3AccessKey`	ID de clave de acceso de AWS para autenticar llamadas a las API de Amazon S3 y Textract.
`AmazonS3SecretKey`	Clave de acceso secreta de AWS para autenticar llamadas a las API de Amazon S3 y Textract.
`AWS_Region`	Región de AWS para los servicios de Amazon S3, Textract y Bedrock (por ejemplo, `us-east-2`).
`AmazonBucket`	Nombre del bucket S3 de origen donde se colocan los archivos PDF para su procesamiento.
`DestinationAmazonBucket`	Nombre del bucket S3 de archivo donde se mueven los archivos procesados después del análisis.
`Textract_Base_URL`	URL base para el punto final de la API de Amazon Textract. Actualiza la región para que coincida con tu región de AWS (por ejemplo, `https://textract.us-east-2.amazonaws.com`).

SFTP

Nombre de variable	Descripción
`sftp_URL`	URL del servidor SFTP donde se escriben los archivos de salida procesados.
`sftp_username`	Nombre de usuario para la autenticación SFTP.
`sftp_password`	Contraseña para la autenticación SFTP.

Correo electrónico

Nombre de variable	Descripción
`From_Email`	Dirección de correo electrónico del remitente para los mensajes de notificación de procesamiento.
`To_Email`	Dirección de correo electrónico del destinatario para los mensajes de notificación de procesamiento.
`Email_Username`	Nombre de usuario para autenticar con el servidor de correo SMTP.
`Email_Password`	Contraseña de la aplicación para la cuenta de correo electrónico del remitente. Para Gmail, genera una contraseña de aplicación en la configuración de seguridad de tu cuenta de Google.
`Email_Server`	Dirección del servidor SMTP para enviar notificaciones por correo electrónico (por ejemplo, `smtp.gmail.com`).
`Email_Subject`	Línea de asunto para los correos electrónicos de notificación.
`EmailMessage`	Texto del cuerpo para los correos electrónicos de notificación. Deja vacío para usar el mensaje predeterminado.

Probar conexiones

Probar las configuraciones de los endpoints para verificar la conectividad utilizando los valores de variables del proyecto definidos.

Para probar conexiones, ve a la pestaña Endpoints y conectores del proyecto en la paleta de componentes de diseño, pasa el cursor sobre cada endpoint y haz clic en Probar.

Desplegar el proyecto

Desplegar el proyecto de Studio.

Para desplegar el proyecto, utiliza el menú de acciones del proyecto y selecciona Desplegar.

Revisar flujos de trabajo del proyecto

El proyecto de Studio contiene un flujo de trabajo que implementa el pipeline de procesamiento del Agente de Cumplimiento de Documentos.

Analizador PDF

Operación	Descripción
Controlador Inicial	Inicializa las variables de procesamiento y comienza el pipeline.
Listar Archivos Desde Amazon S3	Recupera una lista de archivos PDF disponibles desde el bucket S3 de origen.
Leer Archivos Desde Amazon S3	Lee el contenido de archivos PDF desde Amazon S3.
Extraer Datos de Pdf	Envía el PDF a Amazon Textract para procesamiento OCR asincrónico.
Obtener Datos del ID de Trabajo	Recupera los resultados OCR de Textract utilizando el ID de trabajo.
Obtener Datos del Token Siguiente	Maneja resultados OCR de múltiples páginas utilizando tokens de paginación de Textract.
Solicitar Bedrock por Datos PII	Envía el texto extraído al LLM para detectar y extraer PII.
Solicitar Bedrock por Datos Limpios	Envía el texto extraído al LLM para producir una versión sin PII.
Mover Archivo a Archivo	Mueve el PDF procesado al bucket S3 de archivo de destino.

Controlador Inicial

La operación Controlador Inicial sirve como el punto de entrada para el flujo de trabajo. Ejecuta el Script del Controlador, que inicializa las variables lineTexts y gv_extractedText a un estado limpio, y luego activa la operación Listar Archivos Desde Amazon S3.

List Files From Amazon S3

La operación List Files From Amazon S3 se conecta al bucket S3 de origen configurado utilizando el adaptador de Amazon S3 y recupera una lista de nombres de archivos PDF disponibles. Los nombres de los archivos se almacenan en una variable y se registran para referencia antes de que el flujo de trabajo proceda a leer cada archivo.

Read Files From Amazon S3

La operación Read Files From Amazon S3 recupera el contenido binario de cada PDF desde S3. La carga útil de la respuesta se transforma y se almacena en una variable para su envío a Amazon Textract.

Textract Pdf Data

La operación Textract Pdf Data envía los datos PDF a Amazon Textract a través de HTTP para el procesamiento OCR asincrónico. La operación recupera un ID de trabajo de la respuesta de Textract, lo registra, espera un minuto para que el trabajo se complete y luego activa la operación Get Data from Job Id.

Get Data from Job Id

La operación Get Data from Job Id envía el ID de trabajo a Amazon Textract para recuperar los resultados de OCR. La respuesta se transforma para extraer texto a nivel de línea, que se agrega a la variable global extracted-text. Si hay un token de paginación presente en la respuesta, la operación se ramifica a Get Data from Next Token; de lo contrario, procede al paso de detección de PII.

Get Data from Next Token

La operación Get Data from Next Token maneja los resultados de Textract de múltiples páginas utilizando el token de paginación para obtener los datos de las páginas restantes. El texto a nivel de línea de cada página se agrega a la variable de texto global. La operación continúa obteniendo páginas hasta que no se devuelven más tokens, luego se ramifica al paso de detección de PII.

Prompt Bedrock for PII Data

La operación Prompt Bedrock for PII Data envía el texto extraído completo a Amazon Nova Lite a través de Amazon Bedrock con un aviso para detectar información de identificación personal. La respuesta se analiza para extraer datos de PII como JSON, que se registra y se escribe en un archivo en el servidor SFTP.

Solicitar a Bedrock datos limpios

La operación Solicitar a Bedrock datos limpios envía el texto extraído a Amazon Nova Lite a través de Amazon Bedrock con un aviso para producir una versión saneada con toda la información personal identificable (PII) eliminada. La respuesta se procesa posteriormente utilizando expresiones regulares para eliminar cualquier dato sensible residual, y el texto limpio se escribe en un archivo en el servidor SFTP.

Mover archivo a archivo

La operación Mover archivo a archivo traslada el PDF procesado del bucket S3 de origen al bucket de archivo de destino, asegurando que el archivo no se reprocesa en ejecuciones posteriores.

Activar los flujos de trabajo del proyecto

Para ejecutar el Agente de Cumplimiento de Documentos, despliega y ejecuta la operación Controlador Inicial. En Studio, pasa el cursor sobre la operación y haz clic en el ícono de Desplegar y Ejecutar en la esquina superior derecha del mosaico de la operación.

Para automatizar el pipeline, configura programaciones de operaciones en la operación Controlador Inicial para que se ejecute con la frecuencia que prefieras.

Solución de problemas

Si encuentras problemas, revisa los registros de operaciones para obtener información detallada sobre la solución de problemas.

Para asistencia adicional, contacta al soporte de Jitterbit.