Ir para o conteúdo

Agente de Conformidade de Documentos Jitterbit

Visão Geral

A Jitterbit fornece o Agente de Conformidade de Documentos aos clientes através do Jitterbit Marketplace. Este agente automatiza o processamento de documentos focados em conformidade, recuperando arquivos PDF do Amazon S3, extraindo seu conteúdo textual usando reconhecimento óptico de caracteres (OCR) e aplicando análise impulsionada por IA para detectar e remover informações pessoalmente identificáveis (PII), ajudando as organizações a atender aos requisitos de privacidade de dados sem revisão manual de documentos.

O agente recupera arquivos PDF de um bucket de origem configurado, envia cada arquivo para processamento assíncrono de OCR e coleta o texto completo extraído em todas as páginas. Um LLM então analisa o texto extraído em duas etapas: uma para identificar e armazenar dados PII, e outra para produzir uma versão sanitizada com todas as PII removidas. Ambos os arquivos de saída são gravados em um servidor SFTP, o PDF original é arquivado em um bucket S3 separado, e notificações por e-mail são enviadas para os destinatários configurados após cada execução de processamento.

O agente realiza as seguintes tarefas:

  • Recupera uma lista de arquivos PDF de um bucket de origem configurado Amazon S3.
  • Lê cada arquivo PDF e o envia para Amazon Textract para extração assíncrona de texto OCR.
  • Coleta o texto extraído em todas as páginas, lidando com documentos de várias páginas usando tokens de paginação do Textract.
  • Envia o texto extraído para um LLM para detectar e extrair dados PII, e grava a saída em um arquivo em um servidor SFTP.
  • Envia o texto extraído para o LLM para produzir uma versão limpa com todas as PII removidas, e grava a saída em um arquivo em um servidor SFTP.
  • Arquiva arquivos PDF processados em um bucket S3 de destino configurado.
  • Envia notificações por e-mail para destinatários configurados após a conclusão do processamento.

Este documento explica como configurar e operar este agente de IA. Ele cobre arquitetura, pré-requisitos e etapas para instalar, configurar e operar o agente de IA.

Arquitetura do agente de IA

Este agente de IA conecta o Amazon S3, o Amazon Textract, um LLM e um servidor SFTP para extrair e sanitizar texto de documentos PDF. Uma execução típica de processamento segue estas etapas:

  1. A operação Initial Controller inicializa as variáveis de processamento e aciona a etapa de listagem de arquivos.
  2. O agente conecta-se ao bucket de origem do Amazon S3 configurado e recupera uma lista de arquivos PDF disponíveis.
  3. Para cada arquivo, o agente lê o conteúdo do PDF do Amazon S3 e o envia ao Amazon Textract para processamento OCR assíncrono.
  4. O agente aguarda a conclusão do trabalho do Textract, recupera o texto extraído usando o ID do trabalho e segue os tokens de paginação até que todas as páginas sejam coletadas.
  5. O agente envia o texto extraído completo ao LLM com um prompt de detecção de PII. Os dados de PII identificados são gravados em um arquivo no servidor SFTP.
  6. O agente envia o texto extraído ao LLM com um prompt de limpeza de dados para produzir uma versão sanitizada. O texto limpo é gravado em um arquivo no servidor SFTP.
  7. O PDF original é movido para o bucket de arquivo de destino do S3.
  8. Uma notificação por e-mail é enviada aos destinatários configurados confirmando a conclusão do processamento.

Diagrama de fluxo de trabalho

O diagrama a seguir mostra o principal pipeline de processamento para o Agente de Conformidade de Documentos.

--- config: flowchart: padding: 20 nodeSpacing: 80 --- flowchart LR classDef default fill:white, stroke:black, stroke-width:3px, rx:15px, ry:15px JSP@{ shape: hex, label: "
Document Compliance
Agent" } S3SRC[fab:fa-aws
Amazon S3
Source Bucket] TXTRACT[fab:fa-aws
Amazon Textract] LLM[fas:fa-brain
LLM] SFTP[fas:fa-server
SFTP Server] S3ARC[fab:fa-aws
Amazon S3
Archive Bucket] EMAIL[fas:fa-envelope
Email] JSP <-->|1. List and get PDFs| S3SRC JSP <-->|2. OCR request / extracted text| TXTRACT JSP <-->|3. PII detection prompt / PII data| LLM JSP <-->|4. Clean data prompt / cleaned text| LLM JSP -->|5. Write output files| SFTP JSP -->|6. Archive PDF| S3ARC JSP -->|7. Processing notification| EMAIL

Pré-requisitos

Você precisa dos seguintes componentes para usar este agente de IA.

Componentes do Harmony

Você deve ter uma licença do Jitterbit Harmony com acesso aos seguintes componentes:

  • Jitterbit Studio
  • Agente de Conformidade de Documentos adquirido como um complemento de licença

Endpoints suportados

O agente de IA conecta-se aos seguintes endpoints. Você pode acomodar outros sistemas modificando as configurações de endpoint e os fluxos de trabalho do projeto.

Modelo de linguagem grande (LLM)

O agente usa Amazon Bedrock para acessar modelos de linguagem grandes para detecção de PII e sanitização de dados. O Amazon Bedrock é um serviço gerenciado que fornece acesso a modelos fundamentais de provedores, incluindo Anthropic, Amazon e Meta. O projeto está configurado para usar o Amazon Nova Lite por padrão. Você pode substituir outro modelo suportado pelo Bedrock atualizando o ID do modelo na configuração da atividade do Bedrock. Você deve ter uma conta AWS com acesso ao Amazon Bedrock habilitado em sua região e o modelo selecionado habilitado.

Amazon S3

O agente usa Amazon S3 tanto como fonte de PDF quanto como destino de arquivamento. Você deve ter uma conta AWS com credenciais IAM que possuam permissões AmazonS3FullAccess e dois buckets configurados: um para arquivos PDF recebidos e um para arquivar arquivos processados.

Amazon Textract

O agente usa Amazon Textract para extração assíncrona de OCR de arquivos PDF. Suas credenciais IAM devem incluir permissões AmazonTextractFullAccess. O bucket S3 de origem deve ter uma política de recurso que permita ao Amazon Textract ler a partir dele (veja Configurar recursos da AWS).

SFTP

O agente grava arquivos de saída processados (dados PII e texto limpo) em um servidor SFTP. Você deve ter um servidor SFTP acessível a partir do Jitterbit com credenciais de conexão válidas.

Email

O agente envia notificações de processamento via email SMTP. A configuração padrão usa Gmail (smtp.gmail.com). Você deve ter uma conta de email remetente com acesso SMTP habilitado e, se estiver usando Gmail, uma senha de aplicativo configurada.

Instalação, configuração e operação

Siga estas etapas para instalar, configurar e operar este agente de IA:

  1. Baixar e instalar o projeto
  2. Configurar recursos da AWS
  3. Configurar variáveis do projeto
  4. Testar conexões
  5. Implantar o projeto
  6. Revisar fluxos de trabalho do projeto
  7. Acionar os fluxos de trabalho do projeto

Para orientações de solução de problemas, veja Solução de problemas.

Baixar e instalar o projeto

Siga estas etapas para instalar o projeto Studio para o agente de IA:

  1. Faça login no portal Harmony em https://login.jitterbit.com e abra o Marketplace.

  2. Localize o agente de IA chamado Agente de Conformidade de Documentos. Para localizar o agente, use a barra de pesquisa ou, no painel Filtros sob Tipo, selecione Agente de IA para limitar a exibição a agentes de IA.

  3. Clique no link Documentação do agente para abrir sua documentação em uma aba separada. Mantenha a aba aberta para consultar depois de iniciar o projeto.

  4. Clique em Iniciar Projeto para abrir uma caixa de diálogo de configuração.

    Nota

    Se você ainda não comprou o agente de IA, Obter este agente será exibido em vez disso. Clique nele para abrir uma caixa de diálogo informativa e, em seguida, clique em Enviar para que um representante entre em contato com você sobre a compra do agente de IA.

  5. Na caixa de diálogo Criar um Novo Projeto, selecione um ambiente onde o projeto do Studio será criado e, em seguida, clique em Criar Projeto.

  6. Depois que a caixa de diálogo de progresso indicar que o projeto foi criado, use o link da caixa de diálogo Ir para o Studio ou abra o projeto diretamente na página Projetos do Studio.

Configurar recursos da AWS

Antes de configurar as variáveis do projeto, configure os recursos da AWS necessários.

Criar um usuário IAM e chaves de acesso

  1. No AWS Management Console, abra IAM e selecione Usuários na barra lateral esquerda.

  2. Selecione um usuário existente ou clique em Create user para criar um novo. Certifique-se de que o usuário terá permissões para Amazon S3, Amazon Textract e Amazon Bedrock.

  3. Abra a aba Credenciais de segurança do usuário, role até Chaves de acesso e clique em Criar chave de acesso.

  4. Selecione o caso de uso apropriado, clique em Próximo, e então copie e armazene o ID da Chave de Acesso e a Chave de Acesso Secreta com segurança. A chave secreta é exibida apenas uma vez.

  5. Na aba Permissions do usuário, clique em Add permissions e anexe as seguintes políticas: AmazonBedrockFullAccess, AmazonS3FullAccess, AmazonTextractFullAccess.

Criar buckets S3

  1. No AWS Management Console, abra S3 e clique em Criar bucket.

  2. Crie o bucket de origem onde os arquivos PDF serão colocados para processamento. Anote o nome do bucket para a variável de projeto AmazonBucket.

  3. Crie um segundo bucket para servir como o destino de arquivo para os arquivos processados. Anote seu nome para a variável de projeto DestinationAmazonBucket.

  4. Certifique-se de que ambos os buckets estão na mesma região da AWS.

Configure a política do bucket de origem

O Amazon Textract requer acesso de leitura ao bucket S3 de origem. Aplique a seguinte política de recurso para conceder esse acesso, substituindo <source-bucket-name> pelo nome real do seu bucket:

  1. No Amazon S3, selecione o bucket de origem e abra a aba Permissions.

  2. Em Política do bucket, clique em Editar e cole a seguinte política:

    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Effect": "Allow",
                "Principal": {
                    "Service": "textract.amazonaws.com"
                },
                "Action": [
                    "s3:GetObject",
                    "s3:ListBucket"
                ],
                "Resource": [
                    "arn:aws:s3:::<source-bucket-name>",
                    "arn:aws:s3:::<source-bucket-name>/*"
                ]
            }
        ]
    }
    
  3. Clique em Salvar alterações.

Nota

Esta política concede ao Amazon Textract acesso somente leitura ao bucket de origem. Nenhuma permissão de gravação é concedida.

Configure as variáveis do projeto

No projeto do Studio instalado a partir do Marketplace, defina valores para as seguintes variáveis do projeto.

Para configurar as variáveis do projeto, use o menu de ações do projeto e selecione Variáveis do Projeto para abrir o painel de configuração.

Amazon Web Services

Nome da variável Descrição
AmazonS3AccessKey ID da chave de acesso da AWS para autenticar chamadas à API do Amazon S3 e Textract.
AmazonS3SecretKey Chave de acesso secreta da AWS para autenticar chamadas à API do Amazon S3 e Textract.
AWS_Region Região da AWS para os serviços Amazon S3, Textract e Bedrock (por exemplo, us-east-2).
AmazonBucket Nome do bucket S3 de origem onde os arquivos PDF são colocados para processamento.
DestinationAmazonBucket Nome do bucket S3 de arquivo onde os arquivos processados são movidos após a análise.
Textract_Base_URL URL base para o endpoint da API do Amazon Textract. Atualize a região para corresponder à sua região da AWS (por exemplo, https://textract.us-east-2.amazonaws.com).

SFTP

Nome da variável Descrição
sftp_URL URL do servidor SFTP onde os arquivos de saída processados são gravados.
sftp_username Nome de usuário para autenticação SFTP.
sftp_password Senha para autenticação SFTP.

Email

Nome da variável Descrição
From_Email Endereço de e-mail do remetente para mensagens de notificação de processamento.
To_Email Endereço de e-mail do destinatário para mensagens de notificação de processamento.
Email_Username Nome de usuário para autenticação com o servidor de e-mail SMTP.
Email_Password Senha do aplicativo para a conta de e-mail do remetente. Para Gmail, gere uma senha de aplicativo nas configurações de segurança da sua Conta Google.
Email_Server Endereço do servidor SMTP para envio de notificações por e-mail (por exemplo, smtp.gmail.com).
Email_Subject Linha de assunto para e-mails de notificação.
EmailMessage Texto do corpo para e-mails de notificação. Deixe em branco para usar a mensagem padrão.

Testar conexões

Testar as configurações de endpoint para verificar a conectividade usando os valores de variáveis de projeto definidos.

Para testar conexões, vá para a aba Endpoints e Conectores do Projeto no painel de componentes de design, passe o mouse sobre cada endpoint e clique em Testar.

Implantar o projeto

Implantar o projeto do Studio.

Para implantar o projeto, use o menu de ações do projeto e selecione Implantar.

Revisar fluxos de trabalho do projeto

O projeto do Studio contém um fluxo de trabalho que implementa o pipeline de processamento do Agente de Conformidade de Documentos.

Analisador PDF

Operação Descrição
Controlador Inicial Inicializa as variáveis de processamento e inicia o pipeline.
Listar Arquivos do Amazon S3 Recupera uma lista de arquivos PDF disponíveis do bucket S3 de origem.
Ler Arquivos do Amazon S3 Lê o conteúdo do arquivo PDF do Amazon S3.
Extrair Dados do PDF Envia o PDF para o Amazon Textract para processamento OCR assíncrono.
Obter Dados do ID do Trabalho Recupera os resultados do OCR do Textract usando o ID do trabalho.
Obter Dados do Próximo Token Manipula resultados de OCR de várias páginas usando tokens de paginação do Textract.
Solicitar Bedrock por Dados PII Envia o texto extraído para o LLM detectar e extrair PII.
Solicitar Bedrock por Dados Limpos Envia o texto extraído para o LLM produzir uma versão sem PII.
Mover Arquivo para Arquivo Move o PDF processado para o bucket S3 de arquivo de destino.
Controlador Inicial

A operação Controlador Inicial serve como ponto de entrada para o fluxo de trabalho. Ela executa o Script do Controlador, que inicializa as variáveis lineTexts e gv_extractedText para um estado limpo, e então aciona a operação Listar Arquivos do Amazon S3.

List Files From Amazon S3

A operação List Files From Amazon S3 conecta-se ao bucket S3 de origem configurado usando o adaptador Amazon S3 e recupera uma lista de nomes de arquivos PDF disponíveis. Os nomes dos arquivos são armazenados em uma variável e registrados para referência antes que o fluxo de trabalho prossiga para ler cada arquivo.

Read Files From Amazon S3

A operação Read Files From Amazon S3 recupera o conteúdo binário de cada PDF do S3. O payload da resposta é transformado e armazenado em uma variável para envio ao Amazon Textract.

Textract Pdf Data

A operação Textract Pdf Data envia os dados do PDF para o Amazon Textract via HTTP para processamento assíncrono de OCR. A operação recupera um ID de trabalho da resposta do Textract, registra-o, aguarda um minuto para a conclusão do trabalho e, em seguida, aciona a operação Get Data from Job Id.

Get Data from Job Id

A operação Get Data from Job Id envia o ID do trabalho para o Amazon Textract para recuperar os resultados do OCR. A resposta é transformada para extrair texto em nível de linha, que é anexado à variável global extracted-text. Se um token de paginação estiver presente na resposta, a operação ramifica para Get Data from Next Token; caso contrário, prossegue para a etapa de detecção de PII.

Get Data from Next Token

A operação Get Data from Next Token lida com resultados do Textract de várias páginas usando o token de paginação para buscar os dados das páginas restantes. O texto em nível de linha de cada página é anexado à variável de texto global. A operação continua buscando páginas até que nenhum token adicional seja retornado, então ramifica para a etapa de detecção de PII.

Prompt Bedrock for PII Data

A operação Prompt Bedrock for PII Data envia o texto extraído completo para o Amazon Nova Lite via Amazon Bedrock com um prompt para detectar informações pessoalmente identificáveis. A resposta é analisada para extrair dados de PII como JSON, que são registrados e escritos em um arquivo no servidor SFTP.

Solicitar Bedrock para Dados Limpos

A operação Solicitar Bedrock para Dados Limpos envia o texto extraído para o Amazon Nova Lite via Amazon Bedrock com um prompt para produzir uma versão sanitizada com todos os PII removidos. A resposta é processada posteriormente usando regex para remover quaisquer dados sensíveis residuais, e o texto limpo é gravado em um arquivo no servidor SFTP.

Mover Arquivo para Arquivo

A operação Mover Arquivo para Arquivo move o PDF processado do bucket S3 de origem para o bucket de arquivo de destino, garantindo que o arquivo não seja reprocessado em execuções subsequentes.

Acionar os fluxos de trabalho do projeto

Para executar o Agente de Conformidade de Documentos, implante e execute a operação Controlador Inicial. No Studio, passe o mouse sobre a operação e clique no ícone Implantar e Executar no canto superior direito do bloco da operação.

Para automatizar o pipeline, configure agendas de operações na operação Controlador Inicial para serem executadas na frequência desejada.

Solução de Problemas

Se você encontrar problemas, revise os logs de operações para informações detalhadas de solução de problemas.

Para assistência adicional, entre em contato com o suporte da Jitterbit.