Ir para o conteúdo

Atividade de Rastreamento do WebCrawler

Introdução

Uma atividade de Rastreamento do WebCrawler, utilizando sua conexão WebCrawler, rastreia websites e é destinada a ser usada como um alvo para consumir dados em uma operação.

Criar uma atividade de Rastreamento do WebCrawler

Uma instância de uma atividade de Rastreamento do WebCrawler é criada a partir de uma conexão WebCrawler usando seu tipo de atividade Rastreamento.

Para criar uma instância de uma atividade, arraste o tipo de atividade para a tela de design ou copie o tipo de atividade e cole-o na tela de design. Para detalhes, veja Criando uma instância de atividade em Reutilização de componentes.

Uma atividade de Rastreamento do WebCrawler existente pode ser editada a partir destes locais:

Configurar uma atividade de Rastreamento do WebCrawler

Siga estas etapas para configurar uma atividade de Rastreamento do WebCrawler:

  • Etapa 1: Insira um nome e especifique as configurações
    Forneça um nome para a atividade e configure as definições, incluindo as URLs dos websites semente, formato de conteúdo de saída, profundidade de rastreamento e limites de página, atraso de rastreamento, lógica de filtro de URL, lista de tags de seletor CSS, restrição de caminho, recuperação de meta tags e tratamento de erros.

  • Etapa 2: Revise os esquemas de dados
    Quaisquer esquemas de solicitação ou resposta são exibidos.

Passo 1: Insira um nome e especifique as configurações

Neste passo, forneça um nome para a atividade e configure as definições, incluindo as URLs do site semente, formato de conteúdo de saída, profundidade de rastreamento e limites de página, atraso de rastreamento, lógica de filtro de URL, lista de tags de seletor CSS, restrição de caminho, recuperação de meta tags e tratamento de erros. Cada elemento da interface do usuário deste passo é descrito abaixo.

Dica

Campos com um ícone variável suportam o uso de variáveis globais, variáveis de projeto e variáveis Jitterbit. Comece digitando um colchete aberto [ no campo ou clicando no ícone de variável para exibir uma lista das variáveis existentes para escolher.

  • Menu de endpoint: Se você tiver vários endpoints do mesmo tipo de conector configurados, um menu na parte superior da tela exibe o nome do endpoint atual. Clique no menu para alternar para um endpoint diferente. Para mais informações, veja Alterar o endpoint atribuído em Telasc de configuração.

    • Editar endpoint: Aparece quando você passa o mouse sobre o nome do endpoint atual. Clique para editar a configuração de conexão do endpoint atualmente selecionado.
  • Nome: Insira um nome para identificar a atividade. O nome deve ser único para cada atividade de Rastreamento do WebCrawler e não deve conter barras normais / ou dois pontos :.

  • URLs do site: Clique no ícone de adicionar para adicionar uma linha à tabela e insira uma URL para cada URL semente a ser usada como ponto de partida para o rastreamento.

    Para salvar a linha, clique no ícone de enviar na coluna mais à direita.

    Para editar ou excluir uma única linha, passe o mouse sobre a coluna mais à direita e use o ícone de editar ou o ícone de excluir .

    Para excluir todas as linhas, clique em Limpar Tudo.

  • Formato de conteúdo de saída: Selecione o formato de conteúdo de saída a ser utilizado, seja Texto ou HTML.

  • Profundidade máxima: Insira a profundidade do link para uma varredura (max_depth). Embora o valor padrão seja 1, não há um limite de profundidade obrigatório.

  • Páginas máximas: Insira o número máximo de páginas a serem recuperadas durante uma varredura (items_limit). O valor padrão é 10.

  • Atraso de varredura (ms): Insira o atraso de varredura em milissegundos. O valor padrão é 5.

  • Lógica de filtro de URL Regex: Selecione o modo de filtro regex a ser aplicado às URLs descobertas durante a varredura:

    • Incluir: Extraia apenas conteúdo de URLs que correspondam aos padrões especificados.

      • Incluir URLs regex: Clique no ícone de adicionar para adicionar uma linha à tabela e insira uma URL de Inclusão para cada padrão de expressão regular a ser correspondido com as URLs descobertas. Apenas URLs que correspondem a pelo menos um padrão são varridas.

        Para salvar a linha, clique no ícone de enviar na coluna mais à direita.

        Para editar ou excluir uma única linha, passe o mouse sobre a coluna mais à direita e use o ícone de editar ou o ícone de excluir .

        Para excluir todas as linhas, clique em Limpar Tudo.

    • Excluir: Pule URLs que correspondam aos padrões especificados.

      • Excluir URLs regex: Clique no ícone de adicionar para adicionar uma linha à tabela e insira uma URL de Exclusão para cada padrão de expressão regular a ser correspondido com as URLs descobertas. URLs que correspondem a qualquer padrão são puladas durante a varredura.

        Para salvar a linha, clique no ícone de enviar na coluna mais à direita.

        Para editar ou excluir uma única linha, passe o mouse sobre a coluna mais à direita e use o ícone de editar ou o ícone de excluir .

        Para excluir todas as linhas, clique em Limpar Tudo.

  • Lista de tags (seletores CSS): Clique no ícone de adicionar para adicionar uma linha à tabela e insira um seletor CSS Lista de Tags para cada elemento da página a ser excluído da saída raspada. Use a sintaxe padrão de seletor CSS para direcionar elementos específicos (por exemplo, .ads ou footer).

Para salvar a linha, clique no ícone de enviar na coluna mais à direita.

Para editar ou excluir uma única linha, passe o mouse sobre a coluna mais à direita e use o ícone de editar ou o ícone de excluir .

Para excluir todas as linhas, clique em Limpar Tudo.

  • Restringir ao caminho: Selecione para restringir a varredura a URLs que compartilham o mesmo prefixo de caminho que a URL inicial. Por exemplo, se a URL inicial for https://example.com/blog/, apenas URLs sob /blog/ serão varridas.

  • Recuperar meta tags: Selecione para recuperar meta tags durante a varredura.

  • Continuar em caso de erro: Selecione para continuar a execução da atividade se um erro for encontrado para um conjunto de dados em uma solicitação em lote. Se algum erro for encontrado, ele será registrado no log de operações.

  • Salvar e Sair: Se ativado, clique para salvar a configuração para esta etapa e fechar a configuração da atividade.

  • Próximo: Clique para armazenar temporariamente a configuração para esta etapa e continuar para a próxima etapa. A configuração não será salva até que você clique no botão Concluído na última etapa.

  • Descartar Alterações: Após fazer alterações, clique para fechar a configuração sem salvar as alterações feitas em qualquer etapa. Uma mensagem pede para você confirmar que deseja descartar as alterações.

Etapa 2: Revisar os esquemas de dados

Quaisquer esquemas de solicitação ou resposta são exibidos. Cada elemento da interface do usuário desta etapa é descrito abaixo.

  • Esquema de dados: Esses esquemas de dados são herdados por transformações adjacentes e são exibidos novamente durante o mapeamento de transformação.

    Nota

    Os dados fornecidos em uma transformação têm precedência sobre a configuração da atividade.

  • Atualizar: Clique no ícone de atualizar ou na palavra Atualizar para regenerar esquemas do endpoint WebCrawler. Esta ação também regenera um esquema em outros locais ao longo do projeto onde o mesmo esquema é referenciado, como em uma transformação adjacente.

  • Voltar: Clique para armazenar temporariamente a configuração para esta etapa e retornar à etapa anterior.

  • Concluído: Clique para salvar a configuração para todas as etapas e fechar a configuração da atividade.

  • Descartar Alterações: Após fazer alterações, clique para fechar a configuração sem salvar as alterações feitas em qualquer etapa. Uma mensagem solicita que você confirme que deseja descartar as alterações.

Próximas etapas

Após configurar uma atividade de WebCrawler Crawl, complete a configuração da operação adicionando e configurando outras atividades, transformações ou scripts como etapas da operação. Você também pode configurar as configurações da operação, que incluem a capacidade de encadear operações que estão no mesmo ou em diferentes fluxos de trabalho.

As ações do menu para uma atividade estão acessíveis a partir do painel do projeto e da tela de design. Para detalhes, consulte o menu de ações da atividade em Conceitos básicos do conector.

Atividades de WebCrawler Crawl podem ser usadas como um alvo com esses padrões de operação:

Para usar a atividade com funções de script, escreva os dados em um local temporário e, em seguida, use esse local temporário na função de script.

Quando estiver pronto, implante e execute a operação e valide o comportamento verificando os logs da operação.