Atividade de Crawl do WebCrawler no Jitterbit Studio

Introdução

Uma atividade de Crawl do WebCrawler, utilizando sua conexão WebCrawler, rastreia websites e é destinada a ser usada como um alvo para consumir dados em uma operação.

Criar uma atividade de Crawl do WebCrawler

Uma instância de uma atividade de Crawl do WebCrawler é criada a partir de uma conexão WebCrawler usando seu tipo de atividade Crawl.

Para criar uma instância de uma atividade, arraste o tipo de atividade para a tela de design ou copie o tipo de atividade e cole-o na tela de design. Para detalhes, veja Criando uma instância de atividade em Reutilização de componentes.

Uma atividade de Crawl do WebCrawler existente pode ser editada a partir destes locais:

A tela de design (veja Menu de ações do componente em Tela de design).
A aba Componentes do painel do projeto (veja Menu de ações do componente em Aba Componentes do painel do projeto).

Configurar uma atividade de Crawl do WebCrawler

Siga estas etapas para configurar uma atividade de Crawl do WebCrawler:

Etapa 1: Insira um nome e especifique as configurações
Forneça um nome para a atividade e configure as configurações, incluindo as URLs dos websites sementes, formato de conteúdo de saída, profundidade de rastreamento e limites de página, atraso de rastreamento, lógica de filtro de URL, lista de tags de seletor CSS, restrição de caminho, recuperação de tags meta e tratamento de erros.
Etapa 2: Revise os esquemas de dados
Quaisquer esquemas de solicitação ou resposta são exibidos.

Passo 1: Insira um nome e especifique as configurações

Neste passo, forneça um nome para a atividade e configure as definições, incluindo as URLs dos sites de origem, formato de conteúdo de saída, profundidade de rastreamento e limites de página, atraso de rastreamento, lógica de filtro de URL, lista de tags de seletor CSS, restrição de caminho, recuperação de tags meta e tratamento de erros. Cada elemento da interface do usuário deste passo é descrito abaixo.

Dica

Campos com um ícone de variável suportam o uso de variáveis globais, variáveis de projeto e variáveis Jitterbit. Comece digitando um colchete aberto [ no campo ou clicando no ícone de variável para exibir uma lista das variáveis existentes para escolher.

Menu de endpoint: Se você tiver vários endpoints do mesmo tipo de conector configurados, um menu na parte superior da tela exibe o nome do endpoint atual. Clique no menu para alternar para um endpoint diferente. Para mais informações, veja Mudar o endpoint atribuído em Telasa de configuração.
- Editar endpoint: Aparece quando você passa o mouse sobre o nome do endpoint atual. Clique para editar a configuração de conexão do endpoint atualmente selecionado.
Nome: Insira um nome para identificar a atividade. O nome deve ser único para cada atividade de Rastreamento do WebCrawler e não deve conter barras / ou dois pontos :.
URLs dos sites: Clique no ícone de adicionar para adicionar uma linha à tabela e insira uma URL para cada URL de origem a ser usada como ponto de partida para o rastreamento.

Para salvar a linha, clique no ícone de enviar na coluna mais à direita.

Para editar ou excluir uma única linha, passe o mouse sobre a coluna mais à direita e use o ícone de editar ou o ícone de excluir .

Para excluir todas as linhas, clique em Limpar Tudo.
Formato do conteúdo de saída: Selecione o formato do conteúdo de saída a ser utilizado, seja Texto ou HTML.
Profundidade máxima: Insira a profundidade do link para uma rastreio (max_depth). Embora o valor padrão seja 1, não há um limite de profundidade obrigatório.
Páginas máximas: Insira o número máximo de páginas a serem recuperadas durante um rastreio (items_limit). O valor padrão é 10.
Atraso de rastreio (ms): Insira o atraso de rastreio em milissegundos. O valor padrão é 5.
Lógica do filtro de URL Regex: Selecione o modo de filtro regex a ser aplicado às URLs descobertas durante o rastreio:
- Incluir: Extraia apenas conteúdo de URLs que correspondam aos padrões especificados.
  - Incluir URLs regex: Clique no ícone de adicionar para adicionar uma linha à tabela e insira uma URL de Inclusão para cada padrão de expressão regular a ser correspondido com as URLs descobertas. Apenas URLs que correspondem a pelo menos um padrão são rastreadas.
    
    Para salvar a linha, clique no ícone de enviar na coluna mais à direita.
    
    Para editar ou excluir uma única linha, passe o mouse sobre a coluna mais à direita e use o ícone de editar ou o ícone de excluir .
    
    Para excluir todas as linhas, clique em Limpar Tudo.
- Excluir: Pule URLs que correspondam aos padrões especificados.
  - Excluir URLs regex: Clique no ícone de adicionar para adicionar uma linha à tabela e insira uma URL de Exclusão para cada padrão de expressão regular a ser correspondido com as URLs descobertas. URLs que correspondem a qualquer padrão são puladas durante o rastreio.
    
    Para salvar a linha, clique no ícone de enviar na coluna mais à direita.
    
    Para editar ou excluir uma única linha, passe o mouse sobre a coluna mais à direita e use o ícone de editar ou o ícone de excluir .
    
    Para excluir todas as linhas, clique em Limpar Tudo.
Lista de tags (seletores CSS): Clique no ícone de adicionar para adicionar uma linha à tabela e insira um seletor CSS Lista de Tags para cada elemento da página a ser excluído da saída raspada. Use a sintaxe padrão de seletor CSS para direcionar elementos específicos (por exemplo, .ads ou footer).

Para salvar a linha, clique no ícone de enviar na coluna mais à direita.

Para editar ou excluir uma única linha, passe o mouse sobre a coluna mais à direita e use o ícone de editar ou o ícone de excluir .

Para excluir todas as linhas, clique em Limpar Tudo.

Restringir ao caminho: Selecione para restringir a varredura a URLs que compartilham o mesmo prefixo de caminho que a URL inicial. Por exemplo, se a URL inicial for https://example.com/blog/, apenas URLs sob /blog/ serão varridas.
Recuperar meta tags: Selecione para recuperar meta tags durante a varredura.
Continuar em caso de erro: Selecione para continuar a execução da atividade se um erro for encontrado para um conjunto de dados em uma solicitação em lote. Se algum erro for encontrado, ele será registrado no log de operações.
Salvar e Sair: Se habilitado, clique para salvar a configuração para esta etapa e fechar a configuração da atividade.
Próximo: Clique para armazenar temporariamente a configuração para esta etapa e continuar para a próxima etapa. A configuração não será salva até que você clique no botão Concluído na última etapa.
Descartar Alterações: Após fazer alterações, clique para fechar a configuração sem salvar as alterações feitas em qualquer etapa. Uma mensagem pede que você confirme que deseja descartar as alterações.

Etapa 2: Revisar os esquemas de dados

Quaisquer esquemas de solicitação ou resposta são exibidos. Cada elemento da interface do usuário desta etapa é descrito abaixo.

Esquema de dados: Esses esquemas de dados são herdados por transformações adjacentes e são exibidos novamente durante o mapeamento de transformação.

Nota

Os dados fornecidos em uma transformação têm precedência sobre a configuração da atividade.
Atualizar: Clique no ícone de atualizar ou na palavra Atualizar para regenerar esquemas do endpoint WebCrawler. Esta ação também regenera um esquema em outros locais ao longo do projeto onde o mesmo esquema é referenciado, como em uma transformação adjacente.
Voltar: Clique para armazenar temporariamente a configuração para esta etapa e retornar à etapa anterior.
Concluído: Clique para salvar a configuração para todas as etapas e fechar a configuração da atividade.
Descartar Alterações: Após fazer alterações, clique para fechar a configuração sem salvar as alterações feitas em qualquer etapa. Uma mensagem solicita que você confirme que deseja descartar as alterações.

Próximas etapas

Após configurar uma atividade de WebCrawler Crawl, complete a configuração da operação adicionando e configurando outras atividades, transformações ou scripts como etapas da operação. Você também pode configurar as configurações da operação, que incluem a capacidade de encadear operações que estão no mesmo ou em diferentes fluxos de trabalho.

As ações do menu para uma atividade estão acessíveis a partir do painel do projeto e da tela de design. Para detalhes, consulte o menu de ações da atividade em Conceitos básicos do conector.

Atividades de WebCrawler Crawl podem ser usadas como um alvo com esses padrões de operação:

Padrão de transformação
Padrão de duas transformações (como o primeiro ou segundo alvo)

Para usar a atividade com funções de script, escreva os dados em um local temporário e, em seguida, use esse local temporário na função de script.

Quando estiver pronto, implante e execute a operação e valide o comportamento verificando os logs da operação.