Conexão WebCrawler
Introdução
Uma conexão WebCrawler, criada usando o conector WebCrawler, permite a coleta e extração de informações de sites e páginas específicas. Uma vez que uma conexão é configurada, é possível criar instâncias de atividades WebCrawler associadas a essa conexão para serem usadas como fontes (para fornecer dados em uma operação) ou como destinos (para consumir dados em uma operação).
Criar ou editar uma conexão WebCrawler
Uma nova conexão WebCrawler é criada usando o conector WebCrawler a partir de uma destas localizações:
- A aba Endpoints e conectores do projeto na paleta de componentes de design (veja Paleta de componentes de design).
- A página Endpoints Globais (veja Criar um endpoint global em Endpoints Globais).
Uma conexão WebCrawler existente pode ser editada a partir destas localizações:
- A aba Endpoints e conectores do projeto na paleta de componentes de design (veja Paleta de componentes de design).
- A aba Componentes do painel do projeto (veja Menu de ações de componentes em Aba Componentes do painel do projeto).
- A página Endpoints Globais (veja Editar um endpoint global em Endpoints Globais).
Configurar uma conexão WebCrawler
Cada elemento da interface do usuário da tela de configuração da conexão WebCrawler é descrito abaixo.
Dica
Campos com um ícone de variável suportam o uso de variáveis globais, variáveis de projeto, e variáveis Jitterbit. Comece digitando um colchete aberto [ no campo ou clicando no ícone de variável para exibir uma lista das variáveis existentes para escolher.
-
Nome da conexão: Insira um nome para identificar a conexão. O nome deve ser único para cada conexão WebCrawler e não deve conter barras
/ou dois pontos:. Este nome também é usado para identificar o endpoint do WebCrawler, que se refere tanto a uma conexão específica quanto às suas atividades. -
URL base: Insira uma URL base para direcionar as atividades do WebCrawler por padrão. Esta URL pode ser substituída pelas configurações de configuração da atividade.
-
Referenciador: Insira a URL a ser usada como o cabeçalho de solicitação HTTP
Referer. Isso identifica a página de origem da solicitação. -
Autenticação: Selecione o método de autenticação a ser usado ao conectar-se a um site, um dos API Key, Bearer Token, Basic Auth ou No Auth.
-
API Key: Selecione esta opção para autenticar usando uma chave de API:
-
Chave: Insira o nome do cabeçalho ou parâmetro de consulta da chave de API.
-
Valor: Insira a chave de API a ser usada para autenticação.
-
Adicionar a: Selecione onde incluir a chave de API na solicitação, seja Cabeçalhos ou Parâmetros de consulta.
-
Cabeçalhos: Inclui a chave de API como um cabeçalho de solicitação com o nome definido para Chave.
-
Parâmetros de consulta: Inclui a chave de API como um parâmetro de consulta de URL com o nome definido para Chave.
-
-
-
Bearer Token: Selecione esta opção para autenticar usando um token de portador:
-
Token de portador: Insira o token de portador a ser usado para autenticação.
Importante
Não inclua um prefixo
Bearerao autenticar com um token de portador. O conector o adiciona automaticamente ao cabeçalho ao usar este método de autenticação.
-
-
Basic Auth: Selecione esta opção para autenticar usando um nome de usuário e senha:
-
Nome de usuário: Insira o nome de usuário.
-
Senha: Insira a senha.
Importante
Não inclua um prefixo
Basicao autenticar com um nome de usuário e senha. O conector o adiciona automaticamente ao cabeçalho ao usar este método de autenticação.Ao usar um agente privado, pode ser necessária uma configuração adicional para autenticação básica sobre HTTPS.
-
-
Sem Autenticação: Selecione esta opção se a autenticação não for necessária.
-
-
Configurações Opcionais: Clique para expandir configurações opcionais adicionais:
-
Usar Configurações de Proxy (Apenas Agente Privado): Ao usar um agente privado, esta configuração pode ser selecionada para usar as configurações de proxy do agente privado.
-
Seguir redirecionamentos: Selecione para seguir redirecionamentos HTTP quando a URL de destino retornar uma resposta de redirecionamento.
-
Forçar Robot.txt: Selecione para honrar as diretrizes
robots.txtdo site de destino. Quando selecionado, páginas não permitidas porrobots.txtnão são rastreadas ou extraídas. -
Verificação de certificado SSL: Selecione para verificar o certificado SSL do servidor de destino.
-
User Agent: Insira a string
User-Agenta ser incluída nos cabeçalhos de solicitação ao fazer solicitações para sites de destino. -
Timeout: Insira a duração do tempo limite da solicitação em milissegundos.
-
Apenas aplicável ao usar HTTPS: Selecione a versão do protocolo TLS a ser usada para conexões HTTPS, uma das opções Negociar, Usar TLSv1.3, Usar TLSv1.2, Usar TLSv1.1 ou Usar TLSv1.0.
-
Cabeçalhos de Solicitação: Clique no ícone de adicionar para adicionar uma linha à tabela abaixo e insira um Nome e Valor para cada cabeçalho de solicitação personalizado a ser incluído em todas as solicitações feitas através desta conexão.
Para salvar a linha, clique no ícone de enviar na coluna mais à direita.
Para editar ou excluir uma única linha, passe o mouse sobre a coluna mais à direita e use o ícone de editar ou o ícone de excluir .
Para excluir todas as linhas, clique em Limpar Tudo.
-
Nome: Insira o nome do cabeçalho de solicitação.
-
Valor: Insira o valor do cabeçalho de solicitação.
-
-
Enviar cabeçalhos de solicitação na execução da atividade: Selecione para incluir os cabeçalhos de solicitação em nível de conexão ao executar atividades associadas a esta conexão.
-
-
Teste: Clique para verificar a conexão usando a configuração especificada. Quando a conexão é testada, a versão mais recente do conector é baixada pelo(s) agente(s) no grupo de agentes associado ao ambiente atual. Este conector suporta suspender o download da versão mais recente do conector usando a Desativar Atualização Automática do Conector política da organização.
-
Salvar Alterações: Clique para salvar e fechar a configuração da conexão.
-
Descartar Alterações: Após fazer alterações em uma configuração nova ou existente, clique para fechar a configuração sem salvar. Uma mensagem pede que você confirme que deseja descartar as alterações.
-
Excluir: Após abrir uma configuração de conexão existente, clique para excluir permanentemente a conexão do projeto e fechar a configuração (veja Dependências de componentes, exclusão e remoção). Uma mensagem pede que você confirme que deseja excluir a conexão.
Próximos passos
Após a criação de uma conexão WebCrawler, você coloca um tipo de atividade na tela de design para criar instâncias de atividade a serem usadas como fontes (para fornecer dados em uma operação) ou como alvos (para consumir dados em uma operação).
As ações do menu para uma conexão e seus tipos de atividade estão acessíveis no painel do projeto e na paleta de componentes de design. Para detalhes, veja Menus de ações em Fundamentos do Conector.
Estes tipos de atividade estão disponíveis:
-
Raspar Página: Raspa uma página e é destinado a ser usado como um alvo em uma operação.
-
Extrair URL: Extrai conteúdo de uma URL e é destinado a ser usado como um alvo em uma operação.
-
Crawl: Rastreia sites e é destinado a ser usado como um alvo em uma operação.