conteúdo do raspador (também conhecido como web scraping, web harvesting, web data mining etc.) é o procedimento para copiar dados de um site. Os "raspadores" (limpadores) conteúdo são as pessoas ou software que copiam os dados. Web scraping não é uma coisa ruim.

Na verdade, todos os navegadores da web são basicamente raspadores de conteúdo. Existem muitos propósitos legítimos para fazer scraping de conteúdo, como indexação da web para mecanismos de pesquisa, por exemplo.

Veja nosso artigo sobre Como impedir o Google de indexar seu blog WordPress

A verdadeira preocupação é se os raspadores de conteúdo em seu site são prejudiciais ou não. Os concorrentes podem querer roubar seu conteúdo e publique como pertencendo a eles. Se você pode distinguir usuários legítimos de bandidos, tem mais chances de se proteger. Este artigo explica os conceitos básicos de raspagem da Web, bem como alguns métodos para se livrar dela (ou pelo menos reduzir sua importância).

Mas antes, se você nunca instalou o WordPress, descubra Como instalar um blog WordPress em 7 etapas et Como encontrar, instalar e ativar um tema WordPress em seu blog 

Então, voltemos ao porquê de estarmos aqui.

Tipos de raspadores de conteúdo

Existem muitas maneiras diferentes para os scrapers de conteúdo baixarem dados. É importante conhecer os diferentes métodos e a tecnologia que utilizam. Os métodos variam de baixa tecnologia (uma pessoa copiar e colar manualmente o conteúdo) para robôs sofisticados (software automatizado capaz de simular a atividade humana em um navegador). Aqui está um resumo do que você pode precisar fazer:

  • Spiders: O rastreamento da Web é uma grande parte do funcionamento dos scrapers de conteúdo. Uma aranha como Googlebot começará escolhendo uma única página da web e vá de um link para outro para fazer o download de páginas da web.
  • scripts shell: Você pode usar o Linux Shell para criar scrapers de conteúdo com scripts como GNU Wget para baixar conteúdo.
  • Raspador HTML: eles são semelhantes aos scripts de shell. Este tipo de raspador é muito comum. Funciona obtendo a estrutura HTML de um site para localizar dados.
  • Telas de visualização: Um limpador de tela é um programa que captura dados de um site, imitando o comportamento de um usuário humano que usa um computador para navegar na Internet.
  • cópia humana: É aqui que uma pessoa copia manualmente o conteúdo do seu site. Se você já postou online, deve ter notado que o plágio é comum. Depois que a lisonja inicial passa, a realidade de que alguém está lucrando com seu trabalho se encaixa.

Existem várias maneiras de fazer o mesmo. As categorias de raspadores listadas acima não são uma lista completa. Além disso, há muita sobreposição entre as categorias.

Leia também nosso artigo sobre Como e por uma auditoria qualitativa de seu conteúdo

Como proteger seu blog

Proteja um blog de scrapers de conteúdo

1. Limitação e bloqueio de taxa

Você pode lutar contra muitos bots detectando o problema primeiro. É típico para um robô automatizado spam seu servidor com um número excepcionalmente alto de solicitações. A aceleração de taxa, como o nome sugere, limita as solicitações do servidor de um cliente individual ao definir uma regra.

Você pode fazer coisas como medir os milissegundos entre as solicitações. Se a interação com seu site for muito rápida, você sabe que é um bot. Depois disso bloquear este endereço IP. Você pode bloquear endereços IP com base em vários critérios, incluindo seu país de origem.

2. Registro e conexão

Registro e login são uma forma popular de manter o conteúdo longe de olhos curiosos. Você pode atrapalhar o progresso dos robôs. Tudo que você precisa fazer é tornar o acesso ao seu conteúdo condicionado a uma conexão. Os princípios básicos de segurança de login se aplicam aqui. Lembre-se de que as páginas que requerem registro e login não serão indexadas pelos mecanismos de pesquisa.

3. Honeypots e dados falsos

Na ciência da computação, "honeypots" são operações virtuais de picada. Você reúne invasores em potencial configurando armadilhas com um honeypot para detectar o tráfego de raspadores de conteúdo. Existem inúmeras maneiras de fazer isso.

Por exemplo, você pode adicionar um link invisível em sua página da web. Em seguida, crie um algoritmo que bloqueie o endereço IP do cliente que clicou no link. Os honeypots mais sofisticados podem ser difíceis de configurar e manter. A boa notícia é que existem muitos projetos Honeypot de código aberto por aí. Confira este ótimo lista de honeypots incríveis no github.

4. Use um CAPTCHA

Captcha significa " Completamente Automated Public Turing teste para dizer Computadores e Humans Apart Basicamente, um teste para diferenciar humanos de robôs. Captchas podem ser chatos, mas também são úteis. Você pode usar um para bloquear áreas que acha que um bot pode querer atingir, como um botão de e-mail em seu formulário de contato. Existem muitos bons plugins Captcha disponíveis no WordPress, incluindo o “ captcha Do Jetpack.

Descubra também alguns plugins premium do WordPress  

Você pode usar outro WordPress plugins para dar uma aparência moderna e otimizar o manuseio do seu blog ou site.

Oferecemos a você aqui alguns plugins premium do WordPress que ajudarão você a fazer isso.

1. Listra para Arforms

ARForms tem uma nova extensão que aceita pagamentos através do gateway de pagamento Stripe. É chamado de “ARForms Stripe”. Este último integra entradas de formulário e pagamentos em um único processo.

Listra para arforms

você pode faturar clientes com uma quantia dinâmica instantaneamente após o envio do formulário ARForms.

Leia também nosso artigo sobre Como usar Stripe Download WooCommerce e fácil Digital

Você só precisa criar um formulário com ARForms, configurá-lo com Stripe e tudo está pronto! Você pode definir o pagamento com o Stripe rapidamente.

Descarregar | Demo | hospedagem na web

2. Fluxo Social do AX

Se você quiser exibir vários feeds de mídia social em seu site, então o plug-in Quadro Social WordPress permitirá que você faça isso fornecendo seis maneiras de visualizar a atividade da sua conta. Você também se beneficiará do suporte para 17 redes sociais e vários layouts personalizáveis.

Plugin de wordpress de stream social Ax

Seus recursos são, entre outros: 6 modos diferentes de exibição de feed, suporte para a grande maioria das redes sociais, layout totalmente responsivo, suporte para banners publicitários, Suporte Multilíngue, um gerenciador de tema, documentação detalhada, etc ...

Descarregar | Demo | hospedagem na web

3. Mapas Interativos do Mundo

O Interactive World Maps ajuda a criar quantos mapas de geolocalização você quiser, continentes, países ou regiões ... e isso com marcadores interativos e coloridos.

Mapas Interactive World

É compatível com as versões mais recentes do WordPress e se encaixa perfeitamente com o Plug-in Visual Composer.

Descubra nossos 8 WordPress plugins para personalizar o visual do seu site

Graças ao Interactive World Maps, você poderá exibir vários tipos de regiões, como: um mapa do mundo inteiro, um continente ou um subcontinente, um país e muito mais.

Descarregar Demo | hospedagem na web

Outros recursos recomendados

Também convidamos você a consultar os recursos abaixo para aprofundar o controle e controle do seu site e blog.

Conclusão

Aqui! Isso é tudo para este tutorial, espero que ajude você a configurar uma lista prática de tarefas para proteger efetivamente seu blog WordPresssinta-se livre para compartilhe a dica com seus amigos em suas redes sociais.

No entanto, você também poderá consultar nossos Ressources, se você precisar de mais elementos para realizar seus projetos de criação de sites da Internet, consultando nosso guia no site Criação de blog WordPress.

Mas, enquanto isso, conte-nos sobre seu Comentários e sugestões na seção dedicada.

...