fbpx

Desde a chegada do Update no algoritmo do Google chamado Panda a preocupação com relação ao conteúdo se tornou bem maior no mundo SEO. Muitos profissionais ignoraram isso por muito tempo, mas agora ninguém pode escapar do Panda. Nesse post vou abordar os principais tópicos sobre conteúdo duplicado como o que é exatamente, como acontece, como diagnosticar e também como consertar antes que você seja pego. Por isso prepare-se para um post longo!

O que é Conteúdo duplicado?

O conceito é muito básico e praticamente pode ser definido quando 2 ou mais paginas possuem um conteúdo idêntico!

Mas como algo tão simples pode gerar tanta dificuldade? Primeiro que para o buscador uma página é uma única URL e não exatamente um documento ou uma arquivo que fica no servidor. Muitas vezes acontece de no mesmo site existirem páginas com o conteúdo duplicado.

Acontece que muitas vezes quando o robô do Google começa a fazer a analise do seu site e encontra diferentes paginas com o mesmo conteúdo ele pode começar desistir daquele conteúdo. Muitas vezes o que acontece é que a pagina que você quer indexar e que apareça nas primeiras posições acaba nem aparecendo por problemas de conteúdo duplicado.

Tipos de conteúdo duplicado

  1. Duplicados de verdade – esse tipo de página possui o conteúdo 100% idêntico e apenas diferem pela sua URL.
  2. Quase Duplicados – Uma pagina difere uma da outra em relação ao conteúdo por muito pouco. Pode ser uma imagem, um bloco de texto ou outro tipo de conteúdo.
  3. Domínios cruzados e duplicados – dois sites diferentes dividem o mesmo conteúdo, podendo ser 1 ou 2

Como resolver o problema de duplicidade

Cada uma para um tipo de caso diferente, estas são as ferramentas mais comuns usadas na internet para evitar problemas com conteúdo duplicado:

  • 404 – Not found
    • Remover o conteúdo duplicado e retornar um erro de 404. Se esta página não for útil para o usuário nem para o motor de busca, então remover completamente talvez faça sentido
  • 301 Redirect
    • Parecido com o 404, porem além de remover a página ele também redireciona tantos os visitantes humanos como os robôs que a pagina foi movida de lugar. A força de um link de uma pagina também é repassada para a nova página.
  • txt
    • Você pode deixar o conteúdo visível para os humanos e apenas bloquear para o motor de busca. Criando um txt com um código isso pode ser facilmente feito.
  • Meta Robôs
    • Voce pode controlar o comportamento dos robôs para nao indexar certas páginas como por exemplo com o código
    • <meta name=”ROBOTS” contente=”NOINDEX, NOFOLLOW” />
  • Rel=Canonical
    • Chamada também de Canonical Tag, isso ajuda o webmaster a especificar a versão canônica da pagina.
    • <link rel=”canonical” href=http://www.seusite.com/paginacerta” />
  • Remover a URL do Google
    • No Google Console, você pode mandar um pedido para que uma url especifica seja removida manualmente.
  • Remover a URL do Bing
    • No Bing Webmaster center, você pode fazer também algo muito parecido. Você pode bloquear uma pagina única, um diretório ou um site inteiro.
  • Rel=Prev e Rel=Next
    • Voce pode também especificar para o google como o conteúdo daquela página é conectado. Com a função Rel-Prev e Rel-next
    • Neste caso, o rel prev se refere a página anterior e o rel next a pagina seguinte que esta relacionada com aquela.
    • <link rel=”prev” href=”http:exemplo.com/pagina1” />
    • <link rel=”prev” href=”http:exemplo.com/pagina3” />

Exemplos de conteúdo duplicado

  • “www” e o sem-www
    • Se você possuir os dois tipos indexados como:
      • exemplo.com
      • com
    • Na maioria dos casos um redirecionamento 301 funciona e é a melhor opção.
    • No google console você consegue escolher sua preferencia
  • Problemas com a Barra (/)
    • Tecnicamente originado do protocolo HTTP, uma url com e outra sem a barra sao diferentes.
      • exemplo.com/produtos
      • exemplo.com/produto/
    • Nesse vídeo, Matt Cutts explica o problema e google automaticamente canoniza a maior parte desses casos.
  • Paginas com HTTPS
    • Se o seu site possui essas paginas de segurança com o protocolo https, talvez você encontre as duas paginas indexando
      • exemplo.com
      • https://www.exemplo.com
    • Na maioria dos casos é melhor nem indexar essas paginas, por exemplo o carrinho de compras para um E-commerce não precisa aparecer nos resultados de alguma busca. A maior parte dos casos o problema é resolvido sozinho, mas uma boa opção é o redirecionamento 301 se você quiser escolher uma das paginas.
    • Cuidado pois se você usar o 301 para redirecionar todas as paginas de https para http, você pode acabar com a segurança.
  • Pagina inicial duplicada
    • O problema mais comum é esse:
      • exemplo.com
      • exemplo.com/index.htm
    • Por mais que você possa resolver esse problema com um redirecionamento 301, é uma boa ideia colocar uma tag canônica na sua pagina inicial, para prevenir problemas.
  • Identificações especificas
    • Algumas identificações após o domínio podem ocorrer como por exemplo em e-commerce quando elas marcam cada visitante ou com o id de afiliados para marcar comissões de vendas, ficando mais ou menos assim:
      • exemplo.com/?session=1234
      • exemplo.com/?affiliado=tm2016
    • Esse problema pode causar uma duplicidade em massa e a melhor forma é guardar a identificação em um cookie e fazer um redirecionamento 301 para a pagina canônica.
  • Caminhos duplicados
    • Podemos ter esse problema por exemplo em uma pagina de um produto assim:
      • exemplo.com/eletronicos/iphone6
      • exemplo.com/apple/iphone6
      • exemplo.com/tag/favoritos/iphone6
    • A geração de tags são problemáticas, porque podem spamar de verdade a mesma versão da página.
    • Idealmente essas paginas não devem ser criadas
    • Se você já possui algo do tipo o redirecionamento 301 é a sua melhor opção, mas se sua quantidade de tags for muito grande, esta na hora de reavaliar sua estrutura do site.

Cuidado em definir a pagina canônica

Um erro muito comum, por exemplo em e-commerces é definirem a pagina canônica de forma errada, assim:

  • <link rel=”canonical” href=http://www.exemplo.com/produtos.php>
    • O problema é que o .php é um template e assim você esta colocando todos os produtos para uma pagina única e provavelmente nao vai conseguir nem que apareça um produto nos resultados das pesquisas. A versão canônica geralmente inclui um parâmetro, como “id=2016”.
    • Um caso de canonização mal feito pode ser ainda mais prejudicial que conteúdo duplicado.

Ferramentas para Identificar o conteúdo duplicado

  • Google console tool
    • O antigo google webmaster tools pode te colocar uma lista de TITLE (títulos) tags e meta descrições duplicadas.
    • Muitas das paginas duplicadas irão sim gerar os mesmo títulos e descrições e pode ajudar na identificação.
  • Usar a função “site:” no Google (nao digite o www para incluir os dois)
    • Para pagina Home duplicadas
      • Site:exemplo.com intitle: “Titulo da sua home page”
    • Para detectar parâmetros
      • Site:exemplo.com inurl:sort=….
    • Para conteúdos específicos
      • Site:exemplo.com “o termpo especifico aqui”
    • Ferramentas pagas
      • Se você possui por exemplo uma conta no SEOMoz Pro, você consegue acessar a uma ferramenta que verificar conteúdo duplicado no seu site.
    • Trabalho próprio
      • Se torne o detetive do seu próprio site e cave por algum tipo desses problemas mencionados aqui. Navegue pelo seu site e preste a atenção nas variações de URLS, tenho certeza que vale o esforço

Continue acompanhando o Blog da Thunder Mustard para mais dicas de SEO: Thunder mustardAgencia SEO Rio de Janeiro