Conteúdo Duplicado: Muito cuidado!

Desde a chegada do Update no algoritmo do Google chamado Panda a preocupação com relação ao conteúdo se tornou bem maior no mundo SEO. Muitos profissionais ignoraram isso por muito tempo, mas agora ninguém pode escapar do Panda. Nesse post vou abordar os principais tópicos sobre conteúdo duplicado como o que é exatamente, como acontece, como diagnosticar e também como consertar antes que você seja pego. Por isso prepare-se para um post longo!

O que é Conteúdo duplicado?

O conceito é muito básico e praticamente pode ser definido quando 2 ou mais paginas possuem um conteúdo idêntico!

Mas como algo tão simples pode gerar tanta dificuldade? Primeiro que para o buscador uma página é uma única URL e não exatamente um documento ou uma arquivo que fica no servidor. Muitas vezes acontece de no mesmo site existirem páginas com o conteúdo duplicado.

Acontece que muitas vezes quando o robô do Google começa a fazer a analise do seu site e encontra diferentes paginas com o mesmo conteúdo ele pode começar desistir daquele conteúdo. Muitas vezes o que acontece é que a pagina que você quer indexar e que apareça nas primeiras posições acaba nem aparecendo por problemas de conteúdo duplicado.

Tipos de conteúdo duplicado

Duplicados de verdade – esse tipo de página possui o conteúdo 100% idêntico e apenas diferem pela sua URL.
Quase Duplicados – Uma pagina difere uma da outra em relação ao conteúdo por muito pouco. Pode ser uma imagem, um bloco de texto ou outro tipo de conteúdo.
Domínios cruzados e duplicados – dois sites diferentes dividem o mesmo conteúdo, podendo ser 1 ou 2

Como resolver o problema de duplicidade

Cada uma para um tipo de caso diferente, estas são as ferramentas mais comuns usadas na internet para evitar problemas com conteúdo duplicado:

404 – Not found
- Remover o conteúdo duplicado e retornar um erro de 404. Se esta página não for útil para o usuário nem para o motor de busca, então remover completamente talvez faça sentido
301 Redirect
- Parecido com o 404, porem além de remover a página ele também redireciona tantos os visitantes humanos como os robôs que a pagina foi movida de lugar. A força de um link de uma pagina também é repassada para a nova página.
txt
- Você pode deixar o conteúdo visível para os humanos e apenas bloquear para o motor de busca. Criando um txt com um código isso pode ser facilmente feito.
Meta Robôs
- Voce pode controlar o comportamento dos robôs para nao indexar certas páginas como por exemplo com o código
- <meta name=”ROBOTS” contente=”NOINDEX, NOFOLLOW” />
Rel=Canonical
- Chamada também de Canonical Tag, isso ajuda o webmaster a especificar a versão canônica da pagina.
- <link rel=”canonical” href=http://www.seusite.com/paginacerta” />
Remover a URL do Google
- No Google Console, você pode mandar um pedido para que uma url especifica seja removida manualmente.
Remover a URL do Bing
- No Bing Webmaster center, você pode fazer também algo muito parecido. Você pode bloquear uma pagina única, um diretório ou um site inteiro.
Rel=Prev e Rel=Next
- Voce pode também especificar para o google como o conteúdo daquela página é conectado. Com a função Rel-Prev e Rel-next
- Neste caso, o rel prev se refere a página anterior e o rel next a pagina seguinte que esta relacionada com aquela.
- <link rel=”prev” href=”http:exemplo.com/pagina1” />
- <link rel=”prev” href=”http:exemplo.com/pagina3” />

Exemplos de conteúdo duplicado

“www” e o sem-www
- Se você possuir os dois tipos indexados como:
  - exemplo.com
  - com
- Na maioria dos casos um redirecionamento 301 funciona e é a melhor opção.
- No google console você consegue escolher sua preferencia
Problemas com a Barra (/)
- Tecnicamente originado do protocolo HTTP, uma url com e outra sem a barra sao diferentes.
  - exemplo.com/produtos
  - exemplo.com/produto/
- Nesse vídeo, Matt Cutts explica o problema e google automaticamente canoniza a maior parte desses casos.
Paginas com HTTPS
- Se o seu site possui essas paginas de segurança com o protocolo https, talvez você encontre as duas paginas indexando
  - exemplo.com
  - https://www.exemplo.com
- Na maioria dos casos é melhor nem indexar essas paginas, por exemplo o carrinho de compras para um E-commerce não precisa aparecer nos resultados de alguma busca. A maior parte dos casos o problema é resolvido sozinho, mas uma boa opção é o redirecionamento 301 se você quiser escolher uma das paginas.
- Cuidado pois se você usar o 301 para redirecionar todas as paginas de https para http, você pode acabar com a segurança.
Pagina inicial duplicada
- O problema mais comum é esse:
  - exemplo.com
  - exemplo.com/index.htm
- Por mais que você possa resolver esse problema com um redirecionamento 301, é uma boa ideia colocar uma tag canônica na sua pagina inicial, para prevenir problemas.
Identificações especificas
- Algumas identificações após o domínio podem ocorrer como por exemplo em e-commerce quando elas marcam cada visitante ou com o id de afiliados para marcar comissões de vendas, ficando mais ou menos assim:
  - exemplo.com/?session=1234
  - exemplo.com/?affiliado=tm2016
- Esse problema pode causar uma duplicidade em massa e a melhor forma é guardar a identificação em um cookie e fazer um redirecionamento 301 para a pagina canônica.
Caminhos duplicados
- Podemos ter esse problema por exemplo em uma pagina de um produto assim:
  - exemplo.com/eletronicos/iphone6
  - exemplo.com/apple/iphone6
  - exemplo.com/tag/favoritos/iphone6
- A geração de tags são problemáticas, porque podem spamar de verdade a mesma versão da página.
- Idealmente essas paginas não devem ser criadas
- Se você já possui algo do tipo o redirecionamento 301 é a sua melhor opção, mas se sua quantidade de tags for muito grande, esta na hora de reavaliar sua estrutura do site.

Cuidado em definir a pagina canônica

Um erro muito comum, por exemplo em e-commerces é definirem a pagina canônica de forma errada, assim:

<link rel=”canonical” href=http://www.exemplo.com/produtos.php>
- O problema é que o .php é um template e assim você esta colocando todos os produtos para uma pagina única e provavelmente nao vai conseguir nem que apareça um produto nos resultados das pesquisas. A versão canônica geralmente inclui um parâmetro, como “id=2016”.
- Um caso de canonização mal feito pode ser ainda mais prejudicial que conteúdo duplicado.

Ferramentas para Identificar o conteúdo duplicado

Google console tool
- O antigo google webmaster tools pode te colocar uma lista de TITLE (títulos) tags e meta descrições duplicadas.
- Muitas das paginas duplicadas irão sim gerar os mesmo títulos e descrições e pode ajudar na identificação.
Usar a função “site:” no Google (nao digite o www para incluir os dois)
- Para pagina Home duplicadas
  - Site:exemplo.com intitle: “Titulo da sua home page”
- Para detectar parâmetros
  - Site:exemplo.com inurl:sort=….
- Para conteúdos específicos
  - Site:exemplo.com “o termpo especifico aqui”
- Ferramentas pagas
  - Se você possui por exemplo uma conta no SEOMoz Pro, você consegue acessar a uma ferramenta que verificar conteúdo duplicado no seu site.
- Trabalho próprio
  - Se torne o detetive do seu próprio site e cave por algum tipo desses problemas mencionados aqui. Navegue pelo seu site e preste a atenção nas variações de URLS, tenho certeza que vale o esforço

Continue acompanhando o Blog da Thunder Mustard para mais dicas de SEO: Thunder mustard – Agencia SEO Rio de Janeiro

Cookie	Duração	Descrição
__rd_experiment_version	Fim da Sessão Navegador	Esse cookie rastreia o comportamento do usuário nos formulários da RD, ajudando na criação de relatórios analíticos dos mesmos. Para saber mais sobre como a RD Station coleta seus dados, visite https://resultadosdigitais.com.br/politica-de-privacidade/.
_fbp	3 meses	Este cookie é configurado pelo Facebook para fornecer publicidade quando eles estiverem no Facebook ou em uma plataforma digital alimentada por publicidade do Facebook após visitar este site.
fr	3 meses	O cookie é definido pelo Facebook para mostrar anúncios relevantes aos usuários e medir e melhorar os anúncios. O cookie também rastreia o comportamento do usuário na web em sites que possuem pixel do Facebook ou plugin social do Facebook.
IDE	1 ano 24 dias	Usado pelo Google DoubleClick e armazena informações sobre como o usuário usa o site e qualquer outro anúncio antes de visitar o site. Isso é usado para apresentar aos usuários anúncios que são relevantes para eles de acordo com o perfil do usuário.
NID	6 meses	Este cookie é usado para criar um perfil baseado no interesse do usuário e exibir anúncios personalizados aos usuários.
test_cookie	15 minutos	Este cookie é definido por doubleclick.net. O objetivo do cookie é determinar se o navegador do usuário oferece suporte a cookies.
VISITOR_INFO1_LIVE	5 meses 27 dias	Este cookie é definido pelo Youtube. Usado para rastrear as informações dos vídeos incorporados do YouTube em um site.
YSC	session	Esses cookies são definidos pelo Youtube e são usados para rastrear as visualizações dos vídeos incorporados.

Cookie	Duração	Descrição
_ga	2 anos	Este cookie é instalado pelo Google Analytics. O cookie é usado para calcular o visitante, a sessão, os dados da campanha e controlar o uso do site para o relatório de análise do site. Os cookies armazenam informações anonimamente e atribuem um número gerado aleatoriamente para identificar visitantes únicos.
_gcl_au	3 meses	Este cookie é usado pelo Google Analytics para entender a interação do usuário com o site.
_gid	1 dia	Este cookie é instalado pelo Google Analytics. O cookie é usado para armazenar informações de como os visitantes usam um site e ajuda na criação de um relatório analítico de como o site está se saindo. Os dados coletados incluem o número de visitantes, a fonte de onde vieram e as páginas visitadas de forma anônima.
CONSENT	16 anos 5 meses 21 dias 4 minutos	Esses cookies são definidos por meio de vídeos do YouTube incorporados. Eles registram dados estatísticos anônimos sobre, por exemplo, quantas vezes o vídeo é exibido e quais configurações são usadas para reprodução. Nenhum dado confidencial é coletado a menos que você faça login em sua conta do Google; nesse caso, suas escolhas estão vinculadas à sua conta, por exemplo se você clicar em “curtir” em um vídeo.

Cookie	Duração	Descrição
sp_landing	1 dia	Este cookie é definido pelo provedor Spotify. Este cookie é usado para implementar conteúdo de áudio do spotify no site. Também ajuda na coleta de informações sobre a interação do usuário com este conteúdo de áudio.
sp_t	1 ano	Este cookie é definido pelo provedor Spotify. Este cookie é usado para implementar conteúdo de áudio do spotify no site. Também ajuda na coleta de informações sobre a interação do usuário com este conteúdo de áudio.