Supprimer un ensemble de pages de l’index Google

Google peut être lent à désindexer les pages

Suite au passage à la V2 d’un site de contenu j’en ai profité pour faire du nettoyage en supprimant certaines pages inutiles.

Sur les pages supprimées j’ai placé un code 410 afin d’indiquer aux moteurs que ces pages n’existent plus.

Pour les pages qui ont un équivalent j’ai préféré mettre un code 301 vers les pages équivalentes afin de récupérer la notoriété des pages. Pareil pour les pages ayants des backlinks (liens venant de l’extérieur), j’ai mis un code 301 afin de récupérer le jus. Pour les autres pages j’ai tout mis en 410.

Ensuite j’ai contrôlé le passage de Google avec un outils gratuit que j’aime vraiment : Seolizer.io. Cet outil permet de voir le passage de robot de crawling de Google.

J’ai vu que les anciennes pages étaient bien crawlées par Google avec le bon code (410 ou 301). J’ai donc laissé faire le travail de désindexation à Google…

1 mois plus tard j’ai remarqué qu’il restait encore des pages « 410 » dans l’index de Google. Environ 10% (400 / 4000) des pages sont encore présentes dans l’index d’après Google Search Console. Il a supprimé 90% des pages 410 de son index en un mois.

J’aurai pu laisser Google finir le travail mais cela peut prendre du temps sur les pages que Google crawle rarement. En effet certaines pages n’ont pas été crawlées depuis mars 2019 soit 2 mois avant la migration et le nettoyage. Du coup ces pages sont toujours dans l’index car Google ne sait pas qu’elles sont en 410. On est en Juillet et cela fait 3 ou 4 mois que le Google Bot n’est pas passé sur ces pages !

J’ai donc décidé de désindexer moi-même les pages restantes et d’en faire une documentation technique afin de vous aider si jamais vous deviez le faire aussi.

Peut-être que vous êtes dans le cas où il reste encore des pages indexées que vous voulez supprimer au plus vite ? Alors lisez la suite 🙂

Prérequis avant de passer à la suppression manuelle

Avant d’utiliser la méthode décrite plus bas assurez-vous de plusieurs choses (c’est hyper important !!) :

  • TRES IMPORTANT : Si les pages ont des équivalents préférez le code 301.
  • Il faut être certain que les pages mises en 410 ont une url que vous n’utiliserez plus. Sinon il vaut mieux les mettre en 404 en attendant d’avoir à nouveau du contenu sur ces pages.
  • Si vous avez beaucoup de pages dans un 1er temps laissez Google les désindexer par lui-même surtout si vous n’êtes pas pressé. Cela peut être rapide si toutes les pages concernées sont en 410 et qu’elles sont souvent crawlées.
  • Si vous avez plusieurs dizaines de pages à supprimer alors il sera plus rapide de passer par un sitemap pour désindexer les pages.
  • Il faut que les urls en 410 ne soit pas empêchées d’indexation (par exemple dans le fichier robots.txt) afin que Google repère le changement de statut.

Si vous n’êtes pas dans ces cas là vous pouvez passer à la suite.

Repérage des pages restantes dans l’index

Pour connaitre les pages encore dans l’index ouvrez la Google Search Console (GSC). Allez dans « Couverture » puis filtrez en ne gardant que les pages valides.

Ensuite cliquez sur le type « Indexée, mais non envoyée via un sitemap » (si vous n’avez pas de sitemap). Dans mon cas Google indique 663 pages. Attention cette liste n’est pas mise à jour souvent (en tout cas dans mon cas). Ouvrez la liste et exportez en csv (Google Sheet mais vous pouvez prendre xls si vous le souhaitez); le bouton « exporter » est représenté par une flèche vers le bas en haut à droite de la liste.

Le fichier s’ouvre dans Google Sheet ou Excel suivant votre préférence. Repérez alors les urls valides et supprimez les de la liste. Une fois cette opération terminée il ne reste plus que les pages à supprimer de l’index.

Chaque ligne contient 2 colonnes : 1ère colonne c’est url et la 2ème la date du dernier passage de Google. PS : Cette date semble fiable ; en allant dans Seolizer je remarque que les dates correspondent.

Suppression page par page

Pour chaque ligne répétez les étapes suivantes :

Etape 1

Sur la 1ère ligne cliquez sur la case avec le lien et faites un « COPIER » du lien (CTRL C sous Windows). Ensuite cliquez sur le lien, la page s’ouvre en 410 (page d’erreur 410). Cela permet de vous assurer que la page n’existe vraiment plus sur votre site.

Etape 2 (facultative)

Utilisez la commande site: suivi de l’url. La commande  » site:  » n’est pas toujours fiable à savoir qu’elle peut « oublier » d’afficher des résultats. Par contre si elle affiche bien la page dans la liste je considère que celle-ci est vraiment indexée.

Un petit bémol : Si vous faites la vérification sur un ordinateur et que vous êtes en mobile first dans la GSC alors les résultats peuvent être différents entre les 2 indexes.

Elle présente aussi un autre avantage à savoir qu’elle peut trouver des pages indexées qui ne sont pas dans la GSC (peut être à cause de la différence d’indexation entre mobile et ordinateur).

Si la page est indexée passez à l’étape 4 sinon allez à l’étape 1 et traiter la ligne suivante du tableur.

Etape 3 (facultative)

La commande site: n’a rien renvoyée.

Alors collez l’url dans la zone de recherche de la GSC dont le texte est « Inspecter n’importe quelle URL de http…..« .

Soit la page est indexée d’après GSC (message : Cette URL est sur Google) Si oui alors passez à l’étape 4.

Soit il vous indiquer que la page n’est pas indexée (message : Cette URL n’a pas été indexée par Google).

Dans ce cas cela veut dire que la page a été désindexée depuis le dernier rapport de couverture de la GSC et donc que vous n’avez pas à le faire manuellement. Du moins c’est ce que Google annonce mais ce n’est pas fiable à 100% !!!. Mais vu que ça été couplé avec la vérification par la commande site: on est quasiment certain que la page n’est plus indexée. Il ne vous reste plus qu’à supprimer la ligne du fichier Google Sheet (ou xls) et à passer à la suivante (retour à l’étape 1).

Etape 4

Il vous faut désindexer la page. Pour cela ouvrez l’ancienne version de la GSC en cliquant sur le bouton « Accéder à l’ancienne version » à bas à gauche. Je vous conseille de l’ouvrir dans un nouvel onglet afin d’avoir les 2 versions disponibles. Dans l’ancienne version cliquez sur index Google sur le menu de gauche puis sur URL à supprimer.

Dans la zone « masquer temporairement » coller l’url. Laissez le type de demande par défaut (« Supprimer l’RUL du cache et temporairement des résultats de recherche »). Ensuite cliquez sur « envoyer la demande ».

Voilà !! la page sera rapidement désindexées (en moins de 2 heures en général).

Sur la page « URL à supprimer » vous pouvez voir la liste des urls en cours de suppression et celles déjà supprimées par ce moyen (de façon manuelle donc).

Supprimez la ligne dans le tableur (page Google Sheet ou fichier xls) et passez à la ligne suivante en répétant l’étape 1 à 4 jusqu’à ce que le tableur soit vide (plus aucune ligne).

Mot de la fin

Cette manipulation est un peu répétitive surtout si vous avez plusieurs centaines de pages à désindexer mais elle permet à coup sur de supprimer une page de l’index et ceci rapidement.

NOTES POUR GAGNER DU TEMPS :

  • Vous pouvez pour chaque lien ne faire que l’étape 1 et 4. L’étape 2 et 3 permettent de s’assurer que l’url est encore indexée avant de demander la suppression. Mais vous pouvez demander la suppression manuelle d’une url (page) même si celle-ci n’est plus indexée. Cela vous fera gagner du temps (moins de vérifications).
  • Si vous avez beaucoup d’urls à désindexer alors vous pouvez indiquer un répertoire complet si votre structure est ainsi faite. Par exemple pour supprimer de l’index toutes les pages d’un dossier nommé « posts » indiquer http(s)://www.votresite.com/posts/ (ne pas oublier le / à la fin).
  • Si vous avez plusieurs centaines d’urls à désindexer vous pouvez aussi les copier coller dans un fichier sitemap et l’ajouter dans la Google Search Console afin que Google crawle ces pages et se rendent comptent qu’elles sont en 410. Ensuite il les supprimera de son index (temps d’exécution variable).

J’espère que cette documentation technique vous a été utile. Si vous avez des questions n’hésitez pas à laisser un commentaire.

2 réflexions au sujet de “Supprimer un ensemble de pages de l’index Google”

  1. Bonjour,

    J’ai plein d’urls qui posent problème au référencement: spam, anciennes url de Worpdress qui n’est plus installé , …

    Je voudrai faire des redirections 410.

    Est-ce que d’après votre expérience, ces patterns seraient bons ?

    RewriteCond %{REQUESTURI} .*/wp-content/.* RewriteRule .* index.php [R=410,L] RewriteCond %{REQUESTURI} ./buy/. RewriteRule .* index.php [R=410,L]

    ou redirect 410 /wp-content/

    Merci Bonne journée

    Répondre
    • Bonjour herve,

      Il faudrait connaitre les urls que vous souhaitez avoir en 410 afin de déterminer le pattern.

      Si vous n’êtes pas à l’aise avec la gestion du .htaccess sachez qu’il existe des plugins pour gérer les 410 (pattern, urls spécifiques).

      Répondre

Répondre à herve Annuler la réponse