Comment récupérer facilement toutes les pages d’un site indexées par Google ?

Pour la migration d’un site Oscommerce vers Prestashop j’avais besoin de récupérer dans un fichier texte l’ensemble des pages du site que Google avait indexées. Matthieu Verne de Referenseo m’a donné une petite astuce que je partage avec vous ici.

Avant de débuter votre lecture, si vous souhaitez améliorer le SEO de votre boutique en ligne, téléchargez gratuitement notre livre blanc seo.

Livre blanc seo

La première étape consiste à installer un bookmarklet sur votre navigateur.
Rendez-vous sur ce site puis faites glisser le bouton « Simple google results » dans votre barre d’outils.

Il faut ensuite taper l’url qui va nous sortir les pages connues par Google.

[html] https://www.google.fr/search?q=site:reussir-mon-ecommerce.fr&num=100&start=0
[/html]

« https://www.google.fr/search?q=  » est l’url classique d’une recherche sur google.fr

« site:  » est la commande permettant de trouver les pages d’un site donné.

« reussir-mon-ecommerce.fr  » est le nom de domaine de mon site à remplacer par le vôtre.

« num=100  » permet de demander à google d’afficher 100 résultats par page (malheureusement il semblerait qu’il ne soit pas possible d’en afficher plus sur une seule page).

« start=0  » permet de définir la page à afficher, ici on demande la première.

Une fois cette url tapée vous allez vous retrouver avec 100 résultats qui correspondent aux pages de votre site que Google connaît. C’est bien mais ce n’est pas très pratique à utiliser, c’est là que le bookmarklet que vous avez précédemment installé intervient.

Cliquez sur le bouton « Simple Google results » dans votre barre des tâches, vous allez obtenir un fichier contenant uniquement les url de votre site.

Merci à Matthieu pour cette astuce.

Subscribe
Recevoir un email pour
guest

6 Commentaires
Inline Feedbacks
View all comments
Magicyoyo
Magicyoyo

Et tu peux rajouter &filter=0 à ta requête pour avoir les résultats en index complémentaire.

Julien
Julien

Oui, sauf qu’il y a une différence de taille en utilisant ce bookmarklet et en faisant une requête de type « site: » dans Google. Ce code javascript date de 2009, ceci explique peut-être que l’outil affiche 5 fois moins de pages indexées qu’en cherchant directement. A améliorer ^^ Référenceurs, à vos éditeurs de texte :-)

Webbax
Webbax

Hello,

Cette manipulation semble convenir pour des site avec un faible volumes de pages indexé, lorsqu’il s’agit de plusieurs milliers de page ce n’est plus jouable.

Actuellement j’inspecte les différentes méthodes, mais ça reste très limité & aussi bridé volontairement de la part de Google (oui c’est les pire).

Merci pour l’info.

A bientôt !

Webbax
Webbax

Bon…

Je reviens sur cet article avec un autre billet qui concerne cette problématique :
http://www.webbax.ch/2015/02/20/analyser-son-referencement-avec-scrapebox/

A bientôt !