Conseils, scripts & logiciels webmaster

Définition : Robot indexeur

Un spider désigne un robot parcourant le web de lien en lien utilisé par les moteurs de recherche pour indexer le contenu des sites web. Le passage de ces robots (appelés parfois spider ou crawler) sur les sites web sont surveillés avec attention par les webmasters.

Liste de divers robots d’indexation web:

ExaBot de Exalead, moteur de recherche français, de nombreuses innovations caractérisent le moteur de recherche pour le Web d’Exalead mais il reste encore largement méconnu du grand public.

Bingbot, le robot indexeur du moteur de recherche Bing de chez Microsoft, remplaçant MSN et MSNBot.

Googlebot de Google, le plus célèbre et le plus surveillé des robots indexeur web.

Heritrix est le robot d’archivage de l’Internet Archive, écrit en Java.

HTTrack est un logiciel aspirateur de site internet qui crée des miroirs des sites Web pour une utilisation hors ligne distribué sous la licence GPL.

Methabot, est un robot indexeur avec un système de configuration. Publié sous licence ISC.

MSNBot du défunt MSN de chez Microsoft maintenant remplacé par Bingbot.

Nutch est un robot de collecte écrit en Java et publié sous Licence Apache.

Open Search Server est un robot d’indexation de site Internet publié sous licence GPL.

OmniExplorer_Bot de OmniExplorer.

OptimalSearch_Bot de Optimal Search.

Scooter robot indexeur de AltaVista.

Slurp de Yahoo!

TwengaBot de Twenga.

VerticrawlBot de Verticrawl

Voilabot, moteur de recherche web de France Télécom Voila.

YacyBot, est le robot du moteur de recherche YaCy4.

Utilisation du glossaire WP

Butaz