Een webspider of web crawler is een internet bot met als doel het web te indexeren. Omdat de informatie op het internet continu verandert zullen deze spiders altijd actief zijn om de indexering up-to-date te houden. Wat is een webspider en waarom zou je willen voorkomen dat spiders een website indexeren?
De definitie van webspider is vrij eenvoudig, de wijze waarop ze werken kan wel behoorlijk verschillen. Dit geldt overigens ook voor de benaming. Zo betekenen de volgende termen hetzelfde:
De verwijzingen naar spinnen zijn niet voor niets zo gekozen. Deze kleine programma’s gaan als spinnen het wereldwijde web af op zoek naar informatie. Ze indexeren de URL structuur van websites en de informatie die hier te vinden is. Naast de metadata die webmasters aan webpagina’s kunnen toevoegen zullen de spiders ook webpagina’s analyseren. Op basis van deze informatie kunnen er indexen gegenereerd worden zoals in een zoekmachine.
Het is mogelijk dat content op een website niet mag verschijnen in de resultaten van zoekmachines. In dat geval kan er een robots.txt bestand op de server worden geplaatst waarin wordt bepaald welke delen van een website niet geïndexeerd mogen worden. Het is aan de aanbieder van de zoekmachine om de robot.txt te gebruiken, in praktijk volgen de grote zoekmachines deze richtlijn.
Webspiders werken 24 uur per dag en 7 dagen per week, niet iedere website wordt met dezelfde frequentie geïndexeerd. Het zou onmogelijk zijn om alle content op het internet op ieder moment te monitoren, daarom wordt er prioriteit gegeven aan websites die vaak van updates worden voorzien en/of veel bezoekers trekken. Wanneer de indexering niet meer klopt, bijvoorbeeld na een server migratie, dan is het mogelijk voor de webmaster om deze URL’s handmatig voor indexatie aan te bieden.