Semalt: hoe weet Google wanneer (en waarom) het crawlen van uw website moet stoppen?

Google-spiders zijn net zo belangrijk als de SEO-campagne zelf bij het vermarkten van een website. Ze crawlen websites en indexeren inhoud van alle pagina's die het kan vinden. Het voert ook herindexering uit op bijgewerkte pagina's op de site. Dit gebeurt regelmatig op basis van verschillende factoren. Ze omvatten, maar zijn niet beperkt tot, PageRank, crawlbeperkingen en links op de pagina. Het aantal keer dat Google-spiders een site crawlen, is afhankelijk van een of meer van deze factoren.

Een website moet gemakkelijk te navigeren zijn door zowel de bezoekers als de crawlspiders van Google. Het is de reden waarom het hebben van een crawlvriendelijke website een extra voordeel is voor iemands SEO-campagne. Anders krijgt Google geen toegang tot de inhoud, waardoor de positie van de site op de rankingpagina van de zoekmachine wordt verlaagd.

Ross Barber, de Customer Success Manager van Semalt , definieert dat twee van de belangrijkste indexeringsfactoren waarop Google vertrouwt om zijn beslissing om uw site te vertragen of te stoppen, te beïnvloeden, de verbindingstijd en de HTTP-statuscode zijn. Anderen zijn onder meer de opdracht afwijzen, "no-follow" -tags en robots.txt.

Verbind tijd- en HTTP-statuscodes

De connect-tijdfactor heeft betrekking op de hoeveelheid tijd die de Google-crawlbot nodig heeft om de siteserver en webpagina's te bereiken. Snelheid wordt door Google enorm gewaardeerd omdat het een hoge indicatie is voor een goede gebruikerservaring. Als de webpagina niet voor snelheid is geoptimaliseerd, scoort de site slecht. Google-spiders zullen pogingen doen om de website te bereiken en als de tijd die nodig is om een verbinding tot stand te brengen langer is, trekken ze zich terug en crawlen ze minder vaak. Bovendien, als Google pusht om de website met de huidige snelheid te indexeren, kan dit de gebruikerservaring onderbreken omdat dit de server aanzienlijk kan vertragen.

De tweede indexeringsfactor zijn de HTTP-statuscodes die verwijzen naar hoe goed de server reageert op een verzoek om de site te crawlen. Als de statuscodes binnen het 5xx-bereik liggen, neemt Google het op zich om de snelheid waarmee ze de huidige site crawlen te stoppen of te vertragen. Alles binnen het 5xx-bereik is een indicatie van mogelijke problemen met de server en dat het reageren op het verzoek problematisch kan zijn. Vanwege het risico om extra problemen te veroorzaken, zullen Google-bots opzij gaan en indexeren wanneer de server beter bereikbaar is.

Wanneer hervat Google het crawlen van de site?

Google gelooft in het bieden van de beste ervaring aan gebruikers en zal sites die hun SEO-elementen optimaliseren naar deze doelstellingen hoog rangschikken. Als de website echter momenteel de bovengenoemde problemen vertoont, geeft hij de Googlebot opdracht om deze later te proberen te crawlen. Als de problemen aanhouden, verliest de eigenaar een geweldige kans om Google de inhoud ervan te laten doornemen en het een welverdiende positie toe te kennen in de zoekresultaten. Naast deze problemen, wordt bij elke vorm van spam ervoor gezorgd dat de site nooit meer in de zoekresultaten wordt weergegeven.

Net als alle andere algoritmen die Google gebruikt, zijn de spinnen ook automatisch. Ze zijn ontwikkeld om inhoud te vinden, crawlen en indexeren op basis van bepaalde parameters. Als de site niet voldoet aan bepaalde best practices, vindt indexering niet plaats. Er zijn veel andere factoren betrokken, maar vergeet niet om goed op de verbindingstijd en HTTP-statuscodes van uw site te letten.