Definitie van Spidering en Webcrawlers

Spiders & Webcrawlers: wat u moet weten om websitegegevens te beschermen

Spiders zijn programma's (of geautomatiseerde scripts) die door het web 'kruipen' op zoek naar gegevens. Spiders reizen door website-URL's en kunnen gegevens ophalen van webpagina's zoals e-mailadressen. Spiders worden ook gebruikt om informatie die op websites wordt gevonden, naar zoekmachines te sturen.

Spiders, ook wel 'webcrawlers' genoemd, doorzoeken het internet en zijn niet allemaal vriendelijk in hun opzet.

Spammers Spider Websites om informatie te verzamelen

Google, Yahoo!

en andere zoekmachines zijn niet de enigen die geïnteresseerd zijn in het crawlen van websites, net als oplichters en spammers.

Spiders en andere geautomatiseerde hulpmiddelen worden door spammers gebruikt om e-mailadressen (op internet deze praktijk wordt vaak 'oogsten' genoemd) op websites te vinden en deze vervolgens te gebruiken om spamlijsten te maken.

Spiders zijn ook een hulpmiddel dat door zoekmachines wordt gebruikt om meer informatie over uw website te vinden, maar als dit niet is aangevinkt, kan een website zonder instructies (of 'permissies') over het crawlen van uw site belangrijke informatiebeveiligingsrisico's met zich meebrengen. Spiders reizen door het volgen van links, en ze zijn erg bedreven in het vinden van links naar databases, programmabestanden en andere informatie waartoe je misschien niet wilt dat ze toegang hebben.

Webmasters kunnen logboeken bekijken om te zien welke spiders en andere robots hun sites hebben bezocht. Deze informatie helpt webmasters bij het indexeren van hun site en hoe vaak.

Deze informatie is nuttig omdat het webmasters toestaat hun SEO te verfijnen en robot.txt-bestanden bij te werken om te voorkomen dat bepaalde robots hun site in de toekomst zullen doorzoeken.

Tips voor het beschermen van uw website tegen ongewenste robotcrawlers

Er is een tamelijk eenvoudige manier om ongewenste crawlers buiten uw website te houden. Zelfs als u niet bang bent dat kwaadwillende spiders uw site doorzoeken (versluierend e-mailadres beschermt u niet tegen de meeste crawlers), moet u zoekmachines toch belangrijke instructies geven.

Alle websites moeten een bestand hebben dat zich in de hoofdmap bevindt en dat een robots.txt-bestand wordt genoemd. Met dit bestand kunt u webcrawlers aangeven waar ze naar indexpagina's moeten kijken (tenzij anders vermeld in de metagegevens van een specifieke pagina om niet te worden geïndexeerd) als ze een zoekmachine zijn.

Net zoals u gewenste crawlers kunt aangeven waar u ze wilt laten bladeren, kunt u ze ook vertellen waar ze misschien niet naartoe gaan en zelfs specifieke crawlers blokkeren van uw hele website.

Het is belangrijk om in gedachten te houden dat een goed samengesteld robots.txt-bestand een enorme waarde heeft voor zoekmachines en zelfs een sleutelelement kan zijn bij het verbeteren van de prestaties van uw website, maar sommige robotcrawlers zullen uw instructies nog steeds negeren. Om deze reden is het belangrijk om altijd al uw software, plug-ins en apps up-to-date te houden.

Gerelateerde artikelen en informatie

Vanwege de prevalentie van het verzamelen van informatie die werd gebruikt voor snode (spam) doeleinden, werd in 2003 wetgeving aangenomen om bepaalde praktijken illegaal te maken. Deze consumentenbeschermingswetgeving valt onder de CAN-SPAM-wet van 2003.

Het is belangrijk dat u de tijd neemt om de CAN-SPAM-wet te lezen als uw bedrijf massaal mailt of informatie verzamelt.

U kunt meer lezen over antispamwetten en hoe u met spammers moet omgaan, en wat u als bedrijfseigenaar misschien niet doet, door de volgende artikelen te lezen: