• 2024-11-21

Definition av Web Spidering och Web Crawlers

What is Web Crawler and How Does It Work?

What is Web Crawler and How Does It Work?

Innehållsförteckning:

Anonim

Spindlar är program (eller automatiserade skript) som "kryper" via webben och söker efter data. Spindlar reser genom webbadresser och kan dra data från webbsidor som e-postadresser. Spindlar används också för att mata information som finns på webbplatser för sökmotorer.

Spindlar, som också kallas "web crawlers" söker på webben och inte alla är vänliga i deras avsikt.

Spammare Spider webbplatser att samla information

Google, Yahoo! och andra sökmotorer är inte de enda som är intresserade av krypande webbplatser - det är också scammers och spammare.

Spindlar och andra automatiserade verktyg används av spammare för att hitta e-postadresser (på internet kallas denna praktik ofta som skörd) på webbplatser och använder sedan dem för att skapa skräppostlistor.

Spindlar är också ett verktyg som används av sökmotorer för att få reda på mer information om din webbplats men lämnade okontrollerade, en webbplats utan instruktioner (eller "behörigheter") om hur man kan krypa på din webbplats kan innebära stora risker för informationssäkerhet. Spindlar reser genom att följa länkar, och de är mycket skickliga att hitta länkar till databaser, programfiler och annan information som du kanske inte vill ha tillgång till.

Webmasters kan se loggar för att se vilka spindlar och andra robotar som har besökt sina webbplatser. Den här informationen hjälper webmastersna att veta vem som indexerar deras webbplats, och hur ofta.

Den här informationen är användbar eftersom den tillåter webmasters att finjustera deras SEO och uppdatera robot.txt-filer för att förbjuda vissa robotar att krypta sin webbplats i framtiden.

Tips om att skydda din webbplats från oönskade robotrobotar

Det finns ett ganska enkelt sätt att hålla oönskade sökrobotar ur din webbplats. Även om du inte är oroad över skadliga spindlar som kryper igenom din webbplats (obfuscating e-postadress skyddar dig inte från de flesta sökrobotar), bör du fortfarande ge sökmotorer viktiga instruktioner.

Alla webbplatser ska ha en fil i rotkatalogen som heter en robots.txt-fil. Den här filen låter dig instruera webbrobotare där du vill att de ska titta på indexsidor (om inte annat anges i en specifik sidas metadata som inte indexeras) om de är en sökmotor.

Precis som du kan berätta önskade sökrobotar där du vill att de ska bläddra, kan du också berätta för dem var de inte går och blockera även specifika sökrobotar från hela din webbplats.

Det är viktigt att komma ihåg att en väl sammanställd robots.txt-fil kommer att ha enormt värde för sökmotorer och kan till och med vara ett viktigt inslag för att förbättra webbplatsens prestanda, men vissa robotsökare kommer fortfarande att ignorera dina instruktioner. Av denna anledning är det viktigt att du alltid håller all din programvara, plugins och appar uppdaterade.

Relaterade artiklar och information

På grund av utbredningen av informationsskörd användes för skrämmande (spam) ändamål godkändes lagstiftningen 2003 för att göra vissa metoder olagliga. Dessa konsumentskyddslagar omfattas av CAN-SPAM Act från 2003.

Det är viktigt att du tar dig tid att läsa om CAN-SPAM Act om ditt företag engagerar sig i någon masspost eller informationshämtning.

Du kan läsa mer om antispamlagar och hur man hanterar spammare och vad du som företagsägare kanske inte gör genom att läsa följande artiklar:

  • CAN-SPAM Act 2003
  • CAN-SPAM Act Regler för ideella organisationer
  • 5 CAN-SPAM Regler Småföretagare behöver förstå

Intressanta artiklar

Var kan man få ett bra betalt praktik

Var kan man få ett bra betalt praktik

Här är de bästa betalda praktikplatserna inom fyra branscher: IT, Massmedia & Underhållning, Bank & Finans och Konsumentvaror.

Bästa webbplatser att lägga in en CV eller kandidatprofil online

Bästa webbplatser att lägga in en CV eller kandidatprofil online

De bästa platserna för arbetssökande att lägga in en CV eller kandidatprofil online, plus tips och råd om vad man ska göra och vad man ska undvika när du skickar ditt CV.

De bästa uppstartsföretagen ska arbeta för

De bästa uppstartsföretagen ska arbeta för

De bästa starta företagen att arbeta för, hur man hittar en start som startar din karriär och hur man väljer startar för att rikta sig i en arbetssökning.

The Big 5 Trade Book Publishers i USA

The Big 5 Trade Book Publishers i USA

De stora 5 bokförlagarna är de stora handelsboksförlaget i USA. Lär dig om vem de är och hur man kontaktar dem för inlämning.

De största resumeskrivningsfel som ska undvikas

De största resumeskrivningsfel som ska undvikas

Granska de största återuppta skrivfel för att undvika att inkludera formulering, röst, meningen struktur och tråkiga verb, plus tips för vad du ska skriva istället.

Karriärfakta för de bästa jobben på Wall Street

Karriärfakta för de bästa jobben på Wall Street

Lär dig om Wall Street jobb. Få en arbetsbeskrivning av finansiell industri jobb, inklusive intäkter, utbildning och aktuell och projicerad anställning.