Bot (Robot, Crawler) – definicja robotów sieciowych
Crawler – co to takiego?
Crawler to inaczej robot, bot, pająk czy robot indeksujący. Jest to program, z którego korzystają wyszukiwarki internetowe. Crawler jest odpowiednio zaprogramowany i na tej podstawie analizuje strukturę poszczególnych stron internetowych i jeśli dane zasoby spełniają oczekiwania, to wówczas są indeksowane. Tak trafiają one do indeksu wyszukiwarki i można je zobaczyć na przykład w wyszukiwarce Google. Crawler Google nazywany jest Googlebotem.
Crawling, a indeksowanie
Wizyta bota wyszukiwarki na Twojej stronie nie zawsze oznacza zindeksowanie danego materiału. Żeby do tego doszło, musi ona spełniać wymagania, np. webmaster może skonfigurować stronę w taki sposób, aby dane zasoby były zablokowane i crawler ich nie śledził lub nie zindeksował.
Do najważniejszych zadań crawlera zaliczamy:
· analizę zawartości witryny,
· sprawdzenie kodu strony,
· indeksowanie zasobów.
Roboty Google wykonują trzy rodzaje działań:
· Google’s deep crawl – bardzo dokładne sprawdzenie strony, które może się odbywać np. raz na miesiąc, ale częstotliwość zależy też m.in. od częstości aktualizowania witryny.
· Google’s fresh crawl – może się odbywać nawet wielokrotnie w czasie jednego dnia.
· Google’s main crawl – dotyczy tylko głównych podstron witryny.
Z pewnością zauważyłeś, że w przypadku wielu popularnych stron nowe artykuły pojawiają się niemal natychmiast po ich dodaniu – to efekt m.in. szybkiego działania robotów indeksujących.
Nie tylko Google ma swoje crawlery. Posiadają je również niemal wszystkie inne popularne wyszukiwarki. Dlatego w logach możesz trafić na roboty Binga czy Yandexa.
Crawlerami nazywa się również potoczenie narzędzia do skanowania strony. Do najpopularniejszych w branży SEO należy Screaming Frog (zobacz również pozostałe narzędzia do audytu SEO), z którego w ograniczonym zakresie możesz korzystać za darmo. Inne to Website Auditor, Sitebulb czy Virtual SEO Studio. Do czego one służą? Poszczególne programy różnią się funkcjami, ale pod wieloma względami działają one podobnie. Możesz w nich sprawdzić odpowiedzi serwera z kodami błędów – znajdziesz np. nieistniejące strony. Za ich pomocą stworzysz również mapę witryny, uzyskasz listę stosowanych nagłówków i użytych obrazków, łącznie z treściami umieszczonymi w tagu alt. Audyt SEO to dokument, którego nie wyobrażamy sobie wykonywać bez crawlera.
Oddaj swoją stronę w ręce ekspertów
Jeśli nie chcesz, żeby dany robot analizował Twoją stronę i indeksował zasoby, to możesz to zablokować, np. umieszczając w robots.txt następujący kod:
User-agent:*
Disallow:/danapodstron.html
- W tym przypadku blokujesz wszystkie crawlery, a jeśli zamiast gwiazdki umieścisz nazwę danego bota, np. Yandesbot – zablokujesz dostęp do strony tylko dla tego jednego bota.
Lista funkcjonujących robotów sieciowych:
[one_fourth]
192.comAgent
4anything.com
A-Online Search
AbachoBOT
ABCdatos
Aberja Checkomat
About
accoona
Ace Explorer
Ack
AcoiRobot
Acoon
Acorn
Ad Title
AESOP
AESOP_com_SpiderMan
Agadine
AIBOT
aipbot
Aladin
Aleksika
AlkalineBOT
Allesklar
Amfibi
AmfibiBOT
amibot
amzn_assoc
AnnoMille
AnswerBus
AnswerChase
AnzwersCrawl
Apache-HttpClient
Apexoo
Aport
Appie
ArachBot
Arachnoidea
aranhabot
ArchitextSpider
Arikus_Spider
Asahina
ask.24x.info
AskAboutOil
Asked
ASPseek
asterias
Atlocal
Atomz
atraxbot
augurfind
autoemailspider
autohttp
AWeb
Axadine
AxmoRobot
Azureus 2.x.x.x
BaboomBot
BackStreet Browser
BaiDuSpider
bCentral Billing Post-Process
Bdcindexer
BDFetch
Beautybot
BebopBot
BecomeBot
BigCliqueBOT
BIGLOTRON
Bigsearch.ca
Bilgi
BilgiBetaBot
billbot wjj@cs.cmu.edu
Bitacle
Black Hole
BlackWidow
Blaiz-Bee
BlitzBOT
BlitzBOT@tricus.net
BlockNote.Net
BlogBot
Bloglines
Blogpulse
BlogSearch
blogsearchbot-pumpkin-3
BlogsNowBot
blogWatcher_Spider
BlogzIce
BloobyBot
BlowFish
bluefish 0.6 HTML editor
BMCLIENT
BMLAUNCHER
boitho.com
Bot mailto:craftbot@yahoo.com
BotALot
Brand and Branding
BruinBot
BTbot
BuildCMS
BuiltBotTough
BullsEye
BunnySlippers
BurstFindCrawler
Buscaplus
BW-C-2.0
bwh3_user_agent
Cancer Information and Support International;
Carleson
Catall Spider
Ccubee
CE-Preload
Cegbfeieh
CFNetwork
Charlotte
CheckUrl
CheckWeb
CheeseBot
CherryPicker
China Local Browse 2.6
Chitika ContentHit 1.0
ChristCRAWLER 2.0
CHttpClient by Open Text Corporation
CJB.NET Proxy
Claymont.com
CloakDetect
Clushbot
CoBITSProbe
ColdFusion
collage.cgi
cometrics-bot
Commerce Browser Center
Computer_and_Automation-
-_Research
Computer_and_Automation-
-_Research_Institute_Crawler
Comrite
Contact
ContentSmartz
contype
CoolBot
CopyRightCheck
CoralWebPrx
cosmos
CougarSearch
Cowbot
Crawler
crawler@alexa.com
CrawlerBoy Pinpoint.com
Crawllybot
Crescent
CrocCrawler
CurryGuide SiteScan 1.1
Custom Spider
CydralSpider
DA 4.0
DAP x.x
Dart Communications PowerTCP
DataFountains
DataparkSearch
DataSpear
dbDig
DBrowse 1.4b
DDD
de.searchengine.comBot
DeepIndex
DeepIndexer.ca
Demo Bot DOT 16b
DepSpid
Der große BilderSauger 2.00u
Diamond
DiamondBot
Digger
DigOut4U
DISCo Pump x.x
discobot
Display ads
DittoSpyder
dlman
WebBot Link Ckeck Tool.
DoCoMo
DonutP; Windows98SE
dotbot
Download Druid 2.x
DownloadDirect.1.0
Dragonfly File Reader
DreamCatcher
Drecombot
DSurf15a 01
DTAAgent
dtSearchSpider
Dual Proxy
Dumbot
e-SocietyRobot
EARTHCOM
EasyDL
eBot
EBrowse 1.4b
EchO!
ejupiter
ejupiter.com
elfbot
EmailCollector
EmailSiphon
EmailSpider
EmailWolf
[/one_fourth][one_fourth]
EmeraldShield.com WebBot
EMPAS
EMPAS_ROBOT
Enfish Tracker
Enterprise_Search
EroCrawler
ES.NET_Crawler
eseek-larbin_2.6.2
ESISmartSpider
eStyleSearch 4
ESurf15a 15
EuripBot
Exabot
ExactSearch
ExactSeek
exactseek.com
Exalead
Execrawl
ExperimentalHenry-
-theMiragoRobot
Expired Domain Sleuth
ExtractorPro
Extreme Picture Finder
EyeCatcher
Factbot
FairAd Client
Fast Crawler Gold Edition
FAST-WebCrawler
Fastbot
FastCrawler
Fasterfox
FastSearch-AllTheWeb.com
Faxobot
FDM 1.x
Feed Seeker Bot
Feed24.com
Feedfetcher-Google
Feedster Crawler
Felix – Mixcat Crawler
FFC Trap Door Spider
Filangy
FileHound x.x
FindAnISP.com
Findexa
findfiles.org
FineBot
Finjan-prefetch
Firefly
firstsbot
Flapbot
FlashGet
Flexum spider
flunky
Foobot
Fooky.com
Francis
Franklin Locator 1.8
FreeFind
Freemium
FreshNotes
FSurf15a 01
Full Web Bot 0416B
FuseBulb
FuseBulb.Com
FyberSpider
g2Crawler
Gagglebot
GAIS Robot
Gaisbot
GalaxyBot
Gallent Search Spider
Gamekitbot
Gamespy_Arcade
GammaSpider
geckobot
geniebot
GeonaBot
GetBot
Gigabot
GNODSPIDER
Goblin
GoForIt
GoForIt.com
GoGuides.Org Link Check
gonzo1
Google AdSense
Googlebot
GreenBrowser
GrigorBot
Gromit
grub-client
gsa-crawler
Guestbook Auto Submitter
GurujiBot
HappyFunBot
Hatena
HeinrichderMirago
HeinrichderMiragoRobot
Helix
HenriLeRobotMirago
HenrytheMirago
HenrytheMiragoRobot
heritrix
HiDownload
Hippias
HitList
Hitwise Spider
hl_ftien_spider
HLoader
hoge
holmes
Homerbot: www.homerweb.com
Honda-Search
HTML2JPG Enterprise
HTTPEyes
httplib
httrack
humanlinks
i1searchbot
iaskspider
iCCrawler
ichiro
IconSurf
ICRA_label_spider
icsbot-0.1
IDA
IIITBOT
Ilial
IlseBot
ImageWalker
imedixbot
IncyWincy
IndexTheWeb.com
Industry Program 1.0.x
Indy Library
Inet library
INFOMINE
InfoSeek
Inktomi
InnerpriseBot
Insitor
Insitor.com search and find world wide!
Insitornaut
InstallShield DigitalWizard
Intelix
Internet Ninja x.0
InternetSeer.com
IpselonBot
IRLbot
ISC Systems iRc Search 2.1
isilox
Jabot
Jack
Jambot
Jayde Crawler
JBH Agent 2.0
JennyBot
Jetbot
JetCar
JOC Web Spider
jyxobot
k2spider
KAIST AITrc Crawler
Kenjin Spider
Keyword Density
KFSW-Bot
Kinja
KIT-Fireball
Knowledge.com
Kontiki Client x.xx
Kuloko
kulturarw3
Lachesis
LapozzBot
larbin
larbin_2.1.1 larbin2.1.1@somewhere.com
LexiBot
Lincoln State Web Browser
linkbot
linkchecker
LinkextractorPro
linknzbot
LinkScan
LinkWalker
LiteFinder
Llaut
LNSpiderguy
LocalcomBot
Lockstep Spider
Look.com
luchs.at URL checker
Lunascape
Lycos_Spider
Mac Finder 1.0.xx
Mag-Net
mailto:webcraft@bea.com
MantraAgent
MapoftheInternet.com
Martini
MaSagool
Mass Downloader 2.x
MasterSeek
Mata Hari
Matrix S.p.A. – FAST Enterprise Crawler 6
[/one_fourth][one_fourth]
Maxomobot
Media Player Classic
MediaCrawler
Mediapartners
Mercator
Mercator-1.x
Mercator-2.0
Mercator-Scrub-1.1
Metaeuro
MetaGer_PreChecker0.1
MetaGer-LinkChecker
MetagerBot
Metaspinner
Metatagsdir
MFC Foundation Class Library 4.0
MFC_Tear_Sample
MFHttpScan
MicroBaz
Microsoft Log Parser 2.2
MIIxpc
Mindjet MindManager
minibot
MiracleAlphaTest
Missauga Locate 1.0.0
Missigua Locator 1.9
Missouri College Browse
Mister PiX
Misterbot
Mizzu Labs 2.2
MJ12bot
MLBot
MnogoSearch
Mo College 1.9
moget
mogimogi
moiNAG 0.02
MojeekBot
monkeyagent
Morris – Mixcat
mozDex
Mozi!
Mozilla
MQbot
MSIECrawler
Msnbot
MSNPTC
MSRBOT
multiBlocker browser
MultiText
MusicWalker
My WinHTTP Connection
myDaemon
Mylinea.com
Naamah
NABOT
nabot_1.0
NASA Search 1.0
NationalDirectory
NCSA
NCSU CRAWLER
Nebullabot
NEC Research Agent — compuman at research.nj.nec.com
NetAnts
Netluchs
NetMechanic
NetSprint — 2.0
NetWhatCrawler
NetZippy
NextopiaBOT
NG
NG-Search
nicebot
NICErsPRO
Nimblecrawler
Noago
NokodoBot
noxtrumbot
noyona_0_1
NP
nrsbot
nuSearch
Nutch
obidos-bot
ObjectsSearch
Ocelli
Octopus
Octora
Offline Explorer
OmniExplorer_Bot
onCHECK-Robot, www.onsearch.de
Onet.pl
Openbot
Openfind
OpenISearch
OpenTaggerBot
OpenTextSiteCrawler
OpenWebSpider
Oracle iMTCrawler
OrangeSpider
OWR_Crawler 0.1
PADLibrary Spider
PageBites
Pagebull
Pagestacker Bot
PagmIEDownload
parallelContextFocusCrawler
parallelContextFocusCrawler1.1
ParaSite
Patwebbot
PBrowse 1.4b
pd02_1.0.0 pd02_1.0.0@dzimi@post.sk
PEERbot
PicoSearch
Piffany
PigeonBot1.0 BETA
Pita
PJspider
PluckFeedCrawler
POE-Component-Client
Poirot
Pompos
Popdex
Port Huron Labs
potbot 1.0
Production Bot 0116B
Program Shareware 1.0.2
Project XP5 [2.03.07-111203]
ProPowerBot
ProWebWalker
Psbot
PSurf15a 11
psycheclone
PureSight
PycURL
Python-urllib
Qango.com
Quepasa
QueryN Metasearch
Rainbot1.1
ramBot xtreme x.x
RAMPyBot
ReadABlog
REBOL Core 2.x.x.x.x
REL Link Checker Lite x.x
RepoMonkey
RixBot
RMA
RoboCrawl
RoboPal
Robot@SuperSnooper.Com
Rozszerzenia lokalizacji
RSSMicro
RSurf15a 41
RufusBot
Rumours-Agent
RX Bar
SandCrawler
SBider
ScanWeb
schwarzmann.biz
ScollSpider
Scooter
Scooter_bh0-3.0.3
Scooter_trk3-3.0.3
Scooter-3.0.EU
Scooter-3.0.FS
Scooter-3.0.HD
Scooter-3.0QI
Scooter-3.2
Scooter-3.2.BT
Scooter-3.2.DIL
Scooter-3.2.EX
Scooter-3.2.JT
Scooter-3.2.SF0
Scooter-3.2.snippet
Scooter-ARS-1.1
Scooter-ARS-1.1-ih
Scooter-W3-1.0
Scooter-W3.1.2
Scooter2_Mercator_x-x.0
ScoutAbout
scoutmaster
Scrubby
Search Engine Optimization Consultants
Search-Engine-Studio
search.ch
Search+
searchbot admin@google.com
SearchdayBot
SearchExpress
SearchGuild
SearchSight
SearchSpider
SearchTone
SearchTone2.0 – IDEARE
Seekbot
Seeker.lookseek.com
semaforo.net
Sensis
Seznam
SeznamBot
ShablastBot 1.0
Shim Crawler
[/one_fourth][one_fourth]
ShopWiki
Shoula.com
Sieć wyszukiwania z rozszerzeniem na sieć reklamową
sitecheck.internetseer.com
SiteSnagger
SiteSpider
SiteTruth.com
SiteWinder
SiteXpert
Skampy
Skepee
Skimpy
Sleipnir
SlimBrowser
SlySearch
smartwit.com
snapbot
SnykeBot
sogou spider
sohu agent
sohu-search
SpankBot
spanner
Speedfind
speedy spider
Speedy_Spider
Sphider
Spider-Sleek
spider.batsch.com
spider.yellopet.com
SpiderMan
SpiderMonkey
sportsuchmaschine.de
sproose
SQ Webscanner
Squid-Prefetch
squidclam
SSurf15a 11
StackRambler
Star Downloader
stat statcrawler@gmail.com
Strategic Board Bot
Submission Spider
suchbaer.de
suchbot
Suchknecht.at
Suchknecht.at-Robot
Suchpadbot
Superdownloads Spiderman
SURF
SurfMaster
suzuran
Swooglebot
SygolBot
SyncBot
SynoBot
Synoo
Syntryx
Szukacz
T-Online Browser
tags2dir
Talkro Web-Shot
TargetYourNews.com bot
TCDBOT
TE
TeamSoft WinInet Component
TECOMAC-Crawler
Tecomi Bot
teleport
Telesoft
Teoma
teoma_agent1
teomaagent crawler
TeragramCrawler
TerrawizBot
Test spider
The Intraformant
TheNomad
TheSuBot
thumbshots-de
TightTwatBot
Titan
Tkensaku
TMCrawler
Topodia
Toutatis
Traazibot
Trampelpfad
Trampelpfad-Spider
True_Robot
TSurf15a 11
turingos
Turnitin
TutorGig
Twiceler
Twisted PageGetter
Tygo
TygoBot
TygoProwler
UCmore
UCWEB5.1
UDM
UKWizz
Ultraseek
Unchaos
Under the Rainbow 2.2
Updated
Uptimebot
URL_Spider_Pro
URLBlaze
URLGetFile
URLy Warning
USyd-NLP-Spider
UtilMind HTTPGet
Utopia WebWasher 3.0
W3SiteSearch
WapOnWindows 1.0
Watchfire WebXM 1.0
Waypath
WE
Web Image Collector
WebAlta
WebarooBot
WebAuto
WebBandit
WebCapture
Webclipping.com
WebCompass 2.0
WebCopier
WebCorp
webcrawl.net
WebDownloader for X x.xx
webdup
WebEnhancer
WebFetch
WebFilter Robot 1.0
WebFindBot
webhack
Weblog Attitude Diffusion
WebQL
WebRankSpider
WebReaper
WebSauger
WebSearch.COM.AU
Website eXtractor
WebsiteWorth
Webspinne
Websquash.com
Webster Pro
pad browser
WebStripper
WebZIP
Wells Search II
WEP Search 00
West Wind Internet-
-Protocols 4.xx
WFARC
wget
whatUseek
WhizBang! Lab
Wildsoft Surfer
Willow Internet Crawler
WinGet 1.1
WinkBot
wire
WiseWire-Spider2
WordChampBot
Worio
WorldLight
Wotbox
wume_crawler
WWW-Collector-E
www.arianna.it
www.doweb.co.uk crawler
WWWeasel
wxDownload Fast
X-Crawler
Xaldon WebSpider
Xenu
Xenu’s Link Sleuth 1.x[a-z]
Xylix
Y!J
Y!TunnelPro
Yacy
Yahoo
Yahoo! Mindset
Yandex
Yanga WorldSearch Bot
Yeti
YodaoBot
Yoogli
Yoono
YTunnelPro
ZACATEK
Zao-Crawler
Zearchit
Zend_Http_Client
Zerxbot
Zeus
Ziggy — The Clown From Hell!!
ZoomSpider – wrensoft.com
zspider
ZyBorg
[/one_fourth]