Jak na úspěšný web

Co je crawl budget a proč je důležitý pro SEO

TV21. července 2021

4minutové čtení

Co je crawl budget — Foto: Stocklib

📝Obsah

Co je crawl budget

Crawl budget (čti król badžit) je počet stránek nějakého webu, které Google (nebo jiný vyhledávač) navštíví a zaindexuje za nějaký čas. Přesný počet těchto stránek u každého webu neznáme a vyhledávače je nesdělují, ale obecně platí, že čím kvalitnější web, aktuálnější obsah a dostupnost pro vyhledávače, tím vyšší crawl budget.

Kolik stránek vyhledávač navštíví, je možné zjistit z access logů, tedy záznamů o přístupech k vašemu webu. Tyto záznamy si můžete nastavit u svého webhostingu, pokud vás to opravdu zajímá. Crawl budget se ovšem mění dynamicky a v praxi není zase tak moc, co byste mohli okamžitě udělat, abyste ho navýšili, takže prohledávání logů je spíše pro vaši informaci než cokoliv jiného.

Proč crawl budget řešit při optimalizaci webu?

Pokud vyhledávač nenavštíví nějakou stránku, tak ta se nikdy neobjeví ve výsledcích vyhledávání, což je tedy asi to nejhorší, co se v rámci SEO může stát. Pokud počet stránek na vašem webu překročí stanovený crawl budget, tak některé stránky nikdy nebudou navštíveny, zaindexovány a prostě se nikdy nebudou objevovat ve výsledcích vyhledávání.

Může se také stát, že stránky, které jsou pro vás důležité, se ve výsledcích vyhledávání objeví až po nějaké době, případně bude trvat dost dlouho, než si vyhledávače všimnou aktualizace. Můžete je popostrčit třeba přes Google Seach Console, ale ani to není jasná záruka, že se vyhledávač okamžitě vydá prozkoumat novou stránku nebo aktuální informace.

V praxi ovšem také platí, že naprostá většina webů (a hlavně blogů) nemusí crawl budget nijak řešit, dokud alespoň nějakým způsobem poladí technickou stránku webu a web bude mít nějakou strukturu. Crawl budget je ovšem velmi zásadní pro:

E-shopy – zde je zásadní vyřešit hlavně vytváření URL pro různé filtry. Pokud každý se zakliknutí nějakého filtru propisuje do URL, může i pár takových filtrů vytvářet enormní množství URL (v praxi klidně nekonečno). Filtry v URL by se měly za sebou správně a jednoznačně řadit, a také bychom měli vyřešit, aby se nějaké filtry vůbec neindexovaly a neplýtvali jsme tak crawl budgetem. Používaná praxe je odfiltrovat nedůležité kategorie v robots.txt a/nebo tyto kategorie umisťovat za symbol # v URL, a přes robots.txt instruovat vyhledávače, aby tyto stránky již neindexovaly. Nejsem e-shopař, takže přesné návody neporadím, ale pokud plánujete nějaký e-shop mít, třebaže jen jako doplněk webu, je dobré na toto myslet a při prodeji velkého množství produktů toto řešit s odborníkem.
Obrovské weby – Pokud máte na webu stovky nebo tisíce stránek, crawl budget neřešte, to je pro vyhledávače prkotina. Pokud máte desítky nebo stovky tisíc stránek, je potřeba řešit, aby je mohly vyhledávače opravdu najít všechny (viz dále ve článku).
Weby, které přidaly hodně obsahu najednou – Jestli jste přidali stovky stránek najednou a chcete je zaindexovat rychle, měli byste mít dostatek místa v crawl budgetu

Jak zařídit zdravý crawl budget

Kvalitní a pravidelný obsah

Vyhledávače budou častěji navštěvovat weby, které přidávají nový a kvalitní obsah na pravidelné bázi, než weby, které sporadicky přidávají stránky bez hodnoty. Neznamená to, že byste měli na web bouchat článek za druhým, aby na váš web chodily vyhledávače často, ale že prostě čím kvalitnější váš obsah bude, tím spíše budou i nové stránky zaindexovány velmi rychle.

Rychlost webu

Pokud je váš web pomalý, ani vyhledávače jej nebudou procházet moc rychle, a nebude se jim chtít plýtvat zdroji na to, aby váš pomalý web prošly opravdu celý. Rychlost webu není jen extrémně silná metrika v rámci SEO a uživatelské přívětivosti, ale také pro zlepšení crawl budgetu.

Vyřešit, aby váš web nebyl pomalý, by měla být jedna z naprostých priorit. Samozřejmě jde vždy ladit a vylepšovat, ale pokud se jednoduchý web načítá několik sekund, jde o problém, který bude znamenat naštvané a odcházející uživatele, a samozřejmě i spoustu ušlých zisků.

Používejte interní odkazy

Ideálně by na každou vaší stránku měl vést externí odkaz, ale to je opravdu linkbuildingová utopie. Co ale vyřešit můžete, je správné prolinkování stránek přímo na vašem webu, Na každou stránku, kterou chcete zaindexovat, by měl vést alespoň 1 interní odkaz. Vyhledávače pak tyto stránky spíše navštíví, a budou je navštěvovat pravidelněji.

Vyhněte se sirotčím stránkám

Častěji se jim říká anglicky orphan pages, a jde o stránky, na které nevede žádný interní nebo externí odkaz. Tyto stránky vyhledávače prostě nenajdou a nezaindexují. Orphan pages nemusí vadit, když třeba opravdu tyto stránky nechcete zaindexovat, ale obecně vzato by se tyto neprolinkované stránky na webu neměly nacházet.

Pozor na duplicitní obsah

Duplicitní obsah jsou takové stránky, které jsou na rozdílných URL, ale nabízí stejný nebo prakticky stejný obsah. Duplicitní obsah sice neubližuje webu přímo a alespoň Google přímo tvrdí, že za duplicitní obsah nepenalizuje, tak se tomuto obsahu stejně chceme vyhýbat, protože bude ubližovat našim SEO strategiím.

V rámci tématu tohoto článku jde samozřejmě i o zhoršení crawl budgetu, kdy vyhledávače namísto objevení nového obsahu prochází stejné stránky, které jsou tedy k ničemu. Každá jedna stránka na webu by měla nabízet unikátní obsah. Ne vždy jde toto stoprocentně vyřešit, ale pokud by se na webu nacházelo opravdu vysoké množství duplicitních stránek bez správné kanonizace nebo přesměrování, může jít o problém.

Pozor na hodně přesměrování

Přesměrovat jednu stránku na jinou, třeba v rámci sjednocení duplikovaného obsahu, je v pořádku, ale neměly by se objevovat dlouhé řetězce přesměrování. Plýtvá to crawl budgetem a zatěžuje to server, stejně jako zhoršuje celkový dojem ze stránky, protože přesměrování také nějakou dobu trvají.

Štítky

TV21. července 2021

4minutové čtení