Co je duplicitní obsah, jak škodí webům a nejlepší řešení
📝Obsah
Co je duplicitní obsah
Duplicitní obsah, jak název napovídá, jsou 2 nebo více stránek, ať už na jednom webu nebo napříč internetem, které nabízejí v zásadě totožný nebo i zcela identický obsah. Stránkou v tomto ohledu myslím unikátní URL. Pokud se tedy stejný obsah nachází na 2 rozdílných URL, jedná se o duplicitní obsah.
Podíváme se, jak duplicitní obsah vzniká, a že může jít i o zcela přirozené způsoby, se kterými se potkáváme dnes a denně, ale také proč je potřeba se připravit a problémy duplicit vyřešit a samozřejmě i nejčastější a nejlepší řešení.
Duplicity a SEO – máme se bát penalizací?
Dobrá zpráva je, že duplicitní obsah není z pohledu Googlu (a počítám i dalších vyhledávačů) sám o sobě negativní faktor a přímo neovlivní autoritu a pozice našeho webu, pokud tyto duplicity vznikají přirozeným způsobem (viz dále), a nejde o nějakou cílenou snahu zmanipulovat vyhledávače.
NICMÉNĚ to neznamená, že bychom neměli duplicitní obsah řešit.
Sice Google nebude kvůli duplicitám penalizovat náš web, ale také to není nic pozitivního a pořád jde o negativní vlastnost stránek, která se promítne v očích vyhledávačů hlavně nepřímo.
Proč duplicitní obsah řešit
Duplicitní obsah vzniká a podíváme se i na to, jak se s ním typicky nejlépe popasovat, ale důležité je i pochopit, proč bychom to vlastně měli dělat.
Vyhledávače
Vyhledávače typu Google, Seznam, Bing a další v zásadě nikdy nenabízejí ve výsledcích vyhledávání zcela identické stránky. Proč by to také dělali? Pokud jedna stránka nevyřeší problém toho, kdo něco vyhledal, proč by stejný problém měla vyřešit jiná identická stránka?
Vyhledávače se proto snaží nabízet ve výsledcích vyhledávání rozmanité stránky a téměř vždy i různé weby (nejde nutně o pravidlo, ale jen málokdy ve výsledcích vyhledávání najdete na jedné stránce více odkazů na stejný web). Pokud jedna stránka nevyřeší problém, který uživatel má, třeba se to povede jiné. Je to zcela logické a vyhledávače by šli sami proti sobě, kdyby to bylo jinak.
Co když ale narazí na 2 stránky, které jsou svým obsahem identické? Je to jednoduché, prostě si vyberou jednu, a zobrazují tu. Stránku, kterou vyhledávače vyhodnotí jako duplicitní, se pak ve výsledcích vyhledávání neobjevuje.
Vyhledávače také tyto duplicity mohou mást. Neví, která stránka je pro vás relevantní a kterou si (ne)přejete zobrazovat. Mohou být sice téměř identické, ale právě ono „téměř“ může hrát velkou roli. Může se také stát, že vyhledávače prostě nepoznají, která stránka je originál, který by měli zobrazovat. Ve výsledcích vyhledávání se mohou objevovat docela podivné verze URL, které tam nechcete.
Majitelé webu
Rozmělňujete si linkbuilding. Pokud máte více identických stránek, kdy získáváte odkazy na obě dvě, tak si sice můžete gratulovat, že získáváte odkazy, ale protože vedou odkazy na obě, tak se i síla těchto odkazů rozmělní. Namísto hodně odkazů na jednu stránku tak dostáváte málo odkazů na obě, a namísto skvělého umístění jedné stránky se neumístí ani jedna.
Linkbuilding je pořád velmi důležitý faktor a stále patří do svaté trojice kvalitního SEO spolu s kvalitním obsahem a zvládnutou technickou stránkou webu. Podkopávat si nohy duplicitami nebývá dobrý nápad.
Jak vznikají duplicitní stránky z technického hlediska
Různé verze URL – s/bez www nebo http/https
Tohle je velmi klasický a přirozený způsob, jak na více URL vzniká stejný obsah. Jestli máte web, typicky bude vaše doména vypadat:
https://www.vasweb.cz
No jo, ale co když uživatelé mají k dispozici i nezabezpečenou verzi webu, tedy na začátku není https, ale jen http? Takto nabízíme 2 různé verze webu, kdy se na 2 URL nachází identický obsah.
Stejně tak můžeme mít verzi s www nebo bez www na začátku. Prakticky je jedno, kterou si vybereme, ale měli bychom nabízet pouze jednu, a neumožnit uživatelům obě možnosti.
Pokud bychom toto neřešili (viz dále ve článku), mohly by jen kombinací toho, jestli je/není web na https nebo má/nemá www verzi, 4 různé dostupné URL pro každou stránku našeho webu, kdy je na každé URL zcela identický obsah, tedy duplicita jako hrom (ok, zase tak horké to není, vyhledávače trochu počítají s tím, že se tohle děje, ale princip duplicity zůstává), která se řeší pomocí přesměrování (viz článek dále).
Řazení kategorií a filtrů v URL
Tohle se týká hlavně e-shopů, ale je potřeba na to myslet. Pokud se na e-shopu propisují do URL například naklikané filtry, je potřeba vyřešit jejich jednoznačné řazení za sebou.
Jinak by vznikaly URL typu:
vasweb.cz/trika/?barva=modra&velikost=m
NEBO
vasweb.cz/trika/?velikost=m&barva=modra
Z URL poznáme, že jsou zakliknuty identické filtry, ale protože není řešeno jejich správné řazení, vznikne duplicita, kdy na 2 URL uvidíme zcela identický obsah. Filtrů bude v daném e-shopu rozhodně daleko více, takže najednou se velmi snadno stane, že je na webu daleko více duplicitního obsahu než obsahu originálního. To ubližuje našemu crawl budgetu a vyhledávačům se náš web rozhodně nebude líbit (pokud budou schopni všechny tyto stránky objevit).
UTM nebo jiné parametry
Za URL se často připisují různé parametry, které nijak nemění obsah webu, ale jen dodávají nějakou informaci například analytickým nástrojům. Velmi používané jsou UTM parametry, které se přidávají do URL při marketingových kampaních, a které se pak využívají ve vyhodnocení toho, odkud vlastně lidé přišli a jak byla kampaň úspěšná.
UTM parametry mohou vypadat nějak takhle:
vasweb.cz/?utm_source=email&utm_medium=newsletter
Obsah stránky je identický, ale URL je jiná.
Podobné parametry mohou přidávat různé služby. Docela ostrý je v tomto ohledu Facebook. Pokud si rozkliknete jakýkoliv odkaz z Facebooku, typicky nějaký nasdilený článek, tak se za URL přidá parametr fbclid. Můžete si to zkusit klidně sami třeba nasdílením tohoto užitečného článku o duplicitním obsahu svým kamarádům na Facebooku 😃
Pokud pak na odkaz nasdíleného článku na Facebooku kliknete (a to klidně i v Messengeru), za URL se přidá pro uživatele zcela nepodstatný parametr fbclid, který ale mění URL, a tedy vytvoří duplicitu.
Další podobné parametry přidává třeba Seznam.cz, pokud se prokliknete na libovolný článek z jejich domovské stránky. Parametry přidávají i různé trackovací programy nebo si nějaký nesmyslný parametr můžete klidně do URL dopsat sami.
Existuje řada způsobů, jak se podobné parametry mohou za vaše URL dostat, a je potřeba s tím počítat. Řešení pak spočívá v kanonizaci, o které se dočtete níže ve článku.
Lomítko na konci URL
Některé URL končí lomítkem, jiné ne. V zásadě je dost jedno, kterou variantu zvolíte, ale jednu používejte a druhou vyřešte. Znovu by šlo o 2 rozdílné URL, třebaže je to zase jeden z technických nedostatků, se kterým vyhledávače tak nějak počítají a umí se s ním poprat.
Jak vznikají duplicitní stránky z hlediska tvorby obsahu
Zkopírovaný obsah
Klasika, které se vyhněte. Nekopírujte slovo od slova jiné články nebo texty. Vyhledávače budou zobrazovat originál, tedy tu URL, která vznikla jako první. Pokud někdo krade váš obsah, je potřeba situaci řešit ani ne tak s vyhledávači, ale přímým kontaktováním a pak případně podniknout právní kroky. Zde bude bohužel záležet na tom, o jak vážné plagiátorství jde.
Jestli si někdo zkopíruje váš text, ale vyhledávače stejně zobrazují vás, asi řešení nestojí za váš čas. Pokud někdo systematicky kopíruje vaše články a reálně vám vzniká újma, bude potřeba to řešit žalobou. Bohužel mezi žalobou a necháním to být vlastně žádná možnost není.
Ohledně zkopírovaného obsahu je také potřeba říci, že jde o to, jak velká část dané stránky je zkopírována. Pokud píšete třeba recenzi na nějaký produkt a zobrazíte tabulku s ceníkem, bude tato tabulka pravděpodobně na více webech (přeci jen je cena stejná, takže i informace o ceně jsou identické a tedy bude tato menší část obsahu duplicitní). Pokud ale kromě této tabulky píšete originální článek a tento ceník je jen malou částí stránky, nemusíte se bát duplicity a vymýšlet, jak tabulku upravit.
Stejně tak může jít o různé kratší citace, úryvky nebo odkazy na jiné články. Technicky vzato jde vždy o něco, co se v identické podobně na internetu už nachází, ale když jde o minimální část vaší stránky, nebude ani vyhledávač brát tuto stránku jako duplicitní.
Velmi podobný obsah na 2 stránkách
Tohle se nás blogerů může týkat. Občas zjistíme, zvlášť když píšeme dlouho, že jsme vytvořili 2 stránky na v zásadě stejné téma se stejným obsahem. Sice nejde technicky vzato o duplicitu, kdy bychom text zkopírovali, ale i tak je to pro vyhledávače matoucí.
V tomhle případě je lepší rozšířit starší stránku o nové informace, než vytvářet stránku novou, a pokud se nám již podaří novou stránku vytvořit, typicky je nejlepší řešení tyto stránky sjednotit, vytvořit jednu opravdu hodnotnou stránku než 2 horší, a ten novější článek (pokud nemáte důvod) smazat a URL přesměrovat (viz dále).
Šablonovitý obsah na konci každé stránky
Pokud na konci každé stránky vypisujete třeba nějaké delší podmínky použití, informace o copyrightu nebo něco podobného, které jsou na každé stránce identické, může si vyhledávač i toto vyhodnotit jako duplicitu. Bude lepší tyto podmínky nebo delší texty umístit na samostatnou stránku, a na konci článků umístit jen odkazy. Opakovaného textu tak bude daleko méně.
Stránky bez obsahu
Občas je nutkání vytvořit novou stránku s předstihem, ale nemáme co na ní napsat. URL už existuje a my jen čekáme, až jí zaplníme obsahem. Neměli bychom to ale dělat. Pokud nemáme o čem psát, raději by tyto prázdné stránky neměly existovat, případně bychom je měli správně označit meta značkou noindex.
Vytvářet nové URL s předstihem je velmi dobrá strategie na umístění se na dobrých pozicích ve vyhledávačích, ale tyto stránky prostě potřebují alespoň nějaký obsah, který pak samozřejmě můžeme aktualizovat a rozšiřovat.
Jak řešit duplicitní obsah
Některá specifičtější řešení jsem nakousl v samotných problémech, ale tady se podíváme na ta nejobecnější, která se budou týkat v zásadě všech vyložené klíčových duplicit:
Nevytvářejte záměrně stránky se (skoro) stejným obsahem
Tohle se týká hlavně blogování. Každá stránka by měla být jedinečná a měla by se týkat nějakého relativně specifického problému. Někdo vytváří spousty stránek na stejné téma, kdy v zásadě jen mění slovosled psaného textu. Podle mě tohle není zrovna ideální strategie, a raději bychom se měli soustředit na originalitu každého článku a vypiplání jednoho super textu, než pořád psát o tom samém
Pokud napíšeme, třebaže nevědomky, nějaký duplicitní článek, měli bychom tyto články sjednotit a přesměrovat na jednu URL. Když mluvíme o přesměrování.
301 přesměrování (301 redirect)
Přesměrování je automatický přesun z jedné URL na jinou. Přesměrování s kódem 301 pak znamená permanent redirect, tedy trvalé přesměrování. Existují přesměrování s jinými kódy (302 je dočasné přesměrování), ale v zásadě vždy, pokud k tomu nemáme dobrý důvod (jakože skoro nikdy nemáme), se používá přesměrování 301.
Pokud tedy někdo navštíví URL, prohlížeč automaticky tuto URL změní na jinou požadovanou URL. Přesměrovaná URL je pak pro návštěvníky i roboty nedostupná.
Přesměrování je zcela typické právě třeba pro automatickou změnu URL z http na https, z ne-www na www (případně opačně z www na ne-www) nebo třeba odstranění/přidání lomítka na konci URL. Pokud by se tedy někdo pokusil zobrazit ne-www verzi vašeho webu, bude automaticky přesměrován na www verzi a tak podobně.
Přesměrovat lze v rámci vašeho webu zásadě cokoliv kamkoliv a řešit takto lze smazané URL, affiliate odkazy nebo cokoliv jiného vás napadne.
Pokud řešíte přesměrování jedné specifické stránky na jinou (třeba u smazaného jednoho článku), jde typicky o prkotinu. Pokud byste ale řešili třeba přesun webu na jiný redakční systém nebo změnu struktury URL, může jít o opravdu velký problém, který musí vyřešit SEO specialista, aby se přesměrování nezacyklilo nebo nevznikl další z desítek možných problémů.
Dobrá zpráva je, že se tyto věci prakticky nedějí a jde vždy spíše o naše vlastní rozhodnutí, než nějakou povinnost.
Samotná technická stránka přesměrování pak záleží na vás. Nejlepší řešení bývá, aby se přesměrování vyřešilo okamžitě na straně serveru, tedy zpravidla přidáním pravidel do souboru .htaccess.
Pokud máte web na WordPressu, existují i pluginy, která jsou pro potřeby přesměrování přívětivější pro uživatele, kteří nechtějí zasahovat do nastavení serveru, ale tato přesměrování jsou pomalejší – musí se načíst jádro WordPressu, než se samotné přesměrování provede, což prostě trvá o něco déle a jde i o zátěž na server/webhosting.
Kanonizace
Zatímco u přesměrování se změní URL a obsah přesměrované URL je nedostupný, máme tu i další možnost, jak duplicitu řešit, aniž by se URL změnilo. Jde o kanonizaci. Pokud máme na webu nebo více webech stránky, které jsou duplicitní, vybereme tu jednu, která je pro nás nejdůležitější, což bude kanonická stránka (a pokud nevíme nebo je nám to jedno, prostě nějakou vybereme třeba hodem mincí). Na ostatní duplicitní stránky poté do HTML kódu mezi tagy <head> přidáme informaci, kdy vyhledávače navedeme na tu stránku, kterou považujeme za nejdůležitější.
Kód HTML pak vypadá třeba takto:
<link rel="canonical" href="https://www.expressinfo.cz/technika/uspesny-web/co-je-duplicitni-obsah-jak-skodi-webum-reseni/167/" />
Toto způsobí, že vyhledávače chápou, že sami víme o duplicitě, ale ukážeme tu nejlepší verzi, kterou chceme zobrazovat ve výsledcích vyhledávání.
Kanonizaci se také někdy říká „soft redirect“ tedy „měkké přesměrování“. Všechny URL jsou dostupné a ve skutečnosti k přesměrování nedojde, ale nastavením kanonické stránky sjednotíme všechny duplicity na jednu URL.
Kanonizace se používá ve chvíli, kdy chceme, aby všechny duplicitní URL byly stále dostupné, tedy třeba chceme zachovat UTM nebo jiné parametry, které využíváme k nějakému měření nebo jiným účelům. Pokud nedává smysl, aby bylo dostupných více verzí URL se stejným obsahem, dává smysl tvrdé přesměrování, kdy je dostupná pouze jedna URL.
Pozor číslo 1: Kanonizace slouží k navedení vyhledávačů na originální verzi stránky, tedy by kanonický odkaz měl vždy vést na tu stránku, která je obsahově stejná nebo velmi velmi podobná. Parametr v URL, který reálně mění obsah stránky (třeba filtr e-shopu), tedy nekanonizujeme na verzi bez tohoto parametru. Je tady potřeba vědět, které parametry v URL reálně mění obsah, a které jsou naopak z pohledu změny obsahu zbytečné.
Pozor číslo 2: Kanonizace je doporučení pro vyhledávače, ne příkaz. Pokud vyhledávače uznají, že jsou stránky opravdu duplicitní, budou kanonizaci respektovat. Pokud kanonický odkaz vede na stránku, která duplicitní není, budou ho ignorovat.
Pozor číslo 3: Kanonický odkaz se musí nacházet v HTML kódu mezi tagy <head>
(existují i jiné metody, ale ty nejsou podporovány všemi vyhledávači, takže tohle je nejbezpečnější a nejsnadnější řešení). Pokud uvedete kanonický odkaz kdekoliv mimo značku <head>
, budou ho vyhledávače ignorovat.
Pozor číslo 4: Kanonický odkaz smí být v kódu jen jednou. Pokud uvedete v kódu několik rozdílných kanonických odkazů, což se může stát třeba použitím několika SEO pluginů najednou, budou vyhledávače s největší pravděpodobností ignorovat všechny tyto odkazy. Doporučuji se podívat do zdrojového kódu vašeho webu a zkontrolovat, jestli nemáte na stránce těchto odkazů více.
Pozor číslo 5: Kanonický odkaz můžeme psát v relativním (tedy zápis URL bez protokolu a domény, namísto „https://www.vasbeb.cz/stranka/“ bychom psali jen „/stranka/“) nebo absolutním formátu (tedy kompletní URL i s https:// na začátku). Silně doporučuji používat vždy absolutní, tedy kompletní URL, a to i v případech, kdy kanonický odkaz vede na stejnou doménu. Tohle doporučení budu dávat častěji i v jiných případech, protože absolutní odkazy jsou obecně lepší praxí, kdy nemůže ze strany vyhledávačů dojít k chybné interpretaci relativní adresy.
Pozor číslo 6: Někdy můžete slyšet doporučení (slyšel jsem ho i na SEO konferencích), že bychom měli používat kanonizaci u stránkování, například na stránkách s výpisem článku v rubrikách, a to tak, že by kanonický odkaz měl vést na první stránku daného stránkování. Je to ale špatná praxe, protože prostě nejde o duplicitní obsah, a i Google toto nedoporučuje dělat.
Varianta může být vytvořit jednu sjednocující stránku, na které je umístěn obsah ze všech stránek ze stránkování, a tuto sjednocenou stránku pak používat jako kanonickou. Není to ale myslím také dobře, protože pak můžete na této jedné sjednocené stránce mít takříkajíc bordel. Zkuste si představit, že by vám nějaký velký e-shop na jedné stránce vypsal kompletně všechny produkty z nějaké sekce. Používali byste tuto masivní stránku? Myslím, že ne. Uživatelsky se v tom nejde vyznat, stránka by se načítala kdovíjak dlouho a bylo by to celé takové divné. Nedává moc smysl chtít něco takového zaindexovat. Mnohem přirozenější a logičtější je nechat zaindexovat všechny stránky ze stránkování, které jsou mezi sebou správně prolinkovány a označeny rel="next"
a rel="prev"
.
Self-canonical
Často také uvidíte takzvaný self-referencing canonical nebo zkráceně self-canonical, tedy praxe, kdy originální stránka kanonicky odkazuje na sebe sama. To je ideální třeba v případě různých facebookových, UTM nebo jiných pro obsah nepodstatných parametrů, které se za URL přidávají, které ale chceme v URL zachovat.
Můžete zkusit za nějakou URL na tomto webu přidat parametr nebo vyzkoušet třeba onen proklik z Facebooku, který parametr přidá za vás, případně se stačí podívat na obrázek:
V URL stránky je parametr, který nijak nemění obsah stránky, takže kanonický odkaz vede na verzi stránky bez parametru. To je žádoucí, protože nechci, aby vyhledávače ve výsledcích vyhledávání zobrazovaly nějaké podivné parametry, ale chci vždy a pouze verzi bez nich.
Super je i to, že pokud někdo nalinkuje na svůj web odkaz s těmito nepodstatnými parametry, tak vyhledávače díky kanonizaci poznají, že síla tohoto odkazu má jít právě do URL v kanonickém odkazu.
Chybná řešení duplicit
Přesměrování a kanonizace jsou nejlepší a nejspolehlivější způsoby, jak řešit duplicity. Mohla by nás ale napadnout také varianta zákazu procházení crawlerů přes robots.txt nebo jiným způsobem. Není to ale úplně nejšťastnější řešení. Pokud totiž robot na stránku nepřijde, tak nezjistí, že může jít o duplicitní obsah, který třeba kanonizujeme nebo přesměrováváme jinam.
Vyhledávače ale mohou stránku zaindexovat, přestože ji nutně nemusí navštívit. Obsah stránky mohou pochopit třeba z kontextu díky textu v odkazu. V praxi se tak stane, že vyhledávače budou tyto duplicitní stránky brát jako samostatné unikátní stránky se všemi problémy, které to pro nás přináší.
Toto řešení zákazu procházení duplicitního obsahu nedoporučuje ani Google a lepší je tak využít klasických řešení jako kanonizace nebo přesměrování.
Co si ze článku odnést
Duplicity na webu nejsou zpravidla žádoucí, ale vznikají zcela přirozeně a není nic moc, co bychom s tím mohli udělat. Naštěstí duplicity přímo nesnižují autoritu webu, ale ze SEO hlediska i z pohledu uživatelské přívětivosti bychom se duplicitám stejně měli vyvarovat a pokud možno plánovat strukturu webu, obsah i vše ostatní, aby duplicity nevznikaly (alespoň ve velkém).
Obecně pak platí, že pokud duplicity vzniknout přirozeně a není za nimi zlý úmysl, nemusíme se vyloženě bát a řešit, jestli tu a tam holt nějaká vznikne. Zvlášť na slušně technicky vyřešených blozích je fajn mít v hlavě, že duplicity mohou vznikat, ale pokud vyřešíme správné přesměrování na jednu verzi webu (tedy určitě https a volitelně www nebo ne-www), a nastavíme korektně self-canonical, v zásadě se nemáme čeho bát.