Robots.txt co to jest?

Robots.txt co to jest?

Dorastając w czasach, kiedy dyskoteka była najważniejszą instytucją kultury młodzieżowej, każdy z nas chociaż raz przeżył rytuał przejścia. Stoisz w kolejce, powietrze pachnie dezodorantem „AXE”, a przy drzwiach stoi przyjaźnie wyglądająca, okazała postać. I zaraz zaczyna się rozmowa, w której z pełną powagą próbujesz udowodnić, że masz na pewno osiemnaście lat, bo „co, nie wyglądam?!”.

A potem bramkarz w zależności od humoru, godziny i faz księżyca decydował, czy dostąpisz zaszczytu przekroczenia progu, czy zawracasz szukać szczęścia w innych sekcjach miasta.

Ach to uczucie, bycie sklasyfikowanym, ocenianym na podstawie często losowych zdarzeń. I dokładnie to samo dzieje się codziennie na Twojej stronie tylko zamiast nastolatków i bramkarzy masz… boty.

Pamiętasz, jak pisałem w jednym z artykułów o zabezpieczeniach formularzy, że ponad 50% ruchu w internecie to różnego rodzaju boty? No więc te boty można wpuścić… albo nie. I tu właśnie pojawia się on, cały na biało: plik robots.txt.

To Twój cyfrowy bramkarz. To on stoi przy drzwiach Twojej strony i decyduje:

„Ty wchodzisz, ty nie. Ty możesz zobaczyć parkiet dla ubogich, ale do VIP roomu nie wchodzisz.”

A ponieważ to Ty piszesz mu listę zasad, możesz bardzo łatwo zdecydować, komu otwierasz drzwi… a komu je zamykasz przed cyfrową twarzą.


Po co właściwie plik robots.txt?

Plik robots.txt służy do kontrolowania dostępu robotów wyszukiwarek do określonych części Twojej strony.
Nie usuwa stron z wyników (to robi meta tag noindex), ale mówi botom, czego nie mają odwiedzać.

Najczęściej blokuje się tu:

  • foldery zaplecza, np. /wp-admin/
  • wyniki wyszukiwania wewnętrznego,
  • zasoby, które nie mają sensu dla SEO (np. /tmp/, /scripts/, /private/).

Ale robots.txt to nie tylko proste kontrolowanie “wejdziesz, nie wejdziesz”.
To narzędzie, które dobrze ustawione potrafi realnie poprawić działanie strony, jej widoczność i wydajność. A o tym mówi się zaskakująco rzadko.

Na co naprawdę wpływa robots.txt?

  1. Zarządzanie priorytetami indeksowania
    Możesz powiedzieć botom: „słuchajcie! W tym miejscu jest treść, którą chcę abyście zobaczyli w pierwszej kolejności”. W efekcie robot indeksujący (bot) nie “zagląda” do wstydliwych sekcji stron, które nie są zmieniane od początku jej istnienia, tylko przeskakuje na treści, które mają działać na użytkownika jak artykuły, produkty, strony usługowe i wszystko to, z czego żyjesz.
  2. Optymalizacja wykorzystania mapy strony
    Robots.txt pozwala wskazać botom Twoją mapę witryny: Sitemap: https://twojastrona.pl/sitemap.xml. I to jest jak wręczenie bocikowi mapy: „Tu są najlepsze rzeczy, idź tam i rób swoją robotę”.
  3. Oszczędzanie zasobów serwera
    Nie chcesz, żeby boty klepały 500 niepotrzebnych żądań na sekundę do katalogu, którego nikt nie ogląda i nie powinien oglądać.
    Robots.txt pozwala im tego zabronić — Twój serwer oddycha spokojniej, Ty płacisz mniej, a strona działa szybciej.
  4. Ochrona poufnych plików
    Nie, robots.txt nie jest narzędziem bezpieczeństwa potrafi jednak powstrzymać boty od szperania w miejscach, gdzie nie powinny niczego indeksować, np. pliki konfiguracyjne, notatki, logi, dane techniczne.
  5. Ulepszenie strategii SEO
    Dobrze ustawiony robots.txt poprawia budżet indeksowania, czyli to, jak efektywnie wyszukiwarki takie jak Google przeszukują Twoją stronę.
    Skierujesz roboty tam, gdzie trzeba, a resztę chowasz za barierką. W efekcie ważne treści szybciej się indeksują, a strona zyskuje widoczność.
Grafika przedstawiająca dokument oznaczony ROBOTS.txt ze schematem blokowym zawierającym AGENT, DISALLOW i ALLOW, każdy z zaznaczonym żółtym polem, reprezentującym typowe elementy pliku robots.txt.

Jak skonstruowany jest plik robots.txt?

Konstrukcja pliku robots.txt jest prosta jak bramkarz z dawnych lat - zero emocji, zero litości, zero komplikacji. To po prostu zwykły plik tekstowy, w którym ustawiasz zasady gry: kto może wejść, a kto ma odwrócić się na pięcie i wracać do domu.

Plik składa się z trzech podstawowych elementów:

    User-agent: [nazwa bota]
    Disallow: [czego nie tykać]
    Allow: [co wolno]

Z których każdy ma swoje zadanie:

  • User-agent - czyli do kogo mówisz. Nazwa bota, np. Googlebot, Bingbot, AhrefsBot czy inne poruszające się po internecie.
  • Disallow - lista miejsc, których bot ma nie odwiedzać (czyli np pokój dla vip).
  • Allow - wyjątki i ścieżki, które bot może indeksować, nawet jeśli znajdują się w zablokowanym katalogu.

W praktyce wygląda to banalnie:

Przykład dla robota Google, w którym blokujemy dostęp do wybranego folderu:

User-agent: Googlebot
Disallow: /przykladowy-podfolder/

I to wszystko. Bot przychodzi, czyta, kiwa głową (jeśli potrafi) i wykonuje instrukcje.

Ilustracja osoby korzystającej z laptopa, ze strzałką wskazującą na żółtą drukarkę produkującą dwie strony oznaczone jako HTML i ROBOTS.txt, na żółtym i białym tle.

Jak wygenerować plik robots.txt?

Jak już widzisz, robots.txt to prosty sympatyczny plik, można go napisać nawet w Notatniku, w tramwaju, jedną ręką, wracając z zakupów.
Ale… Jak to zwykle bywa: im prostsza rzecz, tym łatwiej ją schrzanić - literówką. Literówka ta potrafi zrobić z Twojej strony tak ekskluzywny klub, że nikt nie będzie miał wstępu… nawet właściciel.

Dlatego zamiast bawić się w ręczne wklepywanie (chociaż wciąż jest to legalna i skuteczna metoda), warto czasami skorzystać z narzędzi, które zrobią to za Ciebie i bez ryzyka wysadzenia indeksacji w kosmos.

Polecane generatory robots.txt.

W sieci znajdziesz dziesiątki narzędzi do generowania robots.txt niektóre świetne, inne wyglądają jak pozostałość po stronach z 2003 roku.
Z mojej strony polecam te dwa:

Zrzut ekranu polskiego interfejsu generatora pliku robots.txt. Zawiera opcje konfiguracyjne po lewej stronie, podgląd tekstowy pliku robots.txt po prawej oraz różne opcje kategorii dla reguł indeksowania stron internetowych.

Jak wygląda generator Jakuba Sawy.

Takie narzędzia są o tyle wygodne, że:

  • generują poprawną składnię,
  • eliminują literówki (a one potrafią zaboleć),
  • pozwalają testować reguły,
  • często podpowiadają dobre praktyki przy tworzeniu plików.

Jak zainstalować plik robots.txt?

Po wygenerowaniu i pobraniu pliku, należy go umieścić w katalogu głównym twojej strony na serwerze - to wszystko! Plik zaczyna swoje działanie

Robots.txt w WordPress.

Jeśli korzystasz z WordPressa, to plik robots.txt może być generowany automatycznie.
Nie musisz mieć go fizycznie w katalogu strony wystarczy, że WordPress go wytworzy dynamicznie pod adresem:

twojastrona.pl/robots.txt

Ale jeśli chcesz nad nim pełną kontrolę (a powinieneś), to dodaj własny plik w katalogu głównym serwera i skonfiguruj go ręcznie lub przez wtyczkę SEO (Yoast, Rank Math itp.). Dlatego jeśli chcesz mieć 100% kontroli nad tym, co widzą boty (a powinieneś), zrób jedną z dwóch rzeczy:

  1. Dodaj własny fizyczny plik robots.txt.
    Wrzuć go do katalogu głównego a WordPress automatycznie przestanie generować wersję dynamiczną.
  2. Skonfiguruj robots.txt przez wtyczkę SEO
    Wtyczki typu Yoast SEO, Rank Math, All in One SEO mają wbudowane edytory robots.txt. To wygodne, jeśli nie masz dostępu do FTP lub nie lubisz grzebać w plikach.
Ilustracja przedstawiająca osobę w żółtym kasku trzymającą schowek i szkło powiększające obok dużego pliku oznaczonego ROBOTS.txt z zielonym znacznikiem wyboru.

Jak sprawdzić poprawność pliku robots.txt?

Skoro już Twój robots.txt przeszedł fazę „wygląda spoko, chyba działa”, czas ustalić, czy działa naprawdę czy tylko udaje, tak jak w wieku 16 lat „totalnie powinienem być wpuszczony do klubu”.

Dlatego zanim przerzucisz plik na serwer, aby pochwalić się Twoją cyfrową bramką, dobrze jest puścić go przez kilka narzędzi, które zweryfikują, czy nie próbujesz zablokować całej strony.

Narzędzia do sprawdzania poprawności robots.txt (robots.txt validator)

  1. Google Search Console Test
    robots.txt archaiczny i wymaga posiadania konta wyglądający w dodatku jak narzędzie z 2012 roku, ale nadal działa. Znajdziesz go w Ustawienia-> robots.txt
  2. SEO narzędzia z validatorami
    Jeśli nie chcesz bawić się w Search Console albo chcesz dodatkowego potwierdzenia, to zewnętrzne narzędzia też dadzą Ci jasny obraz sytuacji przykładowe narzędzie https://technicalseo.com/tools/robots-txt/

Co potrafią?

  • pokazują konflikty reguł,
  • wizualizują, które sekcje obejmują dany URL,
  • ostrzegają przed pułapkami typu:
    • zbyt szeroki Disallow,
    • Allow, które niczego nie odblokowuje,
    • blokowanie sitemap (tak, ludzie to robią… przypadkiem),
    • literówki w User-agent, przez które bot ignoruje całą sekcję.

Najczęstsze błędy, które wyłapie validator

  1. „Disallow: /” – blokowanie wszystkiego
    Klasyka gatunku i najgorsza opcja - często zostawiamy, bo strona testowa blokowała boty, aby nie była ona wykrywana, a następnie po przeniesieniu… Został bez zmian.
  2. Literówki w User-agent
    User-agent: Goglebot - czasami trudne do zauważenia, a mogą sporo namieszać bo napisałeś instrukcje do bota, który nie istnieje.
  3. Blokowanie zasobów potrzebnych do poprawnego wyglądu strony
    CSS, JS, czcionki jeśli bot ich nie zobaczy, to Twoja strona będzie wyglądać dla wyszukiwarek jak z 2001 roku.Validator to wyłapie.
  4. Brak sitemap w robots.txt
    Niby nie błąd, ale niewykorzystana szansa.
  5. 5. Konfliktujące reguły Allow/Disallow
    Np. blokujesz cały folder, a potem próbujesz odblokować pod folder, ale składnia już Ci tego nie przepuszcza.

Jak to zrobić krok po kroku?

  1. Wygeneruj lub stwórz plik robots.txt.
    Skorzystaj z gotowych generatorów lub napisz własny.
  2. Wgraj go na serwer (/public_html/robots.txt).
    Użyj programu do ftp lub sftp aby wgrać ten plik na serwer
  3. Wejdź do validatora i... 
    Wklej zawartość pliku albo podaj URL i sprawdź.
  4. Przetestuj:
    • czy bot może wejść na stronę główną,
    • czy może wejść do artykułów,
      czy blokowane katalogi są faktycznie blokowane,
    • czy sitemap jest poprawnie odczytywana.
  5. Popraw, jeśli coś wygląda podejrzanie i
    odetchnij, bo właśnie uniknąłeś zablokowania połowy Internetu przed dostępem do Twojej strony.

Czy mogę zablokować boty AI?

Skoro robots.txt potrafi zatrzymać klasycznego Googlebota, to może da się nim również zablokować boty AI, takie jak ChatGPT, Claude, Perplexity?

W praktyce część dużych modeli respektuje robots.txt (np. OpenAI zapowiedziało, że traktuje go poważnie), więc dodanie:

User-agent: GPTBot
Disallow: /

albo:

User-agent: PerplexityBot
Disallow: /

zadziała przynajmniej teoretycznie. Jednak pojawia się tutaj haczyk:

  • nie wszystkie boty AI identyfikują się poprawnie,
  • niektóre korzystają z pośredników (proxy),
  • inne pobierają dane z SERP-ów, a nie bezpośrednio ze stron,
  • a część to zwykłe scrapery, które i tak ignorują robots.txt z gracją nosorożca przebiegającego przez pokój.

Czyli teoretycznie się da, a praktyce bywa różnie, warto jednak się zastanowić nad tym…

Czy warto blokować boty AI?

To zależy, czego chcesz od życia (i od ruchu na stronie).

Warto blokować, jeśli:

  • masz płatną zawartość i nie chcesz, żeby AI wykorzystywał Twoją wiedzę do uczenia się,
  • publikujesz materiały premium, kursy, e-booki, artykuły płatne,
  • nie chcesz, żeby Twoje treści trafiały do modeli, które potem je przetwarzają i zwrócą komuś w uproszczonej wersji,
  • działasz w branży, gdzie własność intelektualna to Twoje życie.

Nie warto blokować, jeśli:

  • zależy Ci na widoczności,
  • chcesz, żeby Twoja treść była źródłem odpowiedzi w narzędziach AI,
  • liczysz na ruch z LLM (coraz ważniejszy),
  • chcesz być cytowany lub linkowany jako źródło.

Bo jeśli Twoją stronę zablokujesz dla botów AI, to możesz wypaść z nowego ekosystemu wyszukiwania, w którym modele zaczynają być tak samo ważne jak Google. Dlatego w wielu wypadkach może się to nie opłacać.


Podsumowanie.

Plik robots.txt to kilka linijek tekstu, które posiada w sobie moc większą niż wielu właścicieli stron zdaje sobie sprawę.

To on decyduje:

  • czy boty wejdą na Twoją stronę,
  • gdzie zajrzą a gdzie nie.

Jest jak kompetentny bramkarz który, kiedy dobrze wyszkolony pomoże w SEO, poprawi indeksację, oszczędza zasoby serwera i trzyma porządek. Ten mniej kompetentny zablokuje wejścia każdemu i wszędzie tak, abyś nie pojawił się w żadnych wynikach wyszukiwania wyrzucając wszystkich po spojrzeniu na buty.

Więc jeśli Twój robots.txt wygląda podejrzanie, jeśli nie wiesz, czy czegoś nie blokujesz… albo jeśli w ogóle go nie masz (tak, to też się zdarza) to jest moment, aby się tym zająć.

FAQ

Jak sprawdzić obecność robots.txt?

Najprościej jak tylko się da — po prostu dopisz do adresu strony /robots.txt np: https://twojastrona.pl/robots.txt

Jeśli:

  • widzisz plik – jest i działa,
  • dostajesz 404 – pliku nie ma (WordPress może wytworzyć go dynamicznie, więc czasem i tak zobaczysz "pseudo-plik"),
  • widzisz dziwne treści – możliwe, że wtyczka albo serwer podmienia zawartość,
  • jest pusty – nadal jest poprawny, ale nic nie robi.

Dodatkowo możesz go podejrzeć w:

  • Search Console (sekcja „Indeksowanie → Statystyki pliku robots.txt”),
  • narzędziach SEO, które pobierają plik i pokazują go w analizie technicznej.
Czy roboty mogą zignorować plik robots.txt?

Oczywiście, że mogą i są takie co robią to regularnie. Robots.txt to prośba, nie zabezpieczenie.

Roboty, które respektują robots.txt:

  • Googlebot
  • Bingbot
  • GPTBot (oficjalnie deklarowane)
  • PerplexityBot (deklarowane)
  • inne duże, legalne boty wyszukiwarek i AI

Roboty, które mają robots.txt głęboko…

  • scrapery
  • boty wyciągające e-maile
  • boty spamerskie
  • boty próbujące ataków
  • boty korzystające z proxy i udające inne boty
Adam Anlauf
Adam Anlauf

CEO

O autorze.

Od lat związany z szeroko rozumianą informatyką. Pierwszą stronę stworzyłem w liceum, za co otrzymałem wyróżnienie.

Ciągle uczę się, aby dorównać tempu rozwoju nowoczesnych technologii łącząc je z wiedzą o psychologii aby zwiększać skuteczność stron i aplikacji internetowych.