Jakie strony i pliki są indeksowane za pomocą robots.txt?

Plik robots txt to dokument tekstowy w katalogu głównym strony internetowej zawierający informacje dla robotów wyszukiwarek o tym, które adresy URL (gdzie znajdują się strony, pliki, foldery itp.) powinny być indeksowane, a które nie. Obecność tego pliku nie jest warunkiem koniecznym do pracy zasobu, ale jednocześnie jego poprawne wypełnienie leży u podstaw SEO.

Co to jest plik robots i do czego służy?

Główną funkcją dokumentu jest zamknięcie stron i plików przed skanowaniem w celu racjonalnego wydatkowania budżetu na indeksowanie. Najczęściej blokowane są informacje, które nie mają żadnej wartości dla użytkownika i nie mają wpływu na pozycję strony w wyszukiwarce.

Jakie strony i pliki są indeksowane za pomocą robots.txt?

  • Strony z danymi osobowymi

Mogą to być nazwiska i numery telefonów, które odwiedzający podają podczas rejestracji, strony kont osobistych, numery kart płatniczych. Dla bezpieczeństwa dostęp do takich informacji powinien być dodatkowo chroniony hasłem.

  • Strony pomocnicze, które pojawiają się tylko wtedy, gdy użytkownik wykonuje określone czynności

Mogą to być powiadomienia o pomyślnie zrealizowanym zamówieniu, formularze klienta, strony autoryzacji lub odzyskiwania hasła.

  • Panel administracyjny i pliki systemowe

Pliki wewnętrzne i serwisowe, z którymi współdziała administrator strony lub webmaster.

  • Wyszukiwanie i sortowanie stron

Strony, które są wyświetlane zgodnie z zapytaniem wskazanym w polu wyszukiwania w serwisie, z reguły stawiają zakaz skanowania. To samo dotyczy wyników sortowania produktów według ceny, oceny i innych kryteriów. Wyjątkiem mogą być witryny agregatorów.

  • Strony z filtrem

Wyniki, które są wyświetlane po zastosowaniu filtrów (rozmiar, kolor, producent itp.), są osobnymi stronami i mogą być postrzegane jako duplicate content. SEO mają tendencję do ograniczania crawlowania, z wyjątkiem sytuacji, w których przynoszą ruch dla markowych i innych ukierunkowanych zapytań.

  • Pliki w określonym formacie.

Mogą to być zdjęcia, filmy, dokumenty PDF, skrypty JS. Dzięki robots.txt możesz ograniczyć indeksowanie plików pojedynczo lub według określonego rozszerzenia.