Jakie strony i pliki są indeksowane za pomocą robots.txt?

Plik robots txt to dokument tekstowy w katalogu głównym strony internetowej zawierający informacje dla robotów wyszukiwarek o tym, które adresy URL (gdzie znajdują się strony, pliki, foldery itp.) powinny być indeksowane, a które nie. Obecność tego pliku nie jest warunkiem koniecznym do pracy zasobu, ale jednocześnie jego poprawne wypełnienie leży u podstaw SEO.

Co to jest plik robots i do czego służy?

Główną funkcją dokumentu jest zamknięcie stron i plików przed skanowaniem w celu racjonalnego wydatkowania budżetu na indeksowanie. Najczęściej blokowane są informacje, które nie mają żadnej wartości dla użytkownika i nie mają wpływu na pozycję strony w wyszukiwarce.

Jakie strony i pliki są indeksowane za pomocą robots.txt?

Strony z danymi osobowymi

Mogą to być nazwiska i numery telefonów, które odwiedzający podają podczas rejestracji, strony kont osobistych, numery kart płatniczych. Dla bezpieczeństwa dostęp do takich informacji powinien być dodatkowo chroniony hasłem.

Strony pomocnicze, które pojawiają się tylko wtedy, gdy użytkownik wykonuje określone czynności

Mogą to być powiadomienia o pomyślnie zrealizowanym zamówieniu, formularze klienta, strony autoryzacji lub odzyskiwania hasła.

Panel administracyjny i pliki systemowe

Pliki wewnętrzne i serwisowe, z którymi współdziała administrator strony lub webmaster.

Wyszukiwanie i sortowanie stron

Strony, które są wyświetlane zgodnie z zapytaniem wskazanym w polu wyszukiwania w serwisie, z reguły stawiają zakaz skanowania. To samo dotyczy wyników sortowania produktów według ceny, oceny i innych kryteriów. Wyjątkiem mogą być witryny agregatorów.

Strony z filtrem

Wyniki, które są wyświetlane po zastosowaniu filtrów (rozmiar, kolor, producent itp.), są osobnymi stronami i mogą być postrzegane jako duplicate content. SEO mają tendencję do ograniczania crawlowania, z wyjątkiem sytuacji, w których przynoszą ruch dla markowych i innych ukierunkowanych zapytań.

Pliki w określonym formacie.

Mogą to być zdjęcia, filmy, dokumenty PDF, skrypty JS. Dzięki robots.txt możesz ograniczyć indeksowanie plików pojedynczo lub według określonego rozszerzenia.