Usuwanie z wyszukiwarki Google informacji, które nie powinny być w niej dostępne

Publikując dokumenty i obrazy w internecie, możesz niechcący udostępnić więcej informacji niż tylko te, które są bezpośrednio widoczne dla użytkowników. W niektórych formatach dokumentów mogą nadal znajdować się informacje, które są ukryte przed użytkownikami lub przeznaczone do usunięcia. Mogą one być widoczne dla wyszukiwarek.

Wyszukiwarki indeksują materiały opublikowane w internecie, w tym grafiki, i mogą uzyskać dostęp do treści, które nie zostały całkowicie usunięte. Znajdowanie tych pozornie niewidocznych treści mogą ułatwiać technologie wspomagające osoby z niepełnosprawnością, takie jak czytniki ekranu, a także popularne techniki rozpoznawania obrazów, takie jak optyczne rozpoznawanie znaków (OCR).

Użycie małej czcionki, czcionki w kolorze takim samym jak jej tło lub zakrycie tekstu obrazem może sprawić, że coś stanie się niewidoczne dla człowieka. Te metody nie ukrywają jednak treści w taki sposób, by wyszukiwarki nie mogły ich indeksować i udostępniać w wynikach wyszukiwania.

Znaczenie ma też to, że w niektórych typach dokumentów informacje są zapisane na różne sposoby i nie są bezpośrednio widoczne. Mogą one obejmować historię zmian dokumentu, by użytkownicy mogli zobaczyć tekst, który został usunięty lub zmieniony. Mogą obejmować pełne wersje obrazów zawierające informacje, które zostały przycięte lub usunięte. W pliku mogą się też znajdować metadane, które nie są widoczne bezpośrednio. Mogą one zawierać listę osób, które otworzyły lub edytowały plik.

Wszystkie te informacje mogą pozostać w dokumencie, nawet jeśli zostanie on wyeksportowany lub przekonwertowany na inny format. Jeśli nie chcesz ujawniać pewnych informacji, bezwzględnie musisz całkowicie usunąć je z pliku, zanim go opublikujesz.

Oto sprawdzone metody prawidłowego usuwania z dokumentów tych informacji, które nie powinny być indeksowane ani możliwe do wyszukania w wyszukiwarce Google.

Edycja i eksport obrazów przed ich umieszczeniem na stronie

Wyszukiwarka Google pokazuje obrazy znalezione w internecie – zarówno te znajdujące się na stronach internetowych, jak i te umieszczone w różnych formatach dokumentów. Czasami umieszczone obrazy są edytowane tylko przy użyciu narzędzi do edycji dokumentu, w którym się znajdują. Taki sposób usuwania niepożądanych informacji może okazać się nieskuteczny, gdy obraz zostanie zindeksowany poza dokumentem. Dlatego najlepiej jest edytować obrazy przed umieszczeniem ich w dokumencie. W szczególności:

  • Usuń z obrazów niepotrzebne informacje (np. przytnij je) przed umieszczeniem w dokumentach. Niektóre narzędzia do edycji dokumentów (np. edytory tekstu lub narzędzia do tworzenia slajdów) zachowują w publicznej wersji dokumentu wszystkie obrazy jako nieprzycięte, dlatego dokładnie zapoznaj się z dokumentacją narzędzia.
  • Całkowicie usuń lub zasłoń na obrazach tekst i inne ich fragmenty nieprzeznaczone do publikacji, ponieważ systemy OCR mogą przekształcić dowolny tekst widoczny na obrazie w tekst, który można wyszukać.
  • Usuń niepożądane metadane.

Po wykonaniu czynności wymienionych w tym dokumencie wyeksportuj lub zapisz zaktualizowane obrazy jako pliki graficzne w formacie innym niż wektorowy lub spłaszczonym, takim jak PNG lub WEBP. Zapobiega to przypadkowemu umieszczeniu usuniętych fragmentów grafiki w dokumencie publicznym.

Edycja lub usuwanie niechcianego tekstu przed przejściem na publiczny format pliku

Przed wygenerowaniem dokumentu publicznego usuń cały tekst, którego nie chcesz wyświetlać w ostatecznej wersji pliku. Przekonwertuj dokument do formatu publicznego, który nie zachowuje historii zmian. Oto bardziej szczegółowe wskazówki:

  • Jeśli chcesz, by informacje zostały usunięte z pliku, użyj odpowiednich narzędzi do edytowania dokumentów. Na przykład unikaj metody usuwania tekstu polegającej na zakrywaniu go czarnymi prostokątami, ponieważ może to spowodować, że w dokumencie publicznym tekst będzie nadal dostępny.
  • Dokładnie sprawdź metadane dokumentu w pliku publicznym.
  • Stosuj sprawdzone metody usuwania treści z dokumentu w danym formacie (np. z pliku PDF lub obrazu).
  • Weź pod uwagę informacje zawarte w adresie URL lub w nazwie pliku. Nawet jeśli pewna część witryny jest zablokowana przez plik robots.txt, w wyszukiwarce mogą być indeksowane adresy URL (bez zawartości stron). W parametrach adresu URL zamiast adresów e-mail lub nazw albo imion i nazwisk możesz umieszczać hasze.
  • Zastanów się, czy warto użyć uwierzytelniania, by ograniczyć dostęp do usuniętych treści. Aby zablokować indeksowanie, wyświetlaj wynikową stronę logowania, używając tagu robots meta noindex.
  • Po opublikowaniu sprawdź, czy witryna została zweryfikowana w Google Search Console. Umożliwia to szybkie usunięcie treści, jeśli zajdzie taka potrzeba.
  1. Usuń dokument z witryny lub lokalizacji, w której został opublikowany.
  2. Użyj Narzędzia do usuwania, aby usunąć z wyszukiwarki wskazane dokumenty ze zweryfikowanej witryny. Jeśli chcesz usunąć wiele dokumentów, użyj prefiksu adresu URL. W przypadku zweryfikowanych witryn usunięcie adresu URL zwykle zajmuje mniej niż 1 dzień. Dzięki temu dany dokument nie będzie wyświetlany w wynikach wyszukiwania dotyczących usuniętej treści.
  3. Dokument, z którego informacje zostały prawidłowo usunięte, przechowuj pod innym adresem URL. Przy takim podejściu każda nowo zindeksowana wersja będzie bazować na nowym dokumencie, a nie na jego starszej wersji (ponieważ ponowne indeksowanie adresów URL i aktualizowanie ich w indeksie wyszukiwania może trochę potrwać). Zaktualizuj wszystkie linki do tych dokumentów.
  4. Skontaktuj się z właścicielami lub webmasterami innych witryn, które również mogą zawierać dokumenty z nieprawidłowo usuniętą treścią, i poproś o ich usunięcie. Poproś te osoby, aby użyły Narzędzia do usuwania na swoim koncie w Search Console lub narzędzia do usuwania nieaktualnej treści, co pozwoli przesłać do systemów Google prośbę o zaktualizowanie wyników wyszukiwania.
  5. Zezwól na wygaśnięcie próśb o usunięcie adresów URL (dzieje się tak po zaktualizowaniu adresów URL w naszym indeksie wyszukiwarki Google lub po około 6 miesiącach).