Spraw, aby Twoje pliki PDF dobrze współpracowały z Google (i innymi wyszukiwarkami)

Dowiedz się, jak korzystać z programu Acrobat 9, aby zmaksymalizować skuteczność dokumentów PDF udostępnianych online.
Jak zły jest problem?
Każdy plik PDF wymaga tytułu
Inne względy
Co z innymi silnikami?
Wniosek
Czy wiedziałeś?

Ten samouczek pokazuje, jak pracować z funkcjami Utwórz pliki PDF w programie Acrobat 9. Zobacz, co nowy Acrobat DC może dla Ciebie zrobić.

Pobierz bezpłatną wersję próbną nowego programu Acrobat.

Dowiedz się, jak korzystać z programu Acrobat 9, aby zmaksymalizować skuteczność dokumentów PDF udostępnianych online.

Prawdopodobnie używam Google co godzinę, jeśli nie częściej. Wyszukuję także lokalne i sieciowe dyski twarde w poszukiwaniu propozycji, materiałów referencyjnych i tak dalej. Niezależnie od tego, czy o tym myślę, czy nie, wyszukiwanie pełnotekstowe jest dużą częścią tego, jak wykonuję swoją pracę i żyję swoim życiem.

W wielu wyszukiwaniach, zwłaszcza w celach informacyjnych, oficjalnych lub do druku, w wynikach wyszukiwania pojawia się wiele plików PDF. Jeśli chodzi o Google, dokument PDF to tylko kolejna strona internetowa, więc wyszukiwarki indeksują pliki PDF, które reprezentują dużą liczbę globalnych odsłon. PDF jest czynnikiem wpływającym na SEO witryny (Search Engine Optimization) wprost proporcjonalnie do ilości treści PDF na tej stronie.

Przyjrzyj się więc uważnie listom plików PDF na stronach wyników wyszukiwania. W końcu w wielu przypadkach ludzie decydują o tym, czy kliknąć na swoją witrynę.

Chcesz skupić się na plikach PDF w wynikach wyszukiwania? Po prostu dodaj „filetype: pdf” do wyszukiwania za pomocą Google, Yahoo lub Bing.

Patrząc przez pryzmat wyników wyszukiwania, wiele plików PDF wydaje się nieprofesjonalnych i przynoszących efekt przeciwny do zamierzonego - w najlepszym wypadku. Autorzy PDF i menedżerowie treści powinni poświęcić trochę czasu, aby ich pliki PDF działały poprawnie z wyszukiwarkami. Pliki PDF zoptymalizowane pod kątem SEO zyskują nie tylko więcej kliknięć, ale także dla użytkowników poszukujących tego pliku w przyszłości.

Jak zły jest problem?

Większość firmowych i rządowych stron internetowych zawiera pliki PDF, a te pliki często stanowią najważniejszą zawartość witryny - ważne w tym sensie, że muszą być łatwe do znalezienia i muszą wyglądać dobrze, gdy zostaną znalezione. Katalogi produktów, cenniki, raporty, broszury, podręczniki, dokumentacja, formularze do wypełnienia, rekordy archiwalne - nazwij je i pliki PDF odgrywają istotną rolę w komunikacji, dostarczaniu produktów i usług oraz w samej administracji biznesowej.

Wykonałem następujący prosty eksperyment i ty też możesz to zrobić.

Przeprowadziłem wiele wyszukiwań przy użyciu konwencjonalnych terminów biznesowych, ograniczając wyszukiwanie w każdym przypadku, aby zwrócić tylko pliki PDF. Przykład: „typ pliku dokumentu serwera formularza: pdf” lub „typ pliku badania arkusza blachy: pdf”. Następnie przeszedłem bezpośrednio do 10. strony wyników Google (aby uniknąć „najlepszej” zawartości w Internecie) i zacząłem stamtąd szukać.

Twój przebieg może być różny, ale cieszę się, że ogólna jakość wyników wyszukiwania w formacie PDF znacznie się poprawiła od czasu ostatniego przeglądu tego pytania. Na początku 2006 r. Około 60 procent publicznych plików PDF miało bezsensowne tytuły, które nigdy nie zainspirowałyby do kliknięcia. Dzisiaj widzę około 30 procent plików PDF w tym samym stanie. Oczywiście wyniki różnią się bardzo w zależności od wybranych wyszukiwanych haseł, ale wyraźnie widać, że pliki PDF są częścią treści internetowych - tak jak HTML -.

Jak wyglądają dziś pliki PDF na własnej stronie internetowej? Wyszukiwanie zaawansowane Google ułatwia to. Testowanie własnej strony jest proste; tylko Google w następujący sposób: site: yoursite.com filetype: pdf . Oto jak pliki PDF na stronie Appligent Document Solutions pojawić się dzisiaj (TSK TSK).

Przyjrzyjmy się, jak można zmaksymalizować skuteczność dokumentów PDF udostępnianych online.

Każdy plik PDF wymaga tytułu

Jeśli chodzi o pliki PDF, niebieski podkreślony tekst w wynikach wyszukiwania Google pochodzi z jednego z dwóch miejsc. Po pierwsze, Google wygląda w polu informacyjnym dokumentu „Tytuł”. Jeśli nic nie znajdzie, indeksator Google próbuje odgadnąć tytuł dokumentu, skanując tekst na pierwszych kilku stronach. Zwykle nie działa, powodując niepoprawne i nieprawidłowo sformatowane wyniki.

Oczywiście, jeśli program indeksujący znajduje tekst w polu Tytuł, użyje go - niezależnie od tego, czy tekst jest pusty, czy nie. W wyniku tego w sieci znajdują się miliony plików PDF z wspaniale pouczającymi tytułami, takimi jak: „Brkg2RechBrntGrtA122a. qxd ”. Cóż, poza faktem, że projektant używał Quarka, nic więcej nie wiem (lub nie chcę wiedzieć) na temat tego dokumentu, patrząc na wyniki wyszukiwania.

Upewnij się, że pola informacji o dokumentach w plikach PDF prawidłowo przedstawiają dokument.

Aby sprawdzić informacje o tytule pliku PDF w programie Acrobat, wpisz Control-D lub przejdź do menu Plik> Właściwości dokumentu , a następnie kliknij kartę Opis , gdzie możesz dodać lub poprawić tytuł PDF, autora i inne metadane według potrzeb. Istnieje wiele narzędzi serwerowych innych firm do odczytu i zapisu metadanych PDF do obsługi lub przetwarzania dużych zbiorów plików PDF.

Choć autorom PDF najłatwiej jest dołączyć sensowny tytuł, wyniki wyszukiwania w świecie rzeczywistym wyraźnie pokazują, że wiele z nich pozostawia pola tytułowe puste, fałszywe lub po prostu nie przeszkadza. Podobnie jak w powyższym przykładzie, wiele aplikacji do tworzenia treści po prostu umieszcza informacje o nazwie pliku w polu Tytuł, zapewniając wyniki wyszukiwania „wygląd i styl”, które wahają się od tajemniczych do całkowicie bez znaczenia.

Niezależnie od tego, co robisz, publikując pliki PDF w celu wyświetlenia publicznego, niezbędne są metadane tytułu jakości.

Zapewnienie, że każdy plik PDF zawiera prawidłowy i znaczący tytuł, jest jedynym najłatwiejszym sposobem na zapewnienie, że wyniki wyszukiwania będą wyświetlać informacje, które są niezbędne do uzyskania użytkowników tam, gdzie chcą się udać. Pozostaw tytuły PDF bez nadzoru, a pewien wynik to wolniejsze, mniej niezawodne wyszukiwania dla każdego użytkownika, za każdym razem, gdy wyszukują.

Inne względy

Specyfikacja PDF: Na początku 2006 r. Google nie mógł indeksować plików PDF powyżej specyfikacji 1.5. Począwszy od lipca 2009 r. Google indeksuje zawartość nawet w najnowszej wersji specyfikacji Adobe - 1.7 Adobe Extension Level 3 (Acrobat 9.x).

Ograniczenia rozmiaru pliku: Nie znam wyszukiwarki, która indeksuje każde słowo w każdym pliku PDF. Podczas gdy w 2006 r. Google nie indeksowało plików PDF większych niż kilka megabajtów, dziś obserwuję indeksowanie tekstu Google z plików PDF do 10 MB. Jednak znacznie większy i Google po prostu całkowicie ignoruje plik PDF.

Oczywiście możliwe jest również, że czynnik ograniczający Google w plikach PDF zależy od czasu wymaganego do pobrania pliku z danego serwera. Jeśli tak, to szybsze strony internetowe z większymi rurami otrzymają więcej swoich dużych plików PDF indeksowanych niż pliki o tym samym rozmiarze na słabo działającym serwerze.

Ograniczenia ilości tekstu: Rozmiar pliku jest jednym ze sposobów ograniczania zawartości, ale w przypadku wyszukiwarek liczy się sam tekst. Pliki PDF mogą być pakowane w megabajty czystego tekstu.

Chociaż nie znam aktualnego górnego limitu tekstu Google, który chce indeksować, przetestowałem Raport Komisji 911, jeden z najpopularniejszych raportów opartych na formacie PDF w Internecie. Na 585 stronach zwykły tekst ma 1,3 megabajta, a każde słowo jest indeksowane. Jeśli twoje pliki są dużo większe, najpierw je opublikuj i przetestuj, wyszukując unikalny ciąg tekstowy na końcu dokumentu.

Jeśli publikujesz duże pliki PDF (na przykład ze względu na rozmiar dołączonych obrazów) i bardzo ważne jest, aby Google indeksowało całą zawartość, rozważ publikowanie według rozdziałów. W ten sposób Google rzadziej przerywa indeksowanie, powiedzmy, strony 57 dokumentu z 112 stronami. OCR: Wiele plików PDF to po prostu zeskanowane strony bez tekstu z możliwością wyszukiwania. Do niedawna te pliki PDF były skutecznie niewidoczne dla wyszukiwarek, ponieważ nie ma tekstu do przeszukania.

Od listopada 2008 r. Google OCR pobiera pobierane pliki PDF oparte na obrazach bez dodatkowych opłat. Oznacza to, że nawet zwykłe, zeskanowane strony będą dostępne do przeszukiwania, nawet jeśli właściciel ich nie udostępnił. O ile wiem, Google jest (nadal) jedyną wyszukiwarką oferującą tę funkcję.

Teraz OCR Google'a nie jest najlepszy; jest zoptymalizowany pod kątem szybkości, a nie dokładności. Możesz to zrobić samodzielnie i uzyskać lepsze wyniki wyszukiwania, uruchamiając i kontrolując jakość własnego OCR, a następnie publikując wyniki.

Bezpieczeństwo : Istnieje wiele powodów, aby zabezpieczyć pliki PDF przed niepożądanymi zmianami lub uniemożliwić wyodrębnianie treści. Źle wykonane możliwe jest przypadkowe zablokowanie wyszukiwarek indeksujących tekst w zabezpieczonym dokumencie. Aby zapewnić możliwość wyszukiwania zabezpieczonych plików PDF, zaznacz pole „Włącz dostęp tekstowy dla czytników ekranu” podczas szyfrowania plików. Dodatkowo, wybierając zgodność z Acrobat 6.0 lub nowszą, upewnij się, że „Szyfruj całą zawartość dokumentu z wyjątkiem metadanych”, aby zapewnić dostępność metadanych PDF dla wyszukiwarek.

Kolejność czytania treści: Przyjrzyj się uważnie wynikom wyszukiwania, pokazując wyszukiwane hasła w kontekście, i możesz znaleźć dziwnie rozmieszczone, powielone lub pomieszane teksty. Jeśli skorzystasz z oferty Google „Wyświetl jako HTML”, jak to często robię, tekst często wygląda NAPRAWDĘ źle, z chaotycznymi akapitami, nagłówkami obniżonymi do tekstu i tabel, kolumn i pasków bocznych beznadziejnie zmieszanych.

Jeśli sposób, w jaki wyszukiwarki wyszukują i wyświetlają wyniki wyszukiwania, ma znaczenie dla Ciebie, lub jeśli musisz przestrzegać dostępności lub standardów sekcji 508 dla treści internetowych, zaplanuj zapoznanie się z kolejnością czytania w treści opartej na formacie PDF i znakowaniem, informacjami o strukturze (nagłówki, listy, tabele itp.) plików PDF.

Aby zapewnić reprezentację jakości w wynikach wyszukiwania, twórcy plików PDF (zarówno oprogramowania, jak i personelu) muszą upewnić się, że tekst jest poprawnie uporządkowany do celów ekstrakcji. Ogólnie rzecz biorąc, pliki PDF z wyrafinowanymi układami, czcionkami i efektami tekstowymi (np. Typowa literatura marketingowa lub raporty o wysokiej wartości) najczęściej mają problemy z porządkowaniem treści i strukturowaniem, podczas gdy prostsze dokumenty tworzone w Word, InDesign i tym podobnych mają tendencję do mają ważną (lub przynajmniej lepszą) strukturę.

Głębokie nurkowanie w kolejności treści i tagowanie w plikach PDF wykracza poza zakres tego artykułu, ponieważ zapewnienie prawidłowej kolejności treści nie jest prostą opcją wyboru. Jednak zwracanie uwagi na kolejność treści może znacznie poprawić sposób wyświetlania wyników wyszukiwania. Zarówno kolejność treści, jak i tagowanie można rozwiązać w programie Adobe Acrobat Professional. ( Widok> Panele nawigacyjne> Tagi i Widok> Panele nawigacyjne> Zamów )

Aby rozpocząć definiowanie kolejności treści w programie Acrobat Professional, najpierw sprawdź, czy plik jest oznakowany. (Skrót klawiaturowy Control-D, a następnie sprawdź kartę „Opis”) ....

Ta mała opowieść jest prima-facie dowodem na niedostępność treści. Znaczniki nie tylko powinny mówić „Tak”, ale także znaczniki powinny być sprawdzane.

Jeśli Twój plik PDF nie jest uporządkowany i oznaczony, możesz go szybko oznaczyć za pomocą polecenia Zaawansowane> Dostępność> Dodaj tagi do dokumentu . Po dodaniu tagów sprawdź, w jaki sposób treść jest obecnie zamawiana, za pomocą panelu Zawartość lub rozpocznij od Zaawansowane> Dostępność> Koryguj kolejność czytania. Aby pliki PDF były naprawdę dostępne i zmaksymalizowały ich wartość SEO, sprawdź tagi, upewnij się, że obrazy mają dobry tekst alternatywny (także indeksowany przez wyszukiwarki) i upewnij się, że tabele, listy i inne elementy struktury są w dobrym stanie.

Uzyskaj prawo do czytania, podobnie jak Google. Dlaczego ten plik potrzebuje pomocy?

Treść : Tak jak każda strona internetowa, dokumenty PDF zwiększają wartość SEO witryny, gdy zawierają słowa kluczowe w widocznych miejscach i są umieszczone w nagłówkach (H1, H2) w plikach PDF. Pamiętaj, aby umieścić linki w plikach PDF z powrotem do własnej strony internetowej. Użytkownicy, którzy publikują pliki PDF na innych serwerach, będą zamieszczać linki do Twojej witryny - co to za fajne?

Ogólnie rzecz biorąc, pomyśl o plikach PDF jako stronach internetowych, które użytkownicy mogą zabrać ze sobą w tryb offline, a zaczniesz otrzymywać wiele pomysłów na to, jak sprawić, by pliki PDF działały na Twojej stronie, gdziekolwiek się znajdują.

Nazwij ten plik ! Nazwa pliku PDF jest często istotną częścią strategii zarządzania treścią. Aby upewnić się, że nazwa pliku służy również interesom optymalizacji pod kątem wyszukiwarek, spróbuj nadać swoim plikom sensowne nazwy zawierające słowa kluczowe lub odzwierciedlające tytuł pliku.

Co z innymi silnikami?

Google nie jest jedyną wyszukiwarką, a mimo to jest (obecnie) dominująca, inni gracze mogą się pochwalić wieloma mocnymi stronami. Yahoo, kolejny największy gracz, indeksuje również pliki PDF i wyświetla wyniki wyszukiwania przy użyciu niemal dokładnie tego samego wyglądu i działania, co Google, w tym opcję „Wyświetl jako HTML”. W krótkim przeglądzie nie dostrzegłem istotnej różnicy między sposobem, w jaki Google i Yahoo wyświetlają wyniki wyszukiwania w formacie PDF.

Mając niewiele ponad osiem procent wyszukiwań na całym świecie w pierwszym pełnym miesiącu po uruchomieniu, warto spojrzeć na wyszukiwarkę Bing firmy Microsoft. Podobnie jak Google, Bing indeksuje pliki PDF niezależnie od wersji. W przeciwieństwie do Google i Yahoo, Bing nie udostępnia opcji „Wyświetl jako HTML” dla treści opartych na PDF.

Jak można było się spodziewać. wszystkie trzy silniki klasyfikują pliki PDF przy użyciu bardzo różnych algorytmów. Odpowiednio ustrukturyzowane pliki PDF powinny poprawić wydajność wyszukiwania w dowolnej wyszukiwarce, a nie tylko w Google.

Wniosek

Większość organizacji umieszczających dokumenty w swoich sieciach wewnętrznych lub na stronach internetowych chce, aby dokumenty te były łatwo odnajdywane przez inne osoby. Korporacyjne intranety polegają na wyszukiwarkach do indeksowania i pobierania wszelkiego rodzaju dokumentów wewnętrznych codziennie.

W zakresie, w jakim pliki PDF zawierają znaczącą ilość treści do przeszukiwania (a nie przeczytalibyście tak daleko, chyba że tak zrobią), jesteście temu winni, aby upewnić się, że pliki PDF będą wyglądać najlepiej pod nieustającym spojrzeniem Wyszukiwarki.

Kluczowe przyjęcia:

Przed wysłaniem sprawdź każdy „Opis” pliku PDF (we właściwościach dokumentu). Upewnij się, że wszystkie pliki PDF mają znaczące tytuły, jeśli nic więcej.
Dodaj strukturę i odpowiednie znaczniki do plików PDF, aby poprawić jakość i wygląd wyników wyszukiwania.
Mogą obowiązywać ograniczenia rozmiaru pliku. Postaraj się, aby pliki PDF publikowane online były jak najmniejsze, aby zminimalizować prawdopodobieństwo, że wyszukiwarki się poddadzą i nie zaindeksują dokumentu.
Jeśli publikujesz zeskanowane dokumenty, OCR je przed wysłaniem.

Czy wiedziałeś?

Możesz zadać pytanie i uzyskać odpowiedź od jednego z naszych ekspertów.
Możesz przeszukać naszą bazę danych ponad 800 samouczków według produktu i / lub tematu.
Możesz zostawić komentarz poniżej dla autora tego samouczka.

Jak zły jest problem?
Chcesz skupić się na plikach PDF w wynikach wyszukiwania?
Jak zły jest problem?
Jak wyglądają dziś pliki PDF na własnej stronie internetowej?
Dlaczego ten plik potrzebuje pomocy?
Użytkownicy, którzy publikują pliki PDF na innych serwerach, będą zamieszczać linki do Twojej witryny - co to za fajne?
Co z innymi silnikami?
Czy wiedziałeś?

Интернет-магазин SHOP-MODA. Мужская и женская обувь, сумки и аксессуары