Nowe posty

Autor Wątek: [ROZWIĄZANY] przygotowanie zeskanowanego pdf do OCR  (Przeczytany 2142 razy)

Offline kenpo

  • Users
  • Stały bywalec
  • ***
  • Wiadomości: 216
    • Zobacz profil
[ROZWIĄZANY] przygotowanie zeskanowanego pdf do OCR
« dnia: 2019-05-21, 17:45:35 »
Czy da się narzędziami linuksowymi przygotować zeskanowany pdf do OCR, czyli wzmocnić czerń czcionki, zrobić większy kontrast? O ile oczywiście takie działania mają sens, bo nie znam się na OCR.

Oczywiście najlepiej byłoby, gdyby to można było zrobić automatycznie dla całego pdf, a nie strona po stronie.

Do samego OCR będę używał na wine PDF-XChange Editor. Co ciekawe on ma opcję Konwertowanie → Ulepsz zeskanowane strony, ale w darmowej wersji dodaje znak wodny, czego wolę uniknąć.
« Ostatnia zmiana: 2019-05-24, 14:47:06 wysłana przez kenpo »

Offline pavbaranov

  • Users
  • Guru
  • *****
  • Wiadomości: 878
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #1 dnia: 2019-05-21, 18:06:04 »
Zanim się zaczniesz bawić - po prostu wrzuć i sprawdź co rozpozna, bowiem tego typu rzeczy (kontrast, czerń itp.) będą miały być może znaczenie, ale wyłącznie przy tekstach, gdzie praktycznie jest "szare na szarym" :)
Chcesz mieć lepszy skan dla OCR, to - wg mnie - pobaw się przy samym skanowaniu (jeśli możesz), tak by wyszedł on lepszy.

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file

Offline mackeire

  • Users
  • Prawie jak Guru
  • ****
  • Wiadomości: 490
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #2 dnia: 2019-05-21, 19:32:13 »
Linuxowy, darmowy  Master PDF Editor do wersji 4.3.89 nie dodaje znaku wodnego i posiada funkcję OCR i inne bajery .
https://code-industry.net/masterpdfeditor-help/ocr-pdf/

Offline kenpo

  • Users
  • Stały bywalec
  • ***
  • Wiadomości: 216
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #3 dnia: 2019-05-21, 20:36:07 »

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file
O, dzięki. XnConvert świetnie sobie radzi z różnymi operacjami na pdf zrobionym ze skanu.

Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.

Może ktoś już wykonywał podobne zadanie i ma doświadczenie.

Oczywiście sam też popróbuję i poszukam w wyszukiwarce w międzyczasie.
@mackeire
Dzięki. OCR ma też oparty na tesseract, ale ma dodatkowe przydatne funkcje.
« Ostatnia zmiana: 2019-06-16, 15:36:09 wysłana przez kenpo »

Offline pavbaranov

  • Users
  • Guru
  • *****
  • Wiadomości: 878
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #4 dnia: 2019-05-21, 20:52:53 »
Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.
Może ktoś już wykonywał podobne zadanie i ma doświadczenie.
Powiem tak. Doświadczenie - niewielkie - mam. Jako OCR używałem tesseract bo to jedyne, obecnie działające narzędzie typu OCR, które oferuje jakieś wsparcie dla j.pol. Nakładka graficzna - dla łatwej obsługi tego silnika - gImageReader. Jak do tej pory sama jakość poprawnie zeskanowanego (albo po prostu w formie graficznego pliku) tekstu nie była problemem.
Zatem - sugerowałbym wpierw wypróbować, a dopiero potem martwić się, gdy coś nie będzie działać poprawnie.

Offline mackeire

  • Users
  • Prawie jak Guru
  • ****
  • Wiadomości: 490
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #5 dnia: 2019-05-21, 21:48:56 »
W tym podanym przez ciebie linku do pomocy programu nie ma tych funkcji, o których pisałem, a które są dostępne w płatnej wersji. Nie chodzi o samo OCR, tylko o to co napisałem: Konwertowanie → Ulepsz zeskanowane strony.

Co to znaczy 'ulepsz'  ?  To dosyć mało obiektywne określenie :)
 Kontrast można ustawić .
Cytuj
After pressing Scan button you will see Scanning with WIA <Scanner title> dialog window, where you can choose kind of scanned image. Then press View button and select scanned zone. You can also set quality of the scanned image (Additional properties):

    Brightness.
    Contrast.
    Resolution (DPI).
    Image kind.

Offline kenpo

  • Users
  • Stały bywalec
  • ***
  • Wiadomości: 216
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #6 dnia: 2019-05-24, 14:46:43 »
Dziękuję  za odpowiedzi. Postanowiłem skorzystać z tesseract. Okazuje się, że ma przydatną funkcję zapisu wyniku działania do pliku tekstowego, dzięki czemu łatwiej dalej pracować z tekstem i przygotować go na przykład do czytania na czytniku.  Polskiego nie sprawdzałem, ale z angielskim radzi sobie całkiem dobrze.

Przy okazji, może się komuś przyda ta informacja: znalazłem przydatny program do dzielenia stron w pdf na dwie:

https://sourceforge.net/projects/briss/

Uruchamia się go poleceniem
java -jar briss-0.9.jar

I jeszcze inny przydatny program Scan Tailor do wyrównania stron poziomo w odniesieniu do tekstu:

https://github.com/scantailor/scantailor/wiki/Deskew

i poradnik:

https://medium.com/@kaerumy/cleaning-up-scanned-documents-with-open-source-tools-9d87e15305b
« Ostatnia zmiana: 2019-05-24, 18:50:29 wysłana przez kenpo »