Forum Linux.pl

Oprogramowanie => Inne => Wątek zaczęty przez: kenpo w 2019-05-21, 17:45:35

Tytuł: [ROZWIĄZANY] przygotowanie zeskanowanego pdf do OCR
Wiadomość wysłana przez: kenpo w 2019-05-21, 17:45:35
Czy da się narzędziami linuksowymi przygotować zeskanowany pdf do OCR, czyli wzmocnić czerń czcionki, zrobić większy kontrast? O ile oczywiście takie działania mają sens, bo nie znam się na OCR.

Oczywiście najlepiej byłoby, gdyby to można było zrobić automatycznie dla całego pdf, a nie strona po stronie.

Do samego OCR będę używał na wine PDF-XChange Editor. Co ciekawe on ma opcję Konwertowanie → Ulepsz zeskanowane strony, ale w darmowej wersji dodaje znak wodny, czego wolę uniknąć.
Tytuł: Odp: przygotowanie zeskanowanego pdf do OCR
Wiadomość wysłana przez: pavbaranov w 2019-05-21, 18:06:04
Zanim się zaczniesz bawić - po prostu wrzuć i sprawdź co rozpozna, bowiem tego typu rzeczy (kontrast, czerń itp.) będą miały być może znaczenie, ale wyłącznie przy tekstach, gdzie praktycznie jest "szare na szarym" :)
Chcesz mieć lepszy skan dla OCR, to - wg mnie - pobaw się przy samym skanowaniu (jeśli możesz), tak by wyszedł on lepszy.

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file (https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file)
Tytuł: Odp: przygotowanie zeskanowanego pdf do OCR
Wiadomość wysłana przez: mackeire w 2019-05-21, 19:32:13
Linuxowy, darmowy  Master PDF Editor do wersji 4.3.89 nie dodaje znaku wodnego i posiada funkcję OCR i inne bajery .
https://code-industry.net/masterpdfeditor-help/ocr-pdf/
Tytuł: Odp: przygotowanie zeskanowanego pdf do OCR
Wiadomość wysłana przez: kenpo w 2019-05-21, 20:36:07

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file (https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file)
O, dzięki. XnConvert świetnie sobie radzi z różnymi operacjami na pdf zrobionym ze skanu.

Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.

Może ktoś już wykonywał podobne zadanie i ma doświadczenie.

Oczywiście sam też popróbuję i poszukam w wyszukiwarce w międzyczasie.
@mackeire
Dzięki. OCR ma też oparty na tesseract, ale ma dodatkowe przydatne funkcje.
Tytuł: Odp: przygotowanie zeskanowanego pdf do OCR
Wiadomość wysłana przez: pavbaranov w 2019-05-21, 20:52:53
Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.
Może ktoś już wykonywał podobne zadanie i ma doświadczenie.
Powiem tak. Doświadczenie - niewielkie - mam. Jako OCR używałem tesseract bo to jedyne, obecnie działające narzędzie typu OCR, które oferuje jakieś wsparcie dla j.pol. Nakładka graficzna - dla łatwej obsługi tego silnika - gImageReader. Jak do tej pory sama jakość poprawnie zeskanowanego (albo po prostu w formie graficznego pliku) tekstu nie była problemem.
Zatem - sugerowałbym wpierw wypróbować, a dopiero potem martwić się, gdy coś nie będzie działać poprawnie.
Tytuł: Odp: przygotowanie zeskanowanego pdf do OCR
Wiadomość wysłana przez: mackeire w 2019-05-21, 21:48:56
W tym podanym przez ciebie linku do pomocy programu nie ma tych funkcji, o których pisałem, a które są dostępne w płatnej wersji. Nie chodzi o samo OCR, tylko o to co napisałem: Konwertowanie → Ulepsz zeskanowane strony.

Co to znaczy 'ulepsz'  ?  To dosyć mało obiektywne określenie :)
 Kontrast można ustawić .
Cytuj
After pressing Scan button you will see Scanning with WIA <Scanner title> dialog window, where you can choose kind of scanned image. Then press View button and select scanned zone. You can also set quality of the scanned image (Additional properties):

    Brightness.
    Contrast.
    Resolution (DPI).
    Image kind.
Tytuł: Odp: przygotowanie zeskanowanego pdf do OCR
Wiadomość wysłana przez: kenpo w 2019-05-24, 14:46:43
Dziękuję  za odpowiedzi. Postanowiłem skorzystać z tesseract. Okazuje się, że ma przydatną funkcję zapisu wyniku działania do pliku tekstowego, dzięki czemu łatwiej dalej pracować z tekstem i przygotować go na przykład do czytania na czytniku.  Polskiego nie sprawdzałem, ale z angielskim radzi sobie całkiem dobrze.

Przy okazji, może się komuś przyda ta informacja: znalazłem przydatny program do dzielenia stron w pdf na dwie:

https://sourceforge.net/projects/briss/

Uruchamia się go poleceniem
java -jar briss-0.9.jar

I jeszcze inny przydatny program Scan Tailor do wyrównania stron poziomo w odniesieniu do tekstu:

https://github.com/scantailor/scantailor/wiki/Deskew

i poradnik:

https://medium.com/@kaerumy/cleaning-up-scanned-documents-with-open-source-tools-9d87e15305b