Autor Wątek: [ROZWIĄZANY] przygotowanie zeskanowanego pdf do OCR (Przeczytany 2599 razy)

kenpo · « **dnia:** 2019-05-21, 17:45:35 »

Czy da się narzędziami linuksowymi przygotować zeskanowany pdf do OCR, czyli wzmocnić czerń czcionki, zrobić większy kontrast? O ile oczywiście takie działania mają sens, bo nie znam się na OCR.

Oczywiście najlepiej byłoby, gdyby to można było zrobić automatycznie dla całego pdf, a nie strona po stronie.

Do samego OCR będę używał na wine PDF-XChange Editor. Co ciekawe on ma opcję Konwertowanie → Ulepsz zeskanowane strony, ale w darmowej wersji dodaje znak wodny, czego wolę uniknąć.

pavbaranov · « **Odpowiedź #1 dnia:** 2019-05-21, 18:06:04 »

Zanim się zaczniesz bawić - po prostu wrzuć i sprawdź co rozpozna, bowiem tego typu rzeczy (kontrast, czerń itp.) będą miały być może znaczenie, ale wyłącznie przy tekstach, gdzie praktycznie jest "szare na szarym"

Chcesz mieć lepszy skan dla OCR, to - wg mnie - pobaw się przy samym skanowaniu (jeśli możesz), tak by wyszedł on lepszy.

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file

mackeire · « **Odpowiedź #2 dnia:** 2019-05-21, 19:32:13 »

Linuxowy, darmowy Master PDF Editor do wersji 4.3.89 nie dodaje znaku wodnego i posiada funkcję OCR i inne bajery .
https://code-industry.net/masterpdfeditor-help/ocr-pdf/

kenpo · « **Odpowiedź #3 dnia:** 2019-05-21, 20:36:07 »

Cytat: pavbaranov w 2019-05-21, 18:06:04

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file

O, dzięki. XnConvert świetnie sobie radzi z różnymi operacjami na pdf zrobionym ze skanu.

Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.

Może ktoś już wykonywał podobne zadanie i ma doświadczenie.

Oczywiście sam też popróbuję i poszukam w wyszukiwarce w międzyczasie.
@mackeire
Dzięki. OCR ma też oparty na tesseract, ale ma dodatkowe przydatne funkcje.

pavbaranov · « **Odpowiedź #4 dnia:** 2019-05-21, 20:52:53 »

Cytat: kenpo w 2019-05-21, 20:36:07

Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.
Może ktoś już wykonywał podobne zadanie i ma doświadczenie.

Powiem tak. Doświadczenie - niewielkie - mam. Jako OCR używałem tesseract bo to jedyne, obecnie działające narzędzie typu OCR, które oferuje jakieś wsparcie dla j.pol. Nakładka graficzna - dla łatwej obsługi tego silnika - gImageReader. Jak do tej pory sama jakość poprawnie zeskanowanego (albo po prostu w formie graficznego pliku) tekstu nie była problemem.
Zatem - sugerowałbym wpierw wypróbować, a dopiero potem martwić się, gdy coś nie będzie działać poprawnie.

mackeire · « **Odpowiedź #5 dnia:** 2019-05-21, 21:48:56 »

Cytat: kenpo w 2019-05-21, 20:36:07

W tym podanym przez ciebie linku do pomocy programu nie ma tych funkcji, o których pisałem, a które są dostępne w płatnej wersji. Nie chodzi o samo OCR, tylko o to co napisałem: Konwertowanie → Ulepsz zeskanowane strony.

Co to znaczy 'ulepsz' ? To dosyć mało obiektywne określenie

Kontrast można ustawić .

Cytuj

After pressing Scan button you will see Scanning with WIA <Scanner title> dialog window, where you can choose kind of scanned image. Then press View button and select scanned zone. You can also set quality of the scanned image (Additional properties):

Brightness.
Contrast.
Resolution (DPI).
Image kind.

kenpo · « **Odpowiedź #6 dnia:** 2019-05-24, 14:46:43 »

Dziękuję za odpowiedzi. Postanowiłem skorzystać z tesseract. Okazuje się, że ma przydatną funkcję zapisu wyniku działania do pliku tekstowego, dzięki czemu łatwiej dalej pracować z tekstem i przygotować go na przykład do czytania na czytniku. Polskiego nie sprawdzałem, ale z angielskim radzi sobie całkiem dobrze.

Przy okazji, może się komuś przyda ta informacja: znalazłem przydatny program do dzielenia stron w pdf na dwie:

https://sourceforge.net/projects/briss/

Uruchamia się go poleceniem

Kod: [Zaznacz]

java -jar briss-0.9.jar

I jeszcze inny przydatny program Scan Tailor do wyrównania stron poziomo w odniesieniu do tekstu:

https://github.com/scantailor/scantailor/wiki/Deskew

i poradnik:

https://medium.com/@kaerumy/cleaning-up-scanned-documents-with-open-source-tools-9d87e15305b

Aktualności:

Linux.pl »

Nowe posty

Autor Wątek: [ROZWIĄZANY] przygotowanie zeskanowanego pdf do OCR (Przeczytany 2599 razy)

kenpo

[ROZWIĄZANY] przygotowanie zeskanowanego pdf do OCR

pavbaranov

Odp: przygotowanie zeskanowanego pdf do OCR

mackeire

Odp: przygotowanie zeskanowanego pdf do OCR

kenpo

Odp: przygotowanie zeskanowanego pdf do OCR

pavbaranov

Odp: przygotowanie zeskanowanego pdf do OCR

mackeire

Odp: przygotowanie zeskanowanego pdf do OCR

kenpo

Odp: przygotowanie zeskanowanego pdf do OCR