Forum Linux.pl
Oprogramowanie => Inne => Wątek zaczęty przez: kenpo w 2019-05-21, 17:45:35
-
Czy da się narzędziami linuksowymi przygotować zeskanowany pdf do OCR, czyli wzmocnić czerń czcionki, zrobić większy kontrast? O ile oczywiście takie działania mają sens, bo nie znam się na OCR.
Oczywiście najlepiej byłoby, gdyby to można było zrobić automatycznie dla całego pdf, a nie strona po stronie.
Do samego OCR będę używał na wine PDF-XChange Editor. Co ciekawe on ma opcję Konwertowanie → Ulepsz zeskanowane strony, ale w darmowej wersji dodaje znak wodny, czego wolę uniknąć.
-
Zanim się zaczniesz bawić - po prostu wrzuć i sprawdź co rozpozna, bowiem tego typu rzeczy (kontrast, czerń itp.) będą miały być może znaczenie, ale wyłącznie przy tekstach, gdzie praktycznie jest "szare na szarym" :)
Chcesz mieć lepszy skan dla OCR, to - wg mnie - pobaw się przy samym skanowaniu (jeśli możesz), tak by wyszedł on lepszy.
Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file (https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file)
-
Linuxowy, darmowy Master PDF Editor do wersji 4.3.89 nie dodaje znaku wodnego i posiada funkcję OCR i inne bajery .
https://code-industry.net/masterpdfeditor-help/ocr-pdf/
-
Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file (https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file)
O, dzięki. XnConvert świetnie sobie radzi z różnymi operacjami na pdf zrobionym ze skanu.
Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.
Może ktoś już wykonywał podobne zadanie i ma doświadczenie.
Oczywiście sam też popróbuję i poszukam w wyszukiwarce w międzyczasie.
@mackeire
Dzięki. OCR ma też oparty na tesseract, ale ma dodatkowe przydatne funkcje.
-
Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.
Może ktoś już wykonywał podobne zadanie i ma doświadczenie.
Powiem tak. Doświadczenie - niewielkie - mam. Jako OCR używałem tesseract bo to jedyne, obecnie działające narzędzie typu OCR, które oferuje jakieś wsparcie dla j.pol. Nakładka graficzna - dla łatwej obsługi tego silnika - gImageReader. Jak do tej pory sama jakość poprawnie zeskanowanego (albo po prostu w formie graficznego pliku) tekstu nie była problemem.
Zatem - sugerowałbym wpierw wypróbować, a dopiero potem martwić się, gdy coś nie będzie działać poprawnie.
-
W tym podanym przez ciebie linku do pomocy programu nie ma tych funkcji, o których pisałem, a które są dostępne w płatnej wersji. Nie chodzi o samo OCR, tylko o to co napisałem: Konwertowanie → Ulepsz zeskanowane strony.
Co to znaczy 'ulepsz' ? To dosyć mało obiektywne określenie :)
Kontrast można ustawić .
After pressing Scan button you will see Scanning with WIA <Scanner title> dialog window, where you can choose kind of scanned image. Then press View button and select scanned zone. You can also set quality of the scanned image (Additional properties):
Brightness.
Contrast.
Resolution (DPI).
Image kind.
-
Dziękuję za odpowiedzi. Postanowiłem skorzystać z tesseract. Okazuje się, że ma przydatną funkcję zapisu wyniku działania do pliku tekstowego, dzięki czemu łatwiej dalej pracować z tekstem i przygotować go na przykład do czytania na czytniku. Polskiego nie sprawdzałem, ale z angielskim radzi sobie całkiem dobrze.
Przy okazji, może się komuś przyda ta informacja: znalazłem przydatny program do dzielenia stron w pdf na dwie:
https://sourceforge.net/projects/briss/
Uruchamia się go poleceniem
I jeszcze inny przydatny program Scan Tailor do wyrównania stron poziomo w odniesieniu do tekstu:
https://github.com/scantailor/scantailor/wiki/Deskew
i poradnik:
https://medium.com/@kaerumy/cleaning-up-scanned-documents-with-open-source-tools-9d87e15305b