Nowe posty

xx Fedora xfce i flatpak oraz snap (1)
Dzisiaj o 06:59:46
xx Strona o testach penetracyjnych, hackingu (34)
2022-05-25, 11:40:38
xx Repozytorium z czcionkami M$ (2)
2022-05-24, 17:58:30
xx Pomoc w wyborze środowiska graficznego (11)
2022-05-23, 22:41:56
xx Usunąłem przez przypadek /bin co zrobić? (2)
2022-05-23, 21:36:24
xx Obrócony obraz lubuntu, xubuntu na lenovo Miix 320 (6)
2022-05-23, 11:56:25
xx Pierwsze kroki w Arch (9)
2022-05-22, 23:39:51
xx DBus (0)
2022-05-22, 12:47:35
xx Przedni panel (1)
2022-05-20, 01:34:35
xx Modem Medion S4222 jak zainstalować aplikację do jego obsługi? (52)
2022-05-18, 10:14:49

Autor Wątek: [ROZWIĄZANY] przygotowanie zeskanowanego pdf do OCR  (Przeczytany 1628 razy)

Offline kenpo

  • Users
  • Stały bywalec
  • ***
  • Wiadomości: 210
    • Zobacz profil
[ROZWIĄZANY] przygotowanie zeskanowanego pdf do OCR
« dnia: 2019-05-21, 17:45:35 »
Czy da się narzędziami linuksowymi przygotować zeskanowany pdf do OCR, czyli wzmocnić czerń czcionki, zrobić większy kontrast? O ile oczywiście takie działania mają sens, bo nie znam się na OCR.

Oczywiście najlepiej byłoby, gdyby to można było zrobić automatycznie dla całego pdf, a nie strona po stronie.

Do samego OCR będę używał na wine PDF-XChange Editor. Co ciekawe on ma opcję Konwertowanie → Ulepsz zeskanowane strony, ale w darmowej wersji dodaje znak wodny, czego wolę uniknąć.
« Ostatnia zmiana: 2019-05-24, 14:47:06 wysłana przez kenpo »

Offline pavbaranov

  • Users
  • Guru
  • *****
  • Wiadomości: 835
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #1 dnia: 2019-05-21, 18:06:04 »
Zanim się zaczniesz bawić - po prostu wrzuć i sprawdź co rozpozna, bowiem tego typu rzeczy (kontrast, czerń itp.) będą miały być może znaczenie, ale wyłącznie przy tekstach, gdzie praktycznie jest "szare na szarym" :)
Chcesz mieć lepszy skan dla OCR, to - wg mnie - pobaw się przy samym skanowaniu (jeśli możesz), tak by wyszedł on lepszy.

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file

Offline mackeire

  • Users
  • Prawie jak Guru
  • ****
  • Wiadomości: 434
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #2 dnia: 2019-05-21, 19:32:13 »
Linuxowy, darmowy  Master PDF Editor do wersji 4.3.89 nie dodaje znaku wodnego i posiada funkcję OCR i inne bajery .
https://code-industry.net/masterpdfeditor-help/ocr-pdf/

Offline kenpo

  • Users
  • Stały bywalec
  • ***
  • Wiadomości: 210
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #3 dnia: 2019-05-21, 20:36:07 »

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file
O, dzięki. XnConvert świetnie sobie radzi z różnymi operacjami na pdf zrobionym ze skanu.

Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.

Może ktoś już wykonywał podobne zadanie i ma doświadczenie.

Oczywiście sam też popróbuję i poszukam w wyszukiwarce w międzyczasie.
@mackeire
Dzięki. OCR ma też oparty na tesseract, ale ma dodatkowe przydatne funkcje.
« Ostatnia zmiana: 2019-06-16, 15:36:09 wysłana przez kenpo »

Offline pavbaranov

  • Users
  • Guru
  • *****
  • Wiadomości: 835
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #4 dnia: 2019-05-21, 20:52:53 »
Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.
Może ktoś już wykonywał podobne zadanie i ma doświadczenie.
Powiem tak. Doświadczenie - niewielkie - mam. Jako OCR używałem tesseract bo to jedyne, obecnie działające narzędzie typu OCR, które oferuje jakieś wsparcie dla j.pol. Nakładka graficzna - dla łatwej obsługi tego silnika - gImageReader. Jak do tej pory sama jakość poprawnie zeskanowanego (albo po prostu w formie graficznego pliku) tekstu nie była problemem.
Zatem - sugerowałbym wpierw wypróbować, a dopiero potem martwić się, gdy coś nie będzie działać poprawnie.

Offline mackeire

  • Users
  • Prawie jak Guru
  • ****
  • Wiadomości: 434
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #5 dnia: 2019-05-21, 21:48:56 »
W tym podanym przez ciebie linku do pomocy programu nie ma tych funkcji, o których pisałem, a które są dostępne w płatnej wersji. Nie chodzi o samo OCR, tylko o to co napisałem: Konwertowanie → Ulepsz zeskanowane strony.

Co to znaczy 'ulepsz'  ?  To dosyć mało obiektywne określenie :)
 Kontrast można ustawić .
Cytuj
After pressing Scan button you will see Scanning with WIA <Scanner title> dialog window, where you can choose kind of scanned image. Then press View button and select scanned zone. You can also set quality of the scanned image (Additional properties):

    Brightness.
    Contrast.
    Resolution (DPI).
    Image kind.

Offline kenpo

  • Users
  • Stały bywalec
  • ***
  • Wiadomości: 210
    • Zobacz profil
Odp: przygotowanie zeskanowanego pdf do OCR
« Odpowiedź #6 dnia: 2019-05-24, 14:46:43 »
Dziękuję  za odpowiedzi. Postanowiłem skorzystać z tesseract. Okazuje się, że ma przydatną funkcję zapisu wyniku działania do pliku tekstowego, dzięki czemu łatwiej dalej pracować z tekstem i przygotować go na przykład do czytania na czytniku.  Polskiego nie sprawdzałem, ale z angielskim radzi sobie całkiem dobrze.

Przy okazji, może się komuś przyda ta informacja: znalazłem przydatny program do dzielenia stron w pdf na dwie:

https://sourceforge.net/projects/briss/

Uruchamia się go poleceniem
java -jar briss-0.9.jar

I jeszcze inny przydatny program Scan Tailor do wyrównania stron poziomo w odniesieniu do tekstu:

https://github.com/scantailor/scantailor/wiki/Deskew

i poradnik:

https://medium.com/@kaerumy/cleaning-up-scanned-documents-with-open-source-tools-9d87e15305b
« Ostatnia zmiana: 2019-05-24, 18:50:29 wysłana przez kenpo »