Nowe posty

Ostatnie wiadomości

Strony: [1] 2 3 ... 10
1
Inne / Odp: przygotowanie zeskanowanego pdf do OCR
« Ostatnia wiadomość wysłana przez kenpo dnia Wczoraj o 14:46:43 »
Dziękuję  za odpowiedzi. Postanowiłem skorzystać z tesseract. Okazuje się, że ma przydatną funkcję zapisu wyniku działania do pliku tekstowego, dzięki czemu łatwiej dalej pracować z tekstem i przygotować go na przykład do czytania na czytniku.  Polskiego nie sprawdzałem, ale z angielskim radzi sobie całkiem dobrze.

Przy okazji, może się komuś przyda ta informacja: znalazłem przydatny program do dzielenia stron w pdf na dwie:

https://sourceforge.net/projects/briss/

Uruchamia się go poleceniem
java -jar briss-0.9.jar

I jeszcze inny przydatny program Scan Tailor do wyrównania stron poziomo w odniesieniu do tekstu:

https://github.com/scantailor/scantailor/wiki/Deskew

i poradnik:

https://medium.com/@kaerumy/cleaning-up-scanned-documents-with-open-source-tools-9d87e15305b
2
Tips & Tricks / Odp: Przydatne Linki
« Ostatnia wiadomość wysłana przez 1709 dnia 2019-05-23, 18:05:04 »
Zbiór linków odnośnie programowania:
https://github.com/EbookFoundation/free-programming-books/blob/master/free-programming-books.md#graphics-programming

Jak sie wskoczy poziom "wyzej" w linku mozna znalesc plik "free-courses-pl.md"
co po otwarciu daje odnosniki w jezyku Polskim.
https://github.com/EbookFoundation/free-programming-books/blob/master/free-courses-pl.md
3
Inne urządzenia / Odp: Touchpad po pewnym losowym czasie przestaje reagować
« Ostatnia wiadomość wysłana przez mackeire dnia 2019-05-22, 11:52:18 »
Na wspomnianym wyżej  lenovo 100s postawiłem Neona KDE i po prostu działa. Domyślnie uruchamia x ale można ustawić na waylanda.  Po uruchomieniu zajmuje ok 350mb RAM. Dlaczego Neon a nie Kubuntu ? Bo Neon ma zawsze najnowszą Plasmę 5 i oprogramowanie od KDE ,a siedzi na stabilnym ubu 18.04 lte . Poza tym po instalacji ma kilka programów na krzyż zamiast kupy crapware (akonadi , itd...) w Kubuntu.
4
Inne urządzenia / Odp: Touchpad po pewnym losowym czasie przestaje reagować
« Ostatnia wiadomość wysłana przez Kacper dnia 2019-05-22, 10:05:22 »
Lubuntu w pełni jeszcze nie obsługuje Waylanda (LXQt)
Są jakieś inne lekkie DE lub WM które mają pełną obsługę Waylanda, KDE raczej odpada bo by ten 2 watowy procesor by nie uciągnął tego.
5
Inne / Odp: przygotowanie zeskanowanego pdf do OCR
« Ostatnia wiadomość wysłana przez mackeire dnia 2019-05-21, 21:48:56 »
W tym podanym przez ciebie linku do pomocy programu nie ma tych funkcji, o których pisałem, a które są dostępne w płatnej wersji. Nie chodzi o samo OCR, tylko o to co napisałem: Konwertowanie → Ulepsz zeskanowane strony.

Co to znaczy 'ulepsz'  ?  To dosyć mało obiektywne określenie :)
 Kontrast można ustawić .
Cytuj
After pressing Scan button you will see Scanning with WIA <Scanner title> dialog window, where you can choose kind of scanned image. Then press View button and select scanned zone. You can also set quality of the scanned image (Additional properties):

    Brightness.
    Contrast.
    Resolution (DPI).
    Image kind.
6
Inne / Odp: przygotowanie zeskanowanego pdf do OCR
« Ostatnia wiadomość wysłana przez pavbaranov dnia 2019-05-21, 20:52:53 »
Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.
Może ktoś już wykonywał podobne zadanie i ma doświadczenie.
Powiem tak. Doświadczenie - niewielkie - mam. Jako OCR używałem tesseract bo to jedyne, obecnie działające narzędzie typu OCR, które oferuje jakieś wsparcie dla j.pol. Nakładka graficzna - dla łatwej obsługi tego silnika - gImageReader. Jak do tej pory sama jakość poprawnie zeskanowanego (albo po prostu w formie graficznego pliku) tekstu nie była problemem.
Zatem - sugerowałbym wpierw wypróbować, a dopiero potem martwić się, gdy coś nie będzie działać poprawnie.
7
Inne / Odp: przygotowanie zeskanowanego pdf do OCR
« Ostatnia wiadomość wysłana przez kenpo dnia 2019-05-21, 20:36:07 »

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file
O, dzięki. XnConvert świetnie sobie radzi z różnymi operacjami na pdf zrobionym ze skanu.

Tylko przydałaby się jeszcze podpowiedź jakich ustawień i wartości dla obrazu użyć. Kompletnie się nie znam na pracy z obrazem.

Może ktoś już wykonywał podobne zadanie i ma doświadczenie.

Oczywiście sam też popróbuję i poszukam w wyszukiwarce w międzyczasie.

Linuxowy, darmowy  Master PDF Editor do wersji 4.3.89 nie dodaje znaku wodnego i posiada funkcję OCR i inne bajery .
https://code-industry.net/masterpdfeditor-help/ocr-pdf/
W tym podanym przez ciebie linku do pomocy programu nie ma tych funkcji, o których pisałem, a które są dostępne w płatnej wersji. Nie chodzi o samo OCR, tylko o to co napisałem: Konwertowanie → Ulepsz zeskanowane strony.
8
Inne / Odp: przygotowanie zeskanowanego pdf do OCR
« Ostatnia wiadomość wysłana przez mackeire dnia 2019-05-21, 19:32:13 »
Linuxowy, darmowy  Master PDF Editor do wersji 4.3.89 nie dodaje znaku wodnego i posiada funkcję OCR i inne bajery .
https://code-industry.net/masterpdfeditor-help/ocr-pdf/
9
Inne / Odp: przygotowanie zeskanowanego pdf do OCR
« Ostatnia wiadomość wysłana przez pavbaranov dnia 2019-05-21, 18:06:04 »
Zanim się zaczniesz bawić - po prostu wrzuć i sprawdź co rozpozna, bowiem tego typu rzeczy (kontrast, czerń itp.) będą miały być może znaczenie, ale wyłącznie przy tekstach, gdzie praktycznie jest "szare na szarym" :)
Chcesz mieć lepszy skan dla OCR, to - wg mnie - pobaw się przy samym skanowaniu (jeśli możesz), tak by wyszedł on lepszy.

Niemniej jednak zerknij na tę podpowiedź: https://softwarerecs.stackexchange.com/questions/20865/tool-to-sharpen-contrast-a-pdf-image-file
10
Inne / [ROZWIĄZANY] przygotowanie zeskanowanego pdf do OCR
« Ostatnia wiadomość wysłana przez kenpo dnia 2019-05-21, 17:45:35 »
Czy da się narzędziami linuksowymi przygotować zeskanowany pdf do OCR, czyli wzmocnić czerń czcionki, zrobić większy kontrast? O ile oczywiście takie działania mają sens, bo nie znam się na OCR.

Oczywiście najlepiej byłoby, gdyby to można było zrobić automatycznie dla całego pdf, a nie strona po stronie.

Do samego OCR będę używał na wine PDF-XChange Editor. Co ciekawe on ma opcję Konwertowanie → Ulepsz zeskanowane strony, ale w darmowej wersji dodaje znak wodny, czego wolę uniknąć.
Strony: [1] 2 3 ... 10