Autor Wątek: regexp leniwy działający w jednej linii (a nie linia po linii) (Przeczytany 3674 razy)

addos2 · « **dnia:** 2015-10-24, 01:01:33 »

Zawartość 2 plików tekstowych to coś w rodzaju (różnica: w nr 3 zamiast html jest php) :

plik_1

katalog/a1.html     AAAA      katalog/a2.html      AAAA      katalog/a3.html      AAAA      katalog/a4.html      AAAA

plik_2

Kod: [Zaznacz]

katalog/a1.html     AAAA      katalog/a2.html      AAAA      katalog/a3.php       AAAA      katalog/a4.html      AAAA

Ważne jest to, że tekst jest w jednym wierszu, bo jeżeli te 4 wpisy są w osobnych liniach to całość działa poprawnie i nie zakładałbym nowego wątku

Wynik jaki chcę uzyskać ma być taki:

Dla pliku plik_1:

Kod: [Zaznacz]

katalog/a1.html
katalog/a2.html
katalog/a3.html
katalog/a4.html

Dla pliku plik_2:

Kod: [Zaznacz]

katalog/a1.html
katalog/a2.html
katalog/a4.html

Wydawać by sie mogło, że taka mała różnica pomiędzy plikami nie wpłynie na działanie programu grep.... a jednak

Różne kombinacje jakie zastosowałem na tych 2-óch plikach:

Te 3 poniższe:

Kod: [Zaznacz]

$ grep -Eo "katalog.*(html)" plik_1
$ grep -Eo "katalog.*?(html)" plik_1
$ grep -Po "katalog.*(html)" plik_1

dają ten sam niepoprawny efekt, czyli:

Kod: [Zaznacz]

katalog/a1.html     AAAA      katalog/a2.html      AAAA      katalog/a3.html      AAAA      katalog/a4.html

Ten:

Kod: [Zaznacz]

$ grep -Po "katalog.*?(html)" plik_1

daje wynik inny niż te 3 poprzednie:

Kod: [Zaznacz]

katalog/a1.html
katalog/a2.html
katalog/a3.html
katalog/a4.html

... i o to mi właśnie chodziło, czyli ten wynik jest poprawny

Za to w przypadku pliku nr 2 jest już zgrzyt:

Pierwsze 3 polecenia:

Kod: [Zaznacz]

$ grep -Eo "katalog.*(html)" plik_2
$ grep -Eo "katalog.*?(html)" plik_2
$ grep -Po "katalog.*(html)" plik_2

... dają niepoprawny wynik (tego się w sumie spodziewałem):

Kod: [Zaznacz]

katalog/a1.html     AAAA      katalog/a2.html      AAAA      katalog/a3.php      AAAA      katalog/a4.html

Natomiast 4 polecenie:

Kod: [Zaznacz]

$ grep -Po "katalog.*?(html)" plik_2

... ~~z niewiadomych mi względów~~ łączy nr 3 z nr 4:

Kod: [Zaznacz]

katalog/a1.html
katalog/a2.html
katalog/a3.php      AAAA      katalog/a4.html

~~Czy ktoś wiem czemu?~~
Czy ma ktoś pomysł jak uzyskać tutaj wpisy bez tego z rozszerzeniem php? Mam na myśli taki efekt:

Kod: [Zaznacz]

katalog/a1.html
katalog/a2.html
katalog/a4.html

Przypominam: Ważne jest to, że tekst jest w jednym wierszu, bo jeżeli te 4 wpisy są w osobnych liniach to całość działa poprawnie i nie zakładałbym nowego wątku

1709 · « **Odpowiedź #1 dnia:** 2015-10-24, 07:51:06 »

Kod: [Zaznacz]

 grep -Po "katalog.*?(html|php)" 1

Kod: [Zaznacz]

$ grep -Po "katalog.*?(html|php)" 2
katalog/a1.html
katalog/a2.html
katalog/a3.php
katalog/a4.html
[gg@localhost t]$ grep -Po "katalog.*?(html|php)" 1
katalog/a1.html
katalog/a2.html
katalog/a3.html
katalog/a4.html

Może być?
"html|php " to oznacza html albo php.

addos2 · « **Odpowiedź #2 dnia:** 2015-10-24, 10:48:31 »

OK, mój błąd w ostatnim zdaniu zdaniu i pytaniu.
Nie chodziło mi o to czemu to się łączy razem tylko jakim poleceniem uzyskać wszystkie wpisy z rozszerzeniem html, a resztę np. php olać.

Krótko mówiąc: chcę uzyskać wykaz tylko i wyłącznie wszystkiego co ma rozszerzenie html.

Poprawiłem ten niefortunny fragment

1709 · « **Odpowiedź #3 dnia:** 2015-10-24, 12:31:40 »

Możesz zrobić to poprostu tak

Kod: [Zaznacz]

$ grep -Po "katalog.*?(html|php)" 1 | grep html
katalog/a1.html
katalog/a2.html
katalog/a3.html
katalog/a4.html
[gg@localhost t]$ grep -Po "katalog.*?(html|php)" 2 | grep html
katalog/a1.html
katalog/a2.html
katalog/a4.html

Znaczek ten " | grep .... " w tym przypadku to potok czyli przekierowanie do następnej komendy.

Możesz też zrobić tak

Kod: [Zaznacz]

$ grep -Po "katalog.*?(html|php)" 2 | grep -v php
katalog/a1.html
katalog/a2.html
katalog/a4.html

Kod: [Zaznacz]

grep --help
...
 -v, --invert-match        select non-matching lines

"grep -v" zamiast wyszukiwać słowo to wyszukuje wszystko tylko nie te słowo, czyli przeciwieństwo.

Edit:
Jeszcze trochę inaczej

Kod: [Zaznacz]

$ cat 2 | sed -e 's/katalog*/\nkatalog/2g' | cut -d" " -f1 | grep html
katalog/a1.html
katalog/a2.html
katalog/a4.html

sed wstawia nową linię, a cut wyraz odziela " " spacją i pokazuje tylko pierwsze słowo.

addos2 · « **Odpowiedź #4 dnia:** 2015-10-24, 13:06:49 »

Działa ale ..... jak sobie pomyślę ile bym musiał wpisać wszystkich znanych mi rozszerzeń plików żeby odfiltrować tylko html to zgroza

Powyższe html i php to tylko przykłady. W rzeczywistości tych rozszerzeń mam o wiele wiele więcej i nawet nie za bardzo wiem co tam się codziennie może trafić

Dlatego nie mogę tego odfiltrować negacją -v

To musi działać tak:
1. znajdź słowo "katalog"
2. zbieraj kolejne znaki
3. jeżeli po drodze znowu znalazłeś słowo "katalog" - wtedy zapomnij wszystkie znaki jakie zebrałeś i wróć do punktu nr 2
4. jeżeli po drodze znalazłeś słowo "html" - wyświetl wynik, potem wyzeruj zapamiętane znaki, a następnie w tej samej linii będziesz szukał dalej czyli wróć do punktu nr 1
5. i tak aż do końca pliku

Wyobraź sobie taką zawartość:

plik_1

Kod: [Zaznacz]

abc12-abc34-abcde12

plik_2

Kod: [Zaznacz]

abc12-abcde34-abcde12

Wyświetl wszystkie fragmenty zaczynające się od "abc", potem nieważne co jest w środku, a kończy się to "12"
Dla pliku nr 1 działa, ale dla pliku nr 2 już to nie chce działać.

1709 · « **Odpowiedź #5 dnia:** 2015-10-24, 13:12:54 »

I można jeszcze np. tak

Kod: [Zaznacz]

$ cat 2 | tr " " "\n" | grep html
katalog/a1.html
katalog/a2.html
katalog/a4.html

tr zamienia spacje na nowe linie, grep wyszukuje linie zawierające słowo tylko html

Edit:
A co do twojego przykładu w ostatnim poście, zakładając że to podałeś to wyrazy oddzielone spacją,
a nie ciąg znaków to

Kod: [Zaznacz]

$ cat 2 | tr " " "\n" | grep ^abc | grep 12$
abc12-abcde34-abcde12

"^" wyszukuje początek , a "$" wyszukuje koniec.
http://kurslinux.ovh.org/02przeszukiwanie.php

addos2 · « **Odpowiedź #6 dnia:** 2015-10-24, 13:23:02 »

Doceniam ale niektóre fragmenty mają w nazwie spacje więc nie mogę tego zrobić

Ty mi tu nie kombinuj

tylko pomóż mi z tym:

Kod: [Zaznacz]

abc12-abc34-abcde12

Kod: [Zaznacz]

abc12-abcde34-abcde12

bo jak to opanuję to reszta będzie spoko

Aha... żeby cię nie korciło

Te myśliniki to tylko ułatwienie dla oka. Można przyjąć, że nie ma ich i całość w obydwu przypadkach to jeden ciąg znaków

Kod: [Zaznacz]

abc12abc34abcde12

Kod: [Zaznacz]

abc12abcde34abcde12

Teraz nie powinno korcić

1709 · « **Odpowiedź #7 dnia:** 2015-10-24, 14:02:28 »

Zobacz coś takiego

Kod: [Zaznacz]

$ cat 2 
abc12abc34abcde12 abc12abc34abcde12

Kod: [Zaznacz]

$ cat 2 | grep -o 'abc[^12]*12' 
abc12
abc34abcde12
abc12
abc34abcde12

wyszukuje słowa z początkiem abc , i z końcówką 12, ale nie jestem pewien czy idealnie.

addos2 · « **Odpowiedź #8 dnia:** 2015-10-24, 14:23:04 »

No nie bardzo ci to wyszło, bo miało być tylko to, co zaczyna się na "abc" ale jednocześnie nie ma w środku ponownie "abc".
To "abc" może wystąpić tylko na początku frazy ale nie w środku.

To tak jak masz "http://" i ta fraza może wystąpić tylko na początku, prawda?
Nie ma takich adresów jak: "http://cos-tam.pl/http://domena.pl"

A jeżeli masz kilka adresów pod rząd, to wygląda to tak:

Kod: [Zaznacz]

http://domena.pl     http://domena.de    http://domena.pl

// Nie wiem czemu pierwsze http jest zaznaczone innym kolorem //

Przerób mi to polecenie tak, żeby w wyniku dały mi same domeny z końcówką pl:

Kod: [Zaznacz]

echo "http://domena.plhttp://domena.dehttp://domena.pl" | grep -Po "http.*?(pl)"

1709 · « **Odpowiedź #9 dnia:** 2015-10-24, 14:31:25 »

Tak, ale link nie może zawierać spacji, natomiast przed http musi wystąpić spacja
(lub nowa linia),
więc jesli chciałbym wyciągnąć tylko link to użyłbym komendy tr jak wyżej,
chociaż ja przy parsowaniu plików zazwyczaj używam tylko grep i cut.
Poza tym z tego wyniku możesz sobie użyć "grep -v" także.
Moment.

Edit:

Kod: [Zaznacz]

$ echo "http://domena.plhttp://domena.dehttp://domena.pl" | sed -e 's/http\:\/\/*/ http\:\/\//g' | tr " " "\n" | grep .pl$
http://domena.pl
http://domena.pl

Edit:
Poprawiłem komende sed, bo o 1 za dużo dwukropków dałem, a potem jeszcze grep dodałem, bo niechcący usunełem.

Można odrazu dać /n

Kod: [Zaznacz]

$ echo "http://domena.plhttp://domena.dehttp://domena.pl" | sed -e 's/http\:\/\/*/\nhttp\:\/\//g' | grep .pl$
http://domena.pl
http://domena.pl

Sed " sed -e 's/ coś1 / coś2 /g' " zamienia wyżej "http://" na "\n http://" czyli z nową linią,
"*" dałem niepotrzebnie

, i grep pokazuje tylko linie z końcówką ".pl"

Edit:

Kod: [Zaznacz]

$ echo "http://domena.plhttp://domena.dehttp://domena.plhttp://domenahttp.pl" | grep -o 'http://[^pl]*pl' 
http://domena.pl
http://domena.pl

Edit:
No i jeszcze z adresem który twierdzisz że nie istnieje

Kod: [Zaznacz]

$ echo "http://domena.plhttp://domena.dehttp://domena.plhttp://domenahttp.pl http://cos-tam.pl/http://domena.pl" | grep -o 'http://[^pl]*pl' 
http://domena.pl
http://domena.pl
http://cos-tam.pl
http://domena.pl

Paweł Kraszewski · « **Odpowiedź #10 dnia:** 2015-10-24, 15:53:11 »

Strasznie podoba mi się próba zmuszenia GREPa do robienia czegoś, do czego nie został zaprojektowany - do pracy wewnątrz linii tekstu, nie na linii jako całości...

Kod: [Zaznacz]

pawel@i7 ~/Pobrane > cat plik1.txt 
katalog/a1.html     AAAA      katalog/a2.html      AAAA      katalog/a3.html      AAAA      katalog/a4.html      AAAA

pawel@i7 ~/Pobrane > cat plik2.txt 
katalog/a1.html     AAAA      katalog/a2.html      AAAA      katalog/a3.php       AAAA      katalog/a4.html      AAAA

pawel@i7 ~/Pobrane > awk 'BEGIN{RS="[ \t\n]"}/\.html$/{print}' plik1.txt
katalog/a1.html
katalog/a2.html
katalog/a3.html
katalog/a4.html

pawel@i7 ~/Pobrane > awk 'BEGIN{RS="[ \t\n]"}/\.html$/{print}' plik2.txt
katalog/a1.html
katalog/a2.html
katalog/a4.html

Wyjaśnienie:

1. Rozwinięty skrypt AWK:

Kod: [Zaznacz]

BEGIN{
   RS="[ \t\n]"
}

/\.html$/ {
   print
}

AWK ma kilka magicznych zmiennych, wśród nich RS (od Record Separator), która zawiera wyrażenie regularne, które AWK potraktuje właściwie jako znak końca linii.

2. W klauzuli BEGIN, czyli przed analizą pliku ustawiamy RS na regekspa "któraś z białych spacji". Od tego momentu AWK traktuje każde słowo jako osobną linię do analizy.
3. Robimy klauzulę reagującą na regekspa \.html$, czyli to o co chodzi pytającemu. W klauzuli tej po prostu drukujemy pasujące wyrażenie poleceniem print.

Czyli AWK tnie cały tekst na wszelkich białych spacjach na wyrazy i każdy bada regekspem - jak pasuje, to wyświetla na ekranie.

xavery · « **Odpowiedź #11 dnia:** 2015-10-30, 15:31:36 »

Cytat: Paweł Kraszewski w 2015-10-24, 15:53:11

1. Rozwinięty skrypt AWK:
Kod: [Zaznacz]
BEGIN{
   RS="[ \t\n]"
}

/\.html$/ {
   print
}

Trochę za bardzo rozwinięty:)

jak na te dane wejściowe to wystarczy:

Kod: [Zaznacz]


awk '{print $1}'

względnie:

Kod: [Zaznacz]


cut -f1 -d' '

Grepem oczywiście też da się to zrobić ale jak kolega wspomniał - są lepsze narzędzia i warto ich używać. [/code]

Paweł Kraszewski · « **Odpowiedź #12 dnia:** 2015-10-31, 05:39:50 »

Obejrzyj dane na szerszym monitorze

Aktualności:

Linux.pl »

Nowe posty

Autor Wątek: regexp leniwy działający w jednej linii (a nie linia po linii) (Przeczytany 3674 razy)

addos2

regexp leniwy działający w jednej linii (a nie linia po linii)

1709

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

addos2

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

1709

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

addos2

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

1709

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

addos2

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

1709

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

addos2

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

1709

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

Paweł Kraszewski

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

xavery

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)

Paweł Kraszewski

Odp: regexp leniwy działający w jednej linii (a nie linia po linii)