Nowe posty

xx Dystrybucja pod HP Omen (6)
2024-03-27, 23:30:08
xx [Poradnik] Wyszukiwanie Sterowników (2)
2024-03-27, 21:08:23
lamp Problem z Linux Lite po instalacji (0)
2024-03-27, 19:50:30
xx Ile pingwinów? (1)
2024-03-27, 08:59:24
xx konfiguracja pale moon (0)
2024-03-24, 21:53:42
xx Plasma 6 w Neonie ssie trochę mniej ... (10)
2024-03-23, 02:38:11
xx problem z instalacja sterowników do karty sieciowej (3)
2024-03-18, 18:10:16
xx Plik abc.001 (1)
2024-03-17, 17:48:27
xx Zlecę dopracowanie programu w MatLab (0)
2024-03-13, 15:28:40
xx Linux Mint 21.3 XFCE brak dźwieku po paru minutach (karta muzyczna zintegrowana) (5)
2024-03-12, 23:07:01

Autor Wątek: RANKING charachter sets!!! Wyniki.  (Przeczytany 1058 razy)

Filystyn

  • Gość
RANKING charachter sets!!! Wyniki.
« dnia: 2015-04-29, 21:46:10 »
Wszyscy na pewno wiemy, że poza UTF8 istnieje bogaty świat innych char setów. Niekoniecznie słusznie zapomnianych.

poznajmy FAJNĄ komendę:
iconv -l

Ojej co się stało??? Wyrzuciła mi bujną ilość char setów w sumie 1168. Dużo napracowania. Czemu do tej pory o tym nie wiedziałem mimo sugestii zawartej na początku wątku?
Oto lista naszych twardzieli:
http://paste.ubuntu.com/10943982/

Postanowiłem, że napisze krótki kodzik który pozamienia mi utf8 na te char sety i zrobi się porównanie. Oto kod programu:

http://paste.ubuntu.com/10943962/

Hurra, działa!!!!

a tu wyniki:
http://paste.ubuntu.com/10943965/

Zauważyłem pewną zależność. Że istnieje całkiem spora grupa odstępców których literki nie przebiegają standardowo. Najwyraźniej miała w przeszłości miejsce jakaś zażarta batalia.
Standardowo: a = 97 A = 65 b = 98 B = 66
typowy odstępca: a = -127 A = -63 b = -126 B = -62

Odstępców jest 334 czyli prawie 1/3. Ich lista:
http://paste.ubuntu.com/10943876/

Mamy zarys wielkiej wojny  EBCDIC kontra  ASCII.

Wygrało lepiej przemyślane ASCII gdzie małe i duże litery możemy zmieniać stosując bit maskę!
Sponiewierane EBCDIC odeszło w niebyt.
IBM na kolanach uciekło z podkulonym ogonem.
Lepsza technologia wyparła gorszą.

Jakże różnorodne to były czasy. Zupełnie nieporównywalne do naszej szarej codzienności UTF8.

Offline Paweł Kraszewski

  • Administrator
  • Guru
  • *****
  • Wiadomości: 3049
  • Lenistwo jest matką potrzeby = babcią wynalazku
    • Zobacz profil
RANKING charachter sets!!! Wyniki.
« Odpowiedź #1 dnia: 2015-04-29, 22:20:25 »
1. Wiele charsetów ma więcej niż jedną nazwę. Na przykład 8859_2 = ISO-8859-2 = ISO8859-2 = ISO88592 = ISO_8859-2 = Latin2

2. Kodowanie znaków zwyczajowo przyjęte jest jako unsigned, więc nie będzie tam liczb ujemnych. To, że char w C/C++ implementowany jest na ogół jako signed (bo standard zostawia tu wolną rękę developerom) nie ma znaczenia.

3. Pij mniej kawy.
Paweł Kraszewski
~Arch/Void/Gentoo/FreeBSD/OpenBSD/Specjalizowane customy