četrtek, 28. oktober 2010

ASCII, Win - 1250 in UTF - 8

ASCII (kratica za angleško American Standard Code for Information Interchange) je ameriški standardni nabor za izmenjavo informacij. Je 7-bitni nabor znakov; obsega 27=128 znakov. ASCII kode predstavljajo tekst v računalnikih, komunikacijskih opremah in v drugih napravah katere uporabljajo tekst.
Znaki s kodami od 0 do 31 so kontrolni znaki, znaki od 32 do 126 pa so izpisljivi, glej tabelo spodaj:
ASCII tabela nima šumnikov in moje ime David Udovč bi izpisalo kot David UdovÄ� in v dvojiški kodi:
01000100 01100001 01110110 01101001 01100100 00100000 01010101 01100100 01101111 01110110 11000100 10001101.

Win - 1250 oziroma windows 1250 je kodna stran uporabljena od Microsofta Windowsa za predstavljanje teksta v osrednjih in vzhodnih evropskih jezikih, ki uporabljajo latinsko skripto, kot so poljski, češki, slovaški, madžarski, slovenski, bosanski, hrvaški, srbski, romunski in albanski jezik. Za razliko od ASCII tabele Win - 1250 ima šumnike.



Za pretvorbo v binarno oz. dvojiško kodo sledimo naslednji povezavi http://easycalculation.com/hex-converter.php in v okenček kjer piše Insert HEX Value vpišemo številko v stolpcu hexadecimal za katero črko želimo dvojiško kodo. Za David Udovč bom vzel prvo črko D za katero številka je 44, jo vpisal v polje in prekopiral številke, kjer piše binary. Primer:
Torej David Udovč v dvojiški kodi izgleda tako: 01000100 01100001 01110110 01101001 01100100 01010101 01100100 01101111 01110110 11101000.

UTF-8 je eden izmed načinov kodiranja mednarodnega nabora znakov unicode, pri katerem znaki ASCII ostanejo enozložni, ostali znaki pa lahko zasedajo več zlogov. Ta način kodiranja ima tudi šumnike.
Primer: Za črko a imamo enozložno dvojiško kodo, za črko č pa dvozložno 11000100 10001101. Pri Windows - 1250 smo imeli za črko č samo enozložno dvojiško kodo 11101000.

Za izpis v dvojiško kodo odpremo povezavo http://www.utf8-chartable.de/ in v prvi tabeli v peti vrstici, kjer piše display format for UTF-8 encoding izberemo binary. Nato pa izberemo željeno črko oz. številko in prepišemo osem številk, ki so poleg.

Primer David Udovč v dvojiški kodi pri UTF-8: 01000100 01100001 01110110 01101001 01100100 01010101 01100100 01101111 01110110 11000100 10001101. 

Spletne strani uporabljajo več ali manj UTF-8 način kodiranja. Za pogled, katerega uporablja, pa odpremo poljubno spletno stran, kliknemo z desno tipko miške in kliknemo View Page Source. Odpre se nam okno in nam pokaže kateri način kodiranja uporablja (<meta http-equiv="Content-Type" content="text/html; charset=utf-8">). 

Jaz sem izbral Google za spletno stran. Z desnim klikom miške v Googl-u izberemo Pokaži izvorno kodo strani,


kjer se nam odpre okno Izvorna koda strani: http://www.google.si/ in lahko vidimo katero kodiranje uporablja spletna stran Google. V tem primeru je to UTF-8.


S spreminjanjem kodiranja lahko vidimo kake znake uporabljajo drugi načini kodiranja. To storimo tako, da v orodni vrstici internetnega brskalnika (v mojem primeru je to Mozilla Firefox) izberemo Pogled, Kodiranje znakov, Več naborov in potem enega izmed danih naborov (npr.: Vzhodnoevropsko).



Tukaj je nekaj primerov: 

Zahodno (MacRoman)
Hebrejsko (MacHebrew)
Tajsko (Windows - 874)
Unicode (UTF - 8)
Kot lahko vidite, so šumniki in nekateri znaki v Zahodnem, Hebrejskem, Tajskem in seveda drugih kodiranjih zapisani drugače, kot v kodi Unicode.

Brskalnik deluje z unikodo - ko so znaki vtipkani, so interno shranjeni kot unikoda. Ko je predložen obrazec, se pretvori iz operacijske kode, v kodo zahtevanega od serverja in nato pošlje pretvorjen tekst.

Ni komentarjev:

Objavite komentar