×
Vytvárame riešenia

Zabudnite na znakovú sadu Windows-1250, je tu UTF-8

Nie je tak dávno, čo všade kde som pozrel, bola uvádzaná znaková sada pre slovenské prostredie windows-1250, prípadne cp-1250, iso-8859-1, iso-8859-2 a ďalšie. Tento jav bol vo všetkej dostupnej odbornej literatúre, ktorá bola na slovenskom a českom trhu dostupná, ako aj na fórach a blogoch o programovaní. Pred približne tromi rokmi som prvý krát zistil, že niečo nie je asi v poriadku. Bolo to v momente, keď mi HTML Validátor, konkrétne W3C Markup Validation Service, začal komentovať XML deklaráciu so znakovou sadou windows-1250 a nahradzovať ju za UTF-8.
Znaková sada windows-1250 pritom bola uvádzaná v rámci rôznych programovacích jazykov od HTML, cez PHP až po SQL. S týmto javom sa stretávam ešte aj dnes. Dôvodom používania rôznych druhov znakových sád bolo zabezpečiť podporu zobrazovania znakov národných abecied. To už v súčasnosti nie je nutné, keďže tieto "sub znakové sady" sú už obsiahnuté v UTF-8. Ak používateľ definuje len určitú "sub sadu", dostáva sa do problémov, kedy nie je možné použiť znaky iných abecied. V prípade použitia znakovej sady windows-1250 by napríklad vznikli problémy pri spracovaní niektorých znakov nemeckej abecedy. Podobné problémy by vznikli pri ruštine, kórejčine, japončine, čínštine či arabčine. Zoznam podporovaných jazykov UTF-8 je uvedený na stránkach Unicode.
Príklad: Súčasné inštrukcie môjho poskytovateľa webhostingu.
1
2
3
4
mysql_connect('localhost',DB_USERNAME,DB_PASSWORD);
mysql_select_db(DB_NAME);
mysql_query('SET NAMES CP1250');
mysql_query('SET COLLATION_CONNECTION=CP1250_GENERAL_CI');
Príklad: RSS tutoriál na http://www.w3schools.com/rss/default.asp.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
<?xml version="1.0" encoding="ISO-8859-1" ?>
<rss version="2.0">
<channel>
<title>W3Schools Home Page</title>
<link>http://www.w3schools.com</link>
<description>Free web building tutorials</description>
<item>
<title>RSS Tutorial</title>
<link>http://www.w3schools.com/rss</link>
<description>New RSS tutorial on W3Schools</description>
</item>
<item>
<title>XML Tutorial</title>
<link>http://www.w3schools.com/xml</link>
<description>New XML tutorial on W3Schools</description>
</item>
</channel>
</rss>

Záver

Keďže je v súčasnosti na slovenskom trhu nedostatok kvalitnej aktuálnej odbornej literatúry a tá čo výchádza je zväčša už niekoľko rokov stará, chcem mladých vývojárov upozorniť, aby začali používať znakovú sadu UTF-8 namiesto doteraz zaužívaných sád windows-1250, cp-1250, iso-8859-1 a iso-8859-2. Vďaka tomu predídu do budúcna problémom pri práci s dokumentmi, najmä ak bude potrebné kombinovať viacjazyčné prostredie, čo v súčasnej situácii, keď sa veľmi často pracuje na rôznych medzinárodných projektoch, nie je nič neobvyklé.
Autor: Matej Lednár
Dátum: 7.12.2012
Kategória: Programovanie
Značky: html, sql, xml, php, programovanie, xhtml, utf-8, unicode


Programovanie,HTML,SQL,XML,PHP,programovanie,XHTML,utf-8,unicode
Žiadna časť tohto článku nesmie byť reprodukovaná bez uvedenia autora a URL na túto stránku.
Viac informácií nájdete v sekcii O projekte.

Komentáre

Článok neobsahuje zatiaľ žiadne komentáre.

Pridať komentár

Meno (povinné)
Web
Správa (povinné)
Odoslať
Od najnovších