×
Creating solutions

Zabudnite na znakovú sadu Windows-1250, je tu UTF-8

Nie je tak dávno, čo všade kde som pozrel, bola uvádzaná znaková sada pre slovenské prostredie windows-1250, prípadne cp-1250, iso-8859-1, iso-8859-2 a ďalšie. Tento jav bol vo všetkej dostupnej odbornej literatúre, ktorá bola na slovenskom a českom trhu dostupná, ako aj na fórach a blogoch o programovaní. Pred približne tromi rokmi som prvý krát zistil, že niečo nie je asi v poriadku. Bolo to v momente, keď mi HTML Validátor, konkrétne W3C Markup Validation Service, začal komentovať XML deklaráciu so znakovou sadou windows-1250 a nahradzovať ju za UTF-8.
Znaková sada windows-1250 pritom bola uvádzaná v rámci rôznych programovacích jazykov od HTML, cez PHP až po SQL. S týmto javom sa stretávam ešte aj dnes. Dôvodom používania rôznych druhov znakových sád bolo zabezpečiť podporu zobrazovania znakov národných abecied. To už v súčasnosti nie je nutné, keďže tieto "sub znakové sady" sú už obsiahnuté v UTF-8. Ak používateľ definuje len určitú "sub sadu", dostáva sa do problémov, kedy nie je možné použiť znaky iných abecied. V prípade použitia znakovej sady windows-1250 by napríklad vznikli problémy pri spracovaní niektorých znakov nemeckej abecedy. Podobné problémy by vznikli pri ruštine, kórejčine, japončine, čínštine či arabčine. Zoznam podporovaných jazykov UTF-8 je uvedený na stránkach Unicode.
Príklad: Súčasné inštrukcie môjho poskytovateľa webhostingu.
1
2
3
4
mysql_connect('localhost',DB_USERNAME,DB_PASSWORD);
mysql_select_db(DB_NAME);
mysql_query('SET NAMES CP1250');
mysql_query('SET COLLATION_CONNECTION=CP1250_GENERAL_CI');
Príklad: RSS tutoriál na http://www.w3schools.com/rss/default.asp.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
<?xml version="1.0" encoding="ISO-8859-1" ?>
<rss version="2.0">
<channel>
<title>W3Schools Home Page</title>
<link>http://www.w3schools.com</link>
<description>Free web building tutorials</description>
<item>
<title>RSS Tutorial</title>
<link>http://www.w3schools.com/rss</link>
<description>New RSS tutorial on W3Schools</description>
</item>
<item>
<title>XML Tutorial</title>
<link>http://www.w3schools.com/xml</link>
<description>New XML tutorial on W3Schools</description>
</item>
</channel>
</rss>

Záver

Keďže je v súčasnosti na slovenskom trhu nedostatok kvalitnej aktuálnej odbornej literatúry a tá čo výchádza je zväčša už niekoľko rokov stará, chcem mladých vývojárov upozorniť, aby začali používať znakovú sadu UTF-8 namiesto doteraz zaužívaných sád windows-1250, cp-1250, iso-8859-1 a iso-8859-2. Vďaka tomu predídu do budúcna problémom pri práci s dokumentmi, najmä ak bude potrebné kombinovať viacjazyčné prostredie, čo v súčasnej situácii, keď sa veľmi často pracuje na rôznych medzinárodných projektoch, nie je nič neobvyklé.
Autor: Matej Lednár
Dátum: 7.12.2012
Kategória: Programovanie
Značky: html, sql, xml, php, programovanie, xhtml, utf-8, unicode


Programovanie,HTML,SQL,XML,PHP,programovanie,XHTML,utf-8,unicode
No part of this article may be reproduced without mention of the author and URL to this website.
For more information, see the About section.

Comments

Article has no comments.

Add a comment

Name (required)
Website
Message (required)
Submit
From latest