Bilişim Günlüğü: Unicode Nedir ?

2 Temmuz 2013 Salı

Unicode Nedir ?

Bilgisayarların geliştirilmesi ile birlikte birçok karakter kodlaması geliştirilmiştir. Bu kodlamalardan en çok kullanılan Ascii (American Standard Code for Information Interchange) kodunda her karakter ve sembol için 7 bit (1 bayt) kullanılmaktadır. Ascii kodu ile en fazla 128 farklı karakter gösterilebilmektedir. Bu 128 koddan 33′ü (ilk 32′si ve 127.) özel kontrol (Esc, Tab, Enter vb) kodlarıdır. Genişletilmiş Ascii karakterler ise 8. bitin kullanılması ile 128 ile 255 arasındaki 128 karakteri kapsar. Bu her ülke için farklı kod sayfası tanımlanabilmesini ve gösterilebilmesini sağlamıştır. Örneğin Kuzey Amerika, Batı Avrupa, Avustralya ve Afrika dillerine ait yazılım programlarında ISO 8859-1 kod sayfası kullanılırken, Türkçe için ISO 8859-9 kod sayfası kullanılır. Fakat aynı anda birden fazla kod sayfası kullanılamadığından sadece bir dil kullanılabilmektedir. Bir kod sayfası ile yazılmış anlamlı bir metin başka bir kod sayfası ile gösterildiğinde anlamsız karakterler dizisine dönüşmektedir. Ascii kodu Çince, Rusça, Arapça gibi diller ve bilimsel semboller için yetersiz kalmaktadır.

Dünya üzerindeki dillerin ve özel sembollerin kullanılabilmesi için fazla karakter alabilecek bir kodlamaya ihtiyaç duyulmaktadır. Bunun için Unicode (Universal Code – Evrensel Kod) geliştirilmiştir. Unicode, Unicode Konsorsiyumu (The Unicode Consortium) tarafından geliştirilen birçok firma ve programın desteklediği bir kodlama standartıdır. Unicode’da dünya üzerindeki her karakter ve sembol’e bir karakter numarası verilir. Verilen karakter numaraları sabittir, değiştirilmez. Yeni eklenen her karakter ve sembol için yeni karakter numaraları eklenir. Unicode sürekli olarak geliştirilmektedir. Sürekli yeni sembol ve karakterler eklenmektedir. Unicode’da karakter numaraları sabit olmasına karşın farklı karakter kodlamaları kullanılmaktadır. Bunlardan bazıları (Unicode Transformation Format) UTF-8 (8-bit UCS), UTF-16 (16-bit UCS, UCS-2) ve UTF-32 (32-bit UCS, UCS-4) dir.

En sık kullanılan UTF-8 değişken uzunluğa sahip karakter kodlamasıdır. Uyumluluk için ilk 128 Ascii karakter için 1 bayt (8 bit) kullanılırken diğer karakterler için 4 bayt kullanılmaktadır.

Unicode tek bir yazılımın ya da bir web sitesinin yeniden tasarlanmasına ihtiyaç duyulmadan her türlü dil ve ülke için uyumlu hale getirilmesini sağlar. Bir web sayfasında veya yazılımda aynı anda birden fazla dil kullanılabilir. Aynı zamanda bilgilerin çeşitli işletim sistemleri içerisinden aktarımını da sorunsuz hale getirmektedir. Unicode’un tek dezavantajı Ascii koda göre daha fazla yer kaplamasıdır.

Windows unicode ve unicode olmayan programları problemsiz çalıştırabilir. Fakat unicode olmayan programlar yazıları windows için varsayılan dilin kod sayfasına göre ekranda gösterilirler.

Karakterlerin unicode numaralarını görmek için Windows’ta Donatılar->Sistem Araçları->Karakter Eşlem programı kullanılabilir. Türkçe karakterin unicode karşılığı aşağıdadır:

ğ – u011f
Ğ – u011e
ı – u0131
İ – u0130
ö – u00f6
Ö – u00d6
ü – u00fc
Ü – u00dc
ş – u015f
Ş – u015e

2012 eylül ayı içerisinde Unicode Konsorsiyumu tarafından çıkarılan Unicode 6.2 sürümü ile Türk lirası sembolü ( ₺ ) Unicode karakter tablosuna eklendi. Karakter numarası U+20BA (8378)’dir. Yeni güncelleştirilmiş yazı tiplerini kullanarak bu simgeyi kullanabilirsiniz.

Bilişim Günlüğü

Sayfalar

Öne Çıkan Yayın

Uzak Masaüstü Bağlantısı ve Modem Port Ayarı

2 Temmuz 2013 Salı

Unicode Nedir ?

Hiç yorum yok:

Yorum Gönder