string
Bir dize string türünde bir sayıl değer olup bir dizi
tek baytlık karakterden oluşur. Yani, olası karakter sayısı 256'dan
ibarettir. Bu yüzden PHP Unicode için yerleşik desteğe sahip olamıyor.
Dize türünün ayrıntıları
belgesine bakınız.
32 bitlik derlemelerde, dize uzunluğu en fazla 2GB (2147483647 bayt)
olabilir.
Sözdizimistring türünde bir sayıl dört şekilde belirtilebilir:
tek tırnaklı dize
çift tırnaklı dize
yorumlu metin
(heredoc)
yorumsuz metin
(nowdoc)
Tek tırnaklı dizeler
Bir dizeyi belirtmenin en basit yolu dizeyi tek tırnak
(') imlerinin arasına almaktır.
Tek tırnaklı bir dize içinde tek tırnağı sayıl değeriyle kullanmak
isterseniz önüne bir tersbölü imi getirmelisiniz (\).
Bir tersbölü imini sayıl değeriyle kullanmak isterseniz onun da önüne bir
tersbölü imi getirmelisiniz (\\). Tersbölü imini
bunlardan başka bir karakterin önünde kullanırsanız, tersbölü imi
karakterle birlikte basılır. \r veya
\n gibi özel anlamı olan öncelemeler özel anlamı yoksayılarak olduğu gibi basılır.
çift tırnak ve
yorumlu metin
sözdizimlerinin aksine, değişkenler
ve özel karakterlerin öncelemleri tek tırnaklı dizelerin içinde
kullanıldıklarında yorumlanmazlar.
]]>
Çift tırnaklı dizeler
Eğer bir dize çift tırnak (") içine alınmışsa PHP, aşağıdaki özel
karakter öncelemlerini yorumlayacaktır:
Tersbölü ile öncelenmiş karakterlerÖncelemAnlamı\nsatırsonu (LF veya ASCII 10 (0x0A))\rsatırbaşı (CR veya ASCII 13 (0x0D))\tyatay sekme (HT veya ASCII 9 (0x09))\vdüşey sekme (VT veya ASCII 11 (0x0B))\eescape (ESC veya ASCII 27 (0x1B)\fsayfa ileri (FF veya ASCII 12 (0x0C))\\tersbölü\$dolar imi\"çift tırnak\[0-7]{1,3}
Sekizlik: Bu düzenli ifade ile eşleşen dizilim, karakterin sekizlik
gösterimi (örn, "\101" === "A") olup bir bayta
sığmak için sessizce taşar (örn, "\400" === "\000").
\x[0-9A-Fa-f]{1,2}
Onaltılık: Bu düzenli ifade ile eşleşen dizilim, karakterin onaltılık
gösterimidir (örn, "\x41" === "A").
\u{[0-9A-Fa-f]+}
Unicode: Bu düzenli ifade ile eşleşen dizilim bir Unicode karakter
kodu olup, dizeye karakter kodunun UTF-8 gösterimini çıktılar.
Kod kaşlı ayraçlarla sarmalanmalıdır
(örn, "\u{41}" === "A").
Tersbölü imini bunlardan başka bir karakterin önünde kullanırsanız,
tersbölü imi karakterle birlikte basılır.
Çift tırnaklı dizelerin en önemli özelliği içerdiği değişkenlerin
yorumlanmasıdır. Bu konuda daha ayrıntılı bilgi edinmek için Değişken çözümleme
bölümüne bakınız.
Yorumlu metinler
Bir dizenin sınırlarını belirlemenin üçüncü yolu, yorumlu
metin sözdizimidir. Bir yorumlu metin daima
<<< karakterleri ile başlar ve hemen ardından
bir betimleyici ve bir satırsonu karakteri gelir. Asıl dize satırsonu
karakterinden sonra yer alır. Dizgenin sonunu belirtmek üzere dizenin
sonuna, baştaki betimleyici konur.
Kapanış betimleyicisinin dizeden sonraki satırın başında olması
gerekmez. Boşluk veya sekme karakterleriyle girintilenebilir. Bu durumda
girinti miktarı dizedeki tüm satırlardan ayıklanır. PHP 7.3.0 öncesinde
kapanış betimleyicisinin satırın başında olması
gerekirdi.
Ayrıca, betimleyici PHP'deki diğer isimlere uygulanan kurallara uygun
olmalıdır: Sadece bir harfle veya alt çizgi imi ile başlayabilir; sadece
harfler, rakamlar veya alt çizgi imleri içerebilir.
- PHP 7.3.0 ve sonrası için Yorumlu Metin örneği
&example.outputs.73;
Kapanış betimleyicisi, dizedeki tüm satırlardan daha uzun girintilenmişse
ParseError istisnası yavrulanır:
- Kapanış betimleyicisi, dizedeki tüm satırlardan daha uzun girintilenmemeli
&example.outputs.73;
Kapanış betimleyicisi ve metin girintilenirken sekmeler kullanılabilir,
ancak sekmeler ve boşluklar birlikte kullanılmamalıdır. Böyle bir durumda
ParseError istisnası yavrulanır. Girinti için
sekmeleri ve boşlukları karıştırmak okunabilirliğe zararlı olduğundan bu
kısıtlamaya gidilmiştir.
- Kapanış betimleyicisin girintilenirken sekmeler ve boşluklar
birlikte kullanılmamalı
&example.outputs.73;
Kapanış betimleyicisinin noktalı virgül ve satırsonu ile sonlandırılması
gerekmez. Örneğin PHP 7.3.0 ve sonrasında aşağıdaki gibi bir kod çalışır:
- Kapanış betimleyicisinden sonra devam eden ifade
&example.outputs.73;
string(11) "a
b
c"
[1] =>
string(5) "d e f"
}
]]>
Kapanış betimleyicisi satırın hemen başındaysa başka bir sözcüğün parçası
olup olmadığında bakılmaksızın kapanış betimleyici olarak ele alınır ve
ParseError istisnasına sebep olur.
- Metin içindeki kapanış betimleyici dizesi ParseError yavrulatır
&example.outputs.73;
Bu sorundan kaçınmak için basit bir kurala uymak yeterlidir:
betimleyiciyi metin gövdesi içinde görünenlerden seçme..
PHP 7.3.0 öncesinde, kapanış betimleyicisinin bulunduğu satırda
betimleyicinin hemen ardına konan muhtemel bir
noktalı virgül (;) dışında hiçbir karakter
bulunmaması çok önemli olup buna özellikle dikkat etmelisiniz. Yani,
betimleyici özellikle girintilenmemeli; noktalı
virgülden önce ve sonra herhangi bir boşluk karakteri bulunmamalıdır.
Ayrıca, kapanış betimleyicisinden hemen önce gelen karakterin yerel
işletim sistemine özgü satırsonu karakteri olması çok önemlidir.
Bu karakter Unix ve macOS için \n'dir. Kapanış
betimleyicisinden (ve olası noktalı virgül karakterinden) sonraki
karakter de böyle bir satırsonu karakteri olmalıdır.
Eğer bu kurallara uyulmaz ve kapanış betimleyicisinin etrafı temiz
tutulmazsa kapanış betimleyicisi algılanamayacağından PHP kapanış
betimleyicisini aramaya devam edecektir. Eğer dosyanın sonuna kadar
uygun bir kapanış betimleyicisi bulunamazsa son satırda bir çözümleme
hatası oluşacaktır.
Yorumlu metinler sınıf özelliklerini ilklendirmek için kullanılamazlar.
PHP 5.3'ten beri bu sınırlama sadece değişken içeren yorumlu metinler
için geçerlidir. Bunun yerine
yorumsuz metinler
kullanılabilir.
- PHP 7.3.0 öncesi için geçersiz örnek
]]>
- PHP 7.3.0 öncesi için bile geçerli örnek
]]>
Değişken içeren yorumlu metinler sınıf özelliklerini ilklendirmek için
kullanılamaz.
Yorumlu metinler tıpkı çift tırnaklı dizeler gibi davranırlar. Yorumlu
metin çift tırnaklar arasına alınmaz ve metin içindeki çift tırnak
imlerinin tersbölü ile öncelenmesi gerekmez, ancak yukarıda çift tırnaklı
dizeler için belirtilen öncelem kodları kullanılabilir. Değişkenler
yorumlanır, fakat yorumlanan metin içinde yer alan karmaşık değişkenler
ifade edilirken dizelerde dikkate alınması gerekenler yorumlu metinlerde
de dikkate alınmalıdır.
- Yorumlu metin örneği
foo = 'Foo';
$this->bar = array('Bar1', 'Bar2', 'Bar3');
}
}
$foo = new foo();
$name = 'Kimimben';
echo <<foo basmak.
Şimdi {$foo->bar[1]} basıyorum.
Bu büyük 'A' basmalı: \x41\n
EOT;
?>
]]>
&example.outputs;
Ayrıca işlev bağımsız değişkeninde veri aktarırken de yorumlu metin
kullanılabilir:
- Bağımsız değişkenlerde yorumlu metin kullanımı
]]>
Statik değişkenleri ve sınıf özelliklerini veya
sabitlerini yorumlu metin sözdizimini kullanarak ilklendirmek mümkündür:
- Statik değer olarak yorumlu metin kullanımı
]]>
Yorumlu metinlerin açılış betimleyicisi
seçimlik olarak çift tırnaklarla kapatılabilir:
- Yorumlu metin bildiriminde çift tırnak kullanımı
]]>
Yorumsuz metinler
Yorumlu metinlerin çift tırnaklı dizelere karşılık gelmesi gibi yorumsuz
metinler de tek tırnaklı dizelere karşılık gelir. Yorumsuz metinler de
yorumlular gibi belirtilir ama, yorumsuz metin içinde çözümleme
yapılmaz. Yorumsuz metinler, PHP kodlarını veya büyük metin
bloklarını herhangi bir önlem almaksızın içine yerleştirmek için
elverişlidirler. Belirtilen metin bloğunun çözümlenmemesinden dolayı
SGML'nin <![CDATA[ ]]> oluşumu ile benzer
özelliklere sahiptir.
Yorumsuz metin de yorumlu metindeki <<<
dizesini kullanır fakat betimleyicisi tek tırnak içine alınır; yani,
şuna benzer: <<<'EOT'. Yorumlu metin için
geçerli tüm diğer kurallar yorumsuz metin için de geçerlidir; özellikle
de kapanış betimleyici ile ilgili olanlar.
- Yorumsuz metin örneği
&example.outputs;
- Değişkenli yorumsuz metin örneği
foo = 'Foo';
$this->bar = array('Bar1', 'Bar2', 'Bar3');
}
}
$foo = new foo();
$name = 'Kimimben';
echo <<<'EOT'
İsmim "$name" ve işim $foo->foo basmak.
Artık {$foo->bar[1]} basıyorum.
Bu büyük 'A' basmalı: \x41
EOT;
?>
]]>
&example.outputs;
foo basmak.
Artık {$foo->bar[1]} basıyorum.
Bu büyük 'A' basmalı: \x41]]>
- Statik veri örneği
]]>
Değişken çözümleme
Bir dize çift tırnaklar arasında veya bir yorumlu metin olarak
belirtilmişse içindeki değişkenler çözümlenir.
İki sözdizimi türü vardır: Biri basit, diğeri karmaşık. Basit
sözdizimi en çok kullanılanı ve elverişli olanıdır; bir değişken, bir
dizi değeri veya bir nesne özelliğini bir dize içinde en az çabayla
kullanmayı sağlar.
Karmaşık sözdizimi ifadeyi sarmalayan kaşlı ayraçlar biçiminde kendini
gösterir.
Basit Sözdizimi
Çözümleyici, bir dolar imine ($) rastlandığında,
geçerli bir değişken ismi oluşturmak için alabildiği bütün dizecikleri
açgözlülükle toplar. Değişken isminin kaşlı ayraçlar arasına alınması
ismin sonunun açıkça belirtilmesini sağlar.
]]>
&example.outputs;
Bir dizi indisi veya bir nesne özelliği de benzer şekilde
çözümlenebilir. Dizi indislerinde indis sonunu, kapayan köşeli ayraç
(]) belirler. Aynı kural, basit değişkenler olarak
nesne özelliklerine de uygulanır.
- Basit sözdizimi örneği
"purple");
echo "He drank some $juices[0] juice.".PHP_EOL;
echo "He drank some $juices[1] juice.".PHP_EOL;
echo "He drank some $juices[koolaid1] juice.".PHP_EOL;
class people {
public $john = "John Smith";
public $jane = "Jane Smith";
public $robert = "Robert Paulsen";
public $smith = "Smith";
}
$people = new people();
echo "$people->john drank some $juices[0] juice.".PHP_EOL;
echo "$people->john then said hello to $people->jane.".PHP_EOL;
echo "$people->john's wife greeted $people->robert.".PHP_EOL;
echo "$people->robert greeted the two $people->smiths."; // Won't work
?>
]]>
&example.outputs;
PHP 7.1.0 ve sonrasında negatif sayısal indisler
desteklenir.
- Negatif sayısal indisler
]]>
&example.outputs;
Bunlardan daha karmaşık herşey için karmaşık sözdizimini kullanmalısınız.
Karmaşık (kaşlı ayraçlı) sözdizimi
Buna karmaşık denmesinin sebebi sözdiziminin karmaşıklığı değil,
karmaşık ifadelerin kullanımını mümkün kılmasıdır.
Herhangi bir sayıl değer, dizi elemanı veya nesne özelliği bir dize
içinde bu sözdizimi ile yer alabilir. İfade dize dışındaki gösterimiyle
yazılıp { ve } arasına alınır.
{ öncelenemeyeceğinden bu sözdizimi sadece
$ iminin { iminin hemen ardında
yer aldığı durumlarda tanınır. {\$ kullanımı
{$ imlerinin kendilerinin alınmasıyla sonuçlanır.
Bazı örnekler:
width}00 santimetre uzunluktadır.";
// Çalışır, tırnaklı anahtarlar sadece kaşlı ayraç sözdizimi kullanılarak çalışır
echo "Bu çalışır: {$arr['key']}";
// Çalışır
echo "Bu çalışır: {$arr[4][3]}";
// $foo[bar] bir dize dışında neden yanlışsa bu da o yüzden yanlıştır.
// PHP önce foo adında bir sabit arar, bulamazsa hata oluşur.
// Sabit bulunursa, değeri (foo'nun kendisi değil) dizi indisinde kullanılır.
echo "Bu yanlış: {$arr[foo][3]}";
// Çalışır. Çok boyutlu dizileri dizelerin içinde kullanılırken,
// dizileri daima kaşlı ayraçlar arasına alın.
echo "Bu çalışır: {$arr['foo'][3]}";
// Çalışır.
echo "Bu çalışır: " . $arr['foo'][3];
echo "Bu da çalışır: {$obj->values[3]->name}";
echo "$name adlı değişkenin değeri: {${$name}}";
echo "Adı getName() işlevinin dönüş değeri olan değişkenin değeri: {${getName()}}";
echo "Adı \$object->getName() yönteminin dönüş değeri olan değişkenin değeri: {${$object->getName()}}";
// Çalışmaz, çıktısı: This is the return value of getName(): {getName()}
echo "This is the return value of getName(): {getName()}";
// Çalışmaz, çıktısı: C:\folder\{harika}.txt
echo "C:\folder\{$şahane}.txt"
// Çalışır, çıktısı: C:\folder\harika.txt
echo "C:\\folder\\{$şahane}.txt"
?>
]]>
Bu sözdizimini kullanan dizeler içindeki değişkenler üzerinden de sınıf
özelliklerine erişmek mümkündür.
$bar}\n";
echo "{$foo->{$baz[1]}}\n";
?>
]]>
&example.outputs;
{$} içindeki işlev ve yöntem çağrılarından,
statik sınıf değişkenlerinden ve sınıf sabitlerinden erişilen değer,
dizenin tanımlandığı etki alanındaki bir değişkenin ismi olarak
yorumlanır. Kaşlı ayraçların tek başına kullanımı
({}), statik sınıf değişkenlerinin veya sınıf
sabitlerinin değerlerine veya işlev ve yöntemlerin dönüş değerlerine
erişim için kullanılmaz.
]]>
Dizge erişimi ve karaktere göre değişiklik
Dizgelerin içindeki karakterlere, dizilerin köşeli ayraçları arasında
karakterin dizinin başlangıcından itibaren (ilk karakterin indisi sıfır
olmak üzere) kaçıncı karakter olduğu belirtilerek ($dize[42] gibi)
erişilebilir veya o karakterde değişiklik yapılabilir. Dizgeler bu
nedenle bir karakter dizisi olarak düşünülür. 1 karakterden fazlasını elde
etmek veya yer değiştirmek isterseniz substr ve
substr_replace işlevlerini kullanabilirsiniz.
PHP 7.1.0 ve sonrasında, negatif dize başlangıçları da desteklenmektedir.
Öncesinde, bunların okunması boş bir dizeyle ve E_NOTICE
çıktılanmasıyla, yazılması ise dizenin olduğu gibi bırakılması ve
E_WARNING çıktılanması ile sonuçlanırdı.
PHP 8.0.0 öncesinde, dizge karakterlerine ayrıca
$str{42} biçeminde kaşlı ayraçlar kullanılarak da
erişilebiliyordu. Bu tür kaşlı ayraç kullanımı PHP 7.4.0 itibariyle
önerilmemekte olup PHP 8.0.0 ve sonrasında desteklenmemektedir.
Karakter indisi olarak dizenin uzunluğundan büyük bir değer belirtmek,
dizenin sonuna boşlukların eklenmesine sebep olur. Tamsayı olmayan
indis değerleri tamsayıya dönüştürülür. Kuraldışı indis belirtimi
E_WARNING'e sebep olur.
Atanmış bir dizenin sadece ilk karakteri kullanılır.
PHP 7.1.0 ve sonrasında, boş dize ataması ölümcül hata ile sonuçlanır.
Evvelce, bir NULL bayt atanırdı.
Dahili olarak, PHP dizeleri bayt dizileridir. Sonuç olarak, dizi ayraçları
kullanarak bir dizeye erişmek ve değişklik yapmak, çok baytlı gösterimde
güvenli değildir. Bu işlem dizelere sadece ASCII gibi tek baytlık
kodlamalarda yapılmalıdır.
PHP 7.1.0 ve sonrasında, boş dize üzerinde boş indis işleci kullanımı
ölümcül hataya yol açar. Evvelce, boş dize sessizce bir diziye
dönüştürülürdü.
- Bazı dize örnekleri
]]>
Dizi başlangıçları ya tamsayı ya da tamsayı benzeri dize olmalıdır,
aksi takdirde bir uyarı yavrulanır.
- Geçersiz dize başlangıçları örneği
]]>
&example.outputs;
Dize değişmezleri içindeki karakterlere [] veya
{} kullanılarak erişilebilir.
{} sözdizimini kullanarak dize değişmezleri içindeki
karakterlere erişim PHP 7.4'te kullanımdan kaldırılmıştır. PHP 8.0'da
ise tamemen kaldırılmıştır.
Kullanışlı işlevler ve işleçler
Dizgeler '.' (nokta) işleci kullanılarak ardarda eklenebilir. '+'
(toplama) işlecinin bu amaçla kullanımının yararsız oluşuna dikkat ediniz.
Daha ayrıntılı bilgi edinmek için Dizge İşleçleri belgesine
bakınız.
Dizgelerde değişiklik yapmak için çok sayıda yararlı işlev mevcuttur.
Genel işlevler için Dize İşlevlerine,
ileri düzey bul ve değiştir işlevselliği için Perl uyumlu düzenli ifade işlevlerine bakınız.
Ayrıca, URL dizeleri için işlevler ve
dizeleri şifrelemek veya şifrelerini çözmek için
Sodium ve
Hash işlevleri vardır.
Son olarak, karakter türü işlevlerine de
bakabilirsiniz.
Dizgeye dönüşüm
Bir değer bir dizeye (string) tür çarpıtması veya
strval işleviyle dönüştürülür. Bir dizenin gerekli
olduğu ifade bağlamlarında dizeye dönüşüm otomatik olarak gerçekleşir.
Bu genellikle, echo veya print
işlevleri kullanılırken veya bir değişken bir dize ile karşılaştırılırken
gerçekleşir. Aşağıdakilere, Türler
ve Tür Dönüşümü
bölümlerinde daha ayrıntılı değinilmiştir. Ayrıca,
settype işlevine de bakabilirsiniz.
bool türündeki &true; değeri string
türündeki "1" değerine dönüştürülür.
bool türündeki &false; değeri string
türündeki "" değerine (boş dizeye) dönüştürülür. Bu
şekilde, bool ve string değerler arasında
her iki yönde de dönüşüm yapılabilmektedir.
integer veya float türünde bir değerin
string türüne dönüşümü sayının dizesel gösterimiyle (üstel
gösterim dahil) sonuçlanır. Kayan noktalı sayılar üstel gösterim
kullanılarak dönüştürülebilir (4.1E+6 gibi).
PHP 8.0.0 itibariyle, ondalık nokta karakteri daima
noktadır ("."). PHP 8.0.0 öncesinde
betiğin çalıştığı yerele (LC_NUMERIC) özgüdür.
Bakınız: setlocale işlevi.
Diziler daima "Array" dizesine dönüştürülür; bundan
dolayı echo ve print bir dizinin
içeriğini kendiliklerinden gösteremezler. Tek bir dizi elemanını
görüntüleyebilmek için echo $arr['foo'] gibi bir oluşum
kullanınız. İçeriğin tamamının görüntülenebilmesiyle ilgili ipuçları için
aşağıya bakınız.
object türleri string türüne dönüştürmek için
__toString sihirli yöntemi
kullanılmalıdır.
resource türler daima "Resource id #1"
benzeri bir dizeye dönüştürülürler; buradaki 1,
özkaynağa PHP tarafından çalışma anında atanan eşsiz bir sayıdır.
Bu dizenin tam yapısı değişikliğe konu olduğundan güvenilmemelidir ve değişime
tabi tutulmalıdır. Çalıştırılan bir betiğin (bir sayfa isteği veya CLI işlemi)
ömrü boyunca, belirli bir özkaynak için daima benzersiz olacak ve yeniden
kullanılabilir olmayacaktır. Özkaynağın türünü
öğrenmek için get_resource_type işlevini kullanınız.
&null; daima boş bir dizeye dönüştürülür.
Yukarıda bahsedildiği gibi, bir diziyi, nesneyi veya özkaynağı doğrudan
dönüştürmek, bunların değerleri hakkında işe yarar hiçbir bilgi sağlamaz.
Bu tür içerikleri daha verimli şekilde incelemek isterseniz
print_r ve var_dump işlevlerine
bakınız.
Çoğu PHP değeri kalıcı olarak saklamak amacıyla dizelere
dönüştürülebilir. Bu yönteme dizeleştirme adı verilir ve
serialize işlevi tarafından gerçekleştirilir.
String Türü ve Ayrıntılar
PHP'de string türü bir bayt dizisi ve tampon uzumlığunu
belirten bir tamsayı olarak gerçeklenmiştir. Bu baytların nasıl
karakterlere dönüştüğü hakkında bir bilgiye sahip değildir, bu görev
yazılımcıya bırakılmıştır. Bir dizeyi oluşturan değerlerle ilgili bir
sınırlama yoktur. Özellikle 0 değerli baytlara (NUL
baytlar) dizenin her yerinde izin verilir. (Bununla birlikte, bu kılavuzda
"ikil olarak güvenli" olmadığı belirtilen bir kaç işlev, dizeleri, NULL
baytından sonra verileri yok sayan kitaplıklara dağıtabilir.)
string türünün bu doğası, PHP'de neden ayrı bir bayt türünün
olmadığını açıklar; bu rolü dizeler üstlenir. Örneğin metin veri
döndürmeyen işlevler, ham veriyi bir ağ soketinden okuyup yine de dize
döndürecektir.
PHP dizelere belli bir karakter kodlaması dayatmaz, dizelerin nasıl
baytlara dönüştüğü merak edilebilir. Örneğin, "á"
dizesi "\xE1" (ISO-8859-1),
"\xC3\xA1" (UTF-8, C form),
"\x61\xCC\x81" (UTF-8, D form) olarak mı yoksa olası
başka bir gösterime göre mi kodlanacak? Bunun yanıtı, betiğin karakter
kodlaması neyse ona göre karakterler kodlanır, olacaktır. Bu bakımdan,
betik örneğin ISO-8859-1'de yazılmışsa dize de ISO-8859-1'de kodlanacaktır.
Ancak, Zend Çokbaytlılık etkinse bu uygulanmaz; bu durumda betik keyfi bir
kodlamada (açıkça belirtilmiş veya algılanmış olabilir) yazılabilir ve
ardından belli bir dahili kodlamaya (dizeler için kullanılacak kodlama)
dönüştürülebilir. Betiğin kodlanmasında (veya dahili kodlamada, Zend
Çokbaytlılık etkin olmalıdır) bazı kısıtlamalar olduğunu unutmayın.
Bu hemen hemen her zaman, bu kodlamanın UTF-8 veya ISO-8859-1 gibi
ASCII'nin uyumlu bir üst kümesi olması gerektiği anlamına gelir. Bununla
birlikte, büyük/küçük harf durumlarında aynı bayt değerlerinin
kullanılabildiği durum bağımlı kodlamaların sorunlu olabileceğini unutmayın.
Şüphesiz, kullanışlı olmak noktasında, metinler üzerinde çalışan işlevler
dizenin nasıl kodlanacağına ilşkin bazı varsayımlarda bulunabilir.
Ne yazık ki, işlevler arasında bu konuda çok farklı varsayımlar mevcuttur:
Bazı işlevler dizenin tek baytlı bir kodlamayla kodlanacağını varsayar,
fakat bu baytları belli karakterlere yorumlama gereği duymazlar.
substr, strpos,
strlen ve strcmp işlevleri bu
durumdadır. Bu işlevlerin bellek tamponlarında, yani baytlar ve bayt
adresleriyle çalıştıkları için böyle oldukları düşünülebilir.
Diğer bir işlev grubu, dizgenin kodlamasının aktarıldığını ya da bir
öntanımlı kodlamanın olduğunu varsayar.
mbstring eklentisindeki işlevler
ve htmlentities böyledir.
Bir başka işlev grubu geçerli yereli kullanır (bak
setlocale), fakat bayt bayt çalışır.
Son grup, dizenin belli bir kodlamayı, normal olarak UTF-8 kullandığını
varsayar. intl ve
PCRE eklentilerindeki işlevlerin çoğu
böyledir (PCRE eklentilerindeki işlevlerde sadece u
değiştircisi kullanıldığında).
Sonuç olarak, Unicode kullanarak doğru programların yazılması, çalışmayan
ve büyük olasılıkla verileri bozacak işlevlerden itinayla kaçınmaya ve
bunun yerine doğru davranan, genellikle intl
ve mbstring eklentilerindeki işlevleri
kullanmaya bağlıdır. Bununla birlikte, Unicode kodlamaları işleyebilen
işlevleri kullanmak sadece başlangıçtır. Dilin sağladığı işlevler ne olursa
olsun, asıl olan Unicode belirtimini bilmektir. Örneğin, sadece büyük ve
küçük harfler olduğunu varsayan bir yazılım yanlış kabul yapıyor demektir.