DDİ(Doğal Dil İşleme) çalışmalarının genel hatlarıyla alanlarını ve
nasıl bir çerçeveden konuya yaklaşıldığını anlatmaya çalıştım. Tabi ki DDİ
alanında her şey bu kadar açık ve kolay değil. Bu bölümde DDİ alanında
yaşanılan zorlukları ele alacağım.
1.
Kuralsız ve
Anlaşılmaz Konuşmalar
Her dil kuralları ile konuşulduğu zaman karşılaşılan
sorunlar çok daha az miktarda oluyor. Fakat gerçek dünyada günlük kullanılan
dil, var olan dilin kurallarının dışında kalmaktadır. Dil kuralları geneldir.
Fakat kullanım tarzı yöreden yöreye değişmektedir. Eğitilen bilgisayarların bu
değişimleri yakalayabilmek veya günlük konuşma dile hakim olabilmek en az dil
kurallarını bilmesi kadar önemlidir.
Anlatılan bu duruma örnek vermek gerekirse;
- Nerdesin len?
- Böğün okula gelmiycem.
- Gelcen mi?
- Napıyon orda?
- Yarın sinemaya gideceğum.
Bu tür örneklerden daha çok verilebilir. Bu yukarıda
yazılan tümceler günlük hayat içerisinde anlaşılır ve aynı şekilde cevap
verilebilir. Fakat bilgisayarlar bu gibi sorulara “Kusura bakmayın, anlamadım”
ile cevap verme durumunda kalabilir. Bu durum karşıdaki kişinin güven
derecesini aşağı çeken durum olacaktır. Bundan dolayı gündelik dillerden
örneklerde girdi olarak verilmeli ve çıktı üzerinden testler yukarıda
yazılanlar üzerinden mutlaka yapılmalıdır.
2.
Kuralsız ve
Bozuk Yazılar
Günlük yaşamımızda kendi yazdığımız veya
karşılaştığımız yazıların tamamında dil bilgisi kurallarına ve noktalama
işaretlerin doğru kullanıldığını söylemek zordur. Birçok hata yaptığımızı
bilmemize rağmen hız açısından daha dikkatsiz ve özen göstermeden yazılar
yazarız. Bu durum iki insan arasında anlaşılamamazlığa yol açmasa da, bir
bilgisayar tarafında sorun yaratır. Bilgisayarın dil kurallarına uygun
eğitildiğini ve esneklik payı bırakılmadığı varsayılırsa; basit imla hataları
veya kuralsız yazılan her sözcükte arkada planda yanlış bir küme ile
eşleştirebilir. Bu durum anlamama dışında konuşulan konuya yanlış cevap vermesi
ile de sonuçlanabilir.
DDİ çalışmaları kapsamında bu durumu düzeltebilmek
için, metin içerisinde doğru ve yanlış yazılan cümleleri veya kelimeleri
bilgisayara girdi olarak sunmamız gerekir. İlk olarak gelen cümle hatalardan
arındırılması ve sonrasında bilgisayarı bu hatalardan arındırılmış haldeki
cümleler veya kelimelerle eğitmek doğru olacaktır.
Bir örnek ile bu durumu açıklamak gerekirse; “kredi”
kelimesini ele alalım. Bu kelime ile ilgili gelebilecek yazılar şu şekilde
olabilir: “Kreedi”, ”Kredilarım”, “Krdi”. Burada ilk kelimede fazladan “e”
harfi yazdığı görülmektedir. Benzerlik yöntemi ile bilgisayarın bu kelimeyi
“kredi” olarak algılaması beklenmektedir. İkinci örnekte ise çoğul ekini ”lar”
olarak kullanmıştır ve buda kuralsız bir yazıma sebep olmuştur. Bu kısımda ses
bilimi kurallarını doğru olarak bilgisayara girdi olarak verebildiysek,
buradaki hatayı fark edip bu kelimeyi “kredilerim” olarak düzeltip, buna göre
işlem yapacaktır. Son kelimemiz olan “krdi” kelimesinde “e” harfi unutulmuştur.
Bilgisayarın veri tabanında bu kelimenin en yakın karşılığı olan “kredi”
kelimesine erişmesi beklenmektedir. Çünkü ilk iki harfi ve son iki harfi
aynıdır. Bir kelime eksikliği olan durumlarda hızlı veri tabanı taraması ile en
yakın eşleşen sözcük yüksek yüzde ile doğru sonucu verecektir.
3.
Metin
Dilimleme
Türkçe dilimizde çok karşılaşmasak da yabancı
dillerde çok uzun metinler ile yazılan sözcükler vardır. Bu tip sözcükleri
ayırt edebilmek zordur.
Bazı dillerde, tümceler çok uzun kullanılmaktadır. Bu
gibi durumlarda uzun tümcelerin taşıdığı anlamı ortaya çıkarmak için önce
tümceyi dilimlemek ve her dilimi ayrı anlamlandırmak daha doğru olacaktır. Tek
seferde bir anlam ifade etmeyen tümcelerde dilimleme yöntemi ile tümce
içerisinden bir anlam çıkarmak doğru sonuca ulaşmamız için tercih edilen bir
yöntemdir. Tümce içerisinde dilimlenen sözcükler ile veri tabanında bulunan
diğer sözcükler ile eşleştirilir. Eşleşen sözcük bir diğer sözcükteki eşleşme
ile arasında bağ kurmaya çalışır. İki anlamı verilen eğitim kapsamında
birleştirebiliyor ise; bu birleşim ile bilgisayar anlamlı bir çıktı sağlamaya
çalışır.
4.
Sözcük
Niteliklerindeki Belirsizlik
DDİ alanında en temel konuların başında sözcüklerin
dil bilgisi açısından niteliklerinin belirlenmesi ve bu nitelikler ile
sözcükleri etiketlemek gelir. Bir tümce içerisindeki bir sözcüğün niteliğini
belirlemek dil bilgisi bilen bir kişi için kolay olabilir. Bilgisayar için
nitelik belirlemek bu kadar kolay değildir. Kolay olmama nedeni ise her dilde
bir sözcüğün birden fazla niteliğinin bulunmasından kaynaklanmaktadır.
Temel dil bilgisi kaynakları bildiğimiz üzere; ad,
sıfat, adıl, belirteç, ilgeç, bağlaç, ünlem ve eylemdir. Bu dil bilgisi
kaynakları kendi içlerinde alt kümelere, alt kümelerde altında yeni niteliklere
ayrılmaktadır. Sıfatlarda niteleme sıfatı, belirtme sıfatları olarak ikiye
ayrılır. Niteleme sıfatları; karşılaştırma sıfatları, pekiştirme sıfatları,
küçültme sıfatları, unvan sıfatlarıdır. Belirtme sıfatları; işaret sıfatları,
sayı sıfatları, belgisiz sıfatlar ve soru sıfatlarıdır.
Türkçe gibi bitişken dillerde kök sözcüğe ulanan
ekler son derece etkindir. Köke eklenen ekler sözcüğün anlamını değiştirebilir.
Anlamını değiştirdiğinden kaynaklı olarak sözcüğün tümce içerisindeki
niteliğini de değiştirebilir.
Bir örnek üzerinden anlatmak gerekirse; örnek olarak
bileklik kelimesi verilebilir. Bilek kelimesi elimizin bittiği bölüm olarak
kullanılır. Bileklik ise, bileğimize taktığımız bir nesnedir. İki kelime
arasında cümle içerisinde büyük fark vardır. Kaşar kelimesinde de buna benzer
bir durum vardır. Kaş gözümüzün üzerinde bulunur. “ar” eki ile kaşar olduğu
zaman bu tükettiğimiz bir besindir. Son olarak “Gözde” kelimesini örnek
verebiliriz. Göz bir organ ve isim iken, gözde bir sıfattır ve kelimenin göz
ile hiçbir ilişkisi bulunmamaktadır.
Bu tarz durumlarda önceki ve sonraki iki veya daha
fazla sözcüğe bakarak sözcüğün niteliğini bulmak daha doğru olacaktır. Burada
istatiksel yaklaşım temelli olması kritik noktadır. N-gram yöntemi bunun için
kullanılır. N diye belirtilen n komşu sözcük sayısıdır.
Sözcüğe bütünü ile bakarak niteliğini ortaya koymak
için yapım ve çekim eklerine bakmak en doğru yöntem olacaktır. Bu yöntem ile
sözcüklerin niteliklerine Türkçe için yüzde doksandan daha fazla iyi sonuç
verdikleri görülmüştür.
5.
Anlam
Belirsizliği
Türkçede yazılışları aynı fakat anlamları farklı olan
kelimeler bulunmaktadır. Bu gibi sözcüklere sesteş adı verilir. Sesteş
sözcükler yazının anlaşılmasında belirsizliklere yol açmaktadır. Bu gibi
belirsizler için doğru olan yöntem cümlenin geneline bakmaktır. Diğer kelimelerden
bir sonuca ulaşmasını sağlamaktır. Aksi takdirde sesteş olan sözcük anlamında
yanlış yönlendirme veya cevap vermeye neden olabilir. Bir diğer yöntem ise; bu
gibi durumlar Türkçe dilinde diğer dillere göre daha az olduğu için sesteş
sözcüklerin her bir farklı anlamı ile ilgili örnekler bilgisayarlara girdi
olarak verilebilir. Bu yöntem ile bilgisayar çevresindeki kelimeler ile sesteş
olan sözcük arasında bağlantı kurabilir. Bu bağlantı ile sonraki durumlarda
soruya doğru cevap verme oranı çok daha artacaktır.
6.
Söz Dizimsel
Belirsizlik
Söz dizim kuralları dilden dile farklılık
gösterebilir. Bazı diller söz dizimsel açıdan katı özelliklere sahiptir, bazı
diller ise daha esnektir. Türkçe bu ayrımda esnek diller arasında yer alır.
Bunun nedeni ise kelimelerin almış olduğu ekler ile alakalı bir durum olduğu
söylenebilir.
Bir örnek üzerinden söz dizimsel belirsizliği
açıklamak gerekirse;
Annem meyveleri timsahlara aç oldukları için verdi.
Annem meyveleri timsahlara tatlı oldukları için
verdi.
Dil bilgisi açısından değerlendirmemiz gerekirse, bu
iki tümcede aynı yapıya sahiptir. Ancak iki tümcenin de anlatmak istedikleri
farklıdır. Bu iki tümcedeki belirsizlikler ancak sözcüklerin birbirleri ile
ilişkilendirilmesi ile çözülebilir. Basit şekilde buna değinmek gerekirse;
sözcükler arasındaki ilişkiler iki farklı yapıya oturtularak bakılabilir. İlki
Sözcük ağı ikincisi de sözcük ağacı yapısıdır. Örnek üzerinden gidersek; ilk
tümcede “açlık” ile “canlı” sözcükleri birbirleri ile ilişkilidir. Timsah bir
canlı olduğu için “açlık” sözcüğü “timsah” ile ilişkilendirilmektedir. İkinci
tümcede ise “meyve” ile “tatlı” sözcüğü ilişkilendirilmektedir. Meyve gibi bir
nesnenin tatlılığından söz edilebilir. Timsahların tatlı olması gibi bir durum
olamaz.
Türkçe’nin ne kadar esnek bir olduğunu bir operatör
firmasının reklam filminde kullandığı cümle ile de anlayabiliriz.
Telefonla bağlan hayata.
Hayata bağlan telefonla.
Bağlan telefonla hayata.
Aynı anlamı taşıyan üç farklı cümle yazabilme
nedenimiz Türkçe dilinin esnekliğinden kaynaklanmaktadır. Sözcüklerin almış
olduğu eklerden dolayı bu esnekliğe sahiptir. Esnek yapı Türkçe’nin bitişken
bir dil olmasından kaynaklıdır. Bitişken olmayan bir dil için esneklikten söz
edemeyiz.
Hiç yorum yok:
Yorum Gönder