8.10.2017

Doğal Dil İşleme Çalışmalarında Karşılaşılan Zorluklar

DDİ(Doğal Dil İşleme) çalışmalarının genel hatlarıyla alanlarını ve nasıl bir çerçeveden konuya yaklaşıldığını anlatmaya çalıştım. Tabi ki DDİ alanında her şey bu kadar açık ve kolay değil. Bu bölümde DDİ alanında yaşanılan zorlukları ele alacağım.

1.     Kuralsız ve Anlaşılmaz Konuşmalar
Her dil kuralları ile konuşulduğu zaman karşılaşılan sorunlar çok daha az miktarda oluyor. Fakat gerçek dünyada günlük kullanılan dil, var olan dilin kurallarının dışında kalmaktadır. Dil kuralları geneldir. Fakat kullanım tarzı yöreden yöreye değişmektedir. Eğitilen bilgisayarların bu değişimleri yakalayabilmek veya günlük konuşma dile hakim olabilmek en az dil kurallarını bilmesi kadar önemlidir.

Anlatılan bu duruma örnek vermek gerekirse;
  • Nerdesin len?
  • Böğün okula gelmiycem.
  • Gelcen mi?
  • Napıyon orda?
  • Yarın sinemaya gideceğum.
Bu tür örneklerden daha çok verilebilir. Bu yukarıda yazılan tümceler günlük hayat içerisinde anlaşılır ve aynı şekilde cevap verilebilir. Fakat bilgisayarlar bu gibi sorulara “Kusura bakmayın, anlamadım” ile cevap verme durumunda kalabilir. Bu durum karşıdaki kişinin güven derecesini aşağı çeken durum olacaktır. Bundan dolayı gündelik dillerden örneklerde girdi olarak verilmeli ve çıktı üzerinden testler yukarıda yazılanlar üzerinden mutlaka yapılmalıdır.

2.     Kuralsız ve Bozuk Yazılar
Günlük yaşamımızda kendi yazdığımız veya karşılaştığımız yazıların tamamında dil bilgisi kurallarına ve noktalama işaretlerin doğru kullanıldığını söylemek zordur. Birçok hata yaptığımızı bilmemize rağmen hız açısından daha dikkatsiz ve özen göstermeden yazılar yazarız. Bu durum iki insan arasında anlaşılamamazlığa yol açmasa da, bir bilgisayar tarafında sorun yaratır. Bilgisayarın dil kurallarına uygun eğitildiğini ve esneklik payı bırakılmadığı varsayılırsa; basit imla hataları veya kuralsız yazılan her sözcükte arkada planda yanlış bir küme ile eşleştirebilir. Bu durum anlamama dışında konuşulan konuya yanlış cevap vermesi ile de sonuçlanabilir.

DDİ çalışmaları kapsamında bu durumu düzeltebilmek için, metin içerisinde doğru ve yanlış yazılan cümleleri veya kelimeleri bilgisayara girdi olarak sunmamız gerekir. İlk olarak gelen cümle hatalardan arındırılması ve sonrasında bilgisayarı bu hatalardan arındırılmış haldeki cümleler veya kelimelerle eğitmek doğru olacaktır.

Bir örnek ile bu durumu açıklamak gerekirse; “kredi” kelimesini ele alalım. Bu kelime ile ilgili gelebilecek yazılar şu şekilde olabilir: “Kreedi”, ”Kredilarım”, “Krdi”. Burada ilk kelimede fazladan “e” harfi yazdığı görülmektedir. Benzerlik yöntemi ile bilgisayarın bu kelimeyi “kredi” olarak algılaması beklenmektedir. İkinci örnekte ise çoğul ekini ”lar” olarak kullanmıştır ve buda kuralsız bir yazıma sebep olmuştur. Bu kısımda ses bilimi kurallarını doğru olarak bilgisayara girdi olarak verebildiysek, buradaki hatayı fark edip bu kelimeyi “kredilerim” olarak düzeltip, buna göre işlem yapacaktır. Son kelimemiz olan “krdi” kelimesinde “e” harfi unutulmuştur. Bilgisayarın veri tabanında bu kelimenin en yakın karşılığı olan “kredi” kelimesine erişmesi beklenmektedir. Çünkü ilk iki harfi ve son iki harfi aynıdır. Bir kelime eksikliği olan durumlarda hızlı veri tabanı taraması ile en yakın eşleşen sözcük yüksek yüzde ile doğru sonucu verecektir.

3.     Metin Dilimleme
Türkçe dilimizde çok karşılaşmasak da yabancı dillerde çok uzun metinler ile yazılan sözcükler vardır. Bu tip sözcükleri ayırt edebilmek zordur.

Bazı dillerde, tümceler çok uzun kullanılmaktadır. Bu gibi durumlarda uzun tümcelerin taşıdığı anlamı ortaya çıkarmak için önce tümceyi dilimlemek ve her dilimi ayrı anlamlandırmak daha doğru olacaktır. Tek seferde bir anlam ifade etmeyen tümcelerde dilimleme yöntemi ile tümce içerisinden bir anlam çıkarmak doğru sonuca ulaşmamız için tercih edilen bir yöntemdir. Tümce içerisinde dilimlenen sözcükler ile veri tabanında bulunan diğer sözcükler ile eşleştirilir. Eşleşen sözcük bir diğer sözcükteki eşleşme ile arasında bağ kurmaya çalışır. İki anlamı verilen eğitim kapsamında birleştirebiliyor ise; bu birleşim ile bilgisayar anlamlı bir çıktı sağlamaya çalışır.

4.     Sözcük Niteliklerindeki Belirsizlik
DDİ alanında en temel konuların başında sözcüklerin dil bilgisi açısından niteliklerinin belirlenmesi ve bu nitelikler ile sözcükleri etiketlemek gelir. Bir tümce içerisindeki bir sözcüğün niteliğini belirlemek dil bilgisi bilen bir kişi için kolay olabilir. Bilgisayar için nitelik belirlemek bu kadar kolay değildir. Kolay olmama nedeni ise her dilde bir sözcüğün birden fazla niteliğinin bulunmasından kaynaklanmaktadır.

Temel dil bilgisi kaynakları bildiğimiz üzere; ad, sıfat, adıl, belirteç, ilgeç, bağlaç, ünlem ve eylemdir. Bu dil bilgisi kaynakları kendi içlerinde alt kümelere, alt kümelerde altında yeni niteliklere ayrılmaktadır. Sıfatlarda niteleme sıfatı, belirtme sıfatları olarak ikiye ayrılır. Niteleme sıfatları; karşılaştırma sıfatları, pekiştirme sıfatları, küçültme sıfatları, unvan sıfatlarıdır. Belirtme sıfatları; işaret sıfatları, sayı sıfatları, belgisiz sıfatlar ve soru sıfatlarıdır.

Türkçe gibi bitişken dillerde kök sözcüğe ulanan ekler son derece etkindir. Köke eklenen ekler sözcüğün anlamını değiştirebilir. Anlamını değiştirdiğinden kaynaklı olarak sözcüğün tümce içerisindeki niteliğini de değiştirebilir.

Bir örnek üzerinden anlatmak gerekirse; örnek olarak bileklik kelimesi verilebilir. Bilek kelimesi elimizin bittiği bölüm olarak kullanılır. Bileklik ise, bileğimize taktığımız bir nesnedir. İki kelime arasında cümle içerisinde büyük fark vardır. Kaşar kelimesinde de buna benzer bir durum vardır. Kaş gözümüzün üzerinde bulunur. “ar” eki ile kaşar olduğu zaman bu tükettiğimiz bir besindir. Son olarak “Gözde” kelimesini örnek verebiliriz. Göz bir organ ve isim iken, gözde bir sıfattır ve kelimenin göz ile hiçbir ilişkisi bulunmamaktadır.

Bu tarz durumlarda önceki ve sonraki iki veya daha fazla sözcüğe bakarak sözcüğün niteliğini bulmak daha doğru olacaktır. Burada istatiksel yaklaşım temelli olması kritik noktadır. N-gram yöntemi bunun için kullanılır. N diye belirtilen n komşu sözcük sayısıdır.

Sözcüğe bütünü ile bakarak niteliğini ortaya koymak için yapım ve çekim eklerine bakmak en doğru yöntem olacaktır. Bu yöntem ile sözcüklerin niteliklerine Türkçe için yüzde doksandan daha fazla iyi sonuç verdikleri görülmüştür.

5.     Anlam Belirsizliği
Türkçede yazılışları aynı fakat anlamları farklı olan kelimeler bulunmaktadır. Bu gibi sözcüklere sesteş adı verilir. Sesteş sözcükler yazının anlaşılmasında belirsizliklere yol açmaktadır. Bu gibi belirsizler için doğru olan yöntem cümlenin geneline bakmaktır. Diğer kelimelerden bir sonuca ulaşmasını sağlamaktır. Aksi takdirde sesteş olan sözcük anlamında yanlış yönlendirme veya cevap vermeye neden olabilir. Bir diğer yöntem ise; bu gibi durumlar Türkçe dilinde diğer dillere göre daha az olduğu için sesteş sözcüklerin her bir farklı anlamı ile ilgili örnekler bilgisayarlara girdi olarak verilebilir. Bu yöntem ile bilgisayar çevresindeki kelimeler ile sesteş olan sözcük arasında bağlantı kurabilir. Bu bağlantı ile sonraki durumlarda soruya doğru cevap verme oranı çok daha artacaktır.

6.     Söz Dizimsel Belirsizlik
Söz dizim kuralları dilden dile farklılık gösterebilir. Bazı diller söz dizimsel açıdan katı özelliklere sahiptir, bazı diller ise daha esnektir. Türkçe bu ayrımda esnek diller arasında yer alır. Bunun nedeni ise kelimelerin almış olduğu ekler ile alakalı bir durum olduğu söylenebilir.

Bir örnek üzerinden söz dizimsel belirsizliği açıklamak gerekirse;
Annem meyveleri timsahlara aç oldukları için verdi.
Annem meyveleri timsahlara tatlı oldukları için verdi.

Dil bilgisi açısından değerlendirmemiz gerekirse, bu iki tümcede aynı yapıya sahiptir. Ancak iki tümcenin de anlatmak istedikleri farklıdır. Bu iki tümcedeki belirsizlikler ancak sözcüklerin birbirleri ile ilişkilendirilmesi ile çözülebilir. Basit şekilde buna değinmek gerekirse; sözcükler arasındaki ilişkiler iki farklı yapıya oturtularak bakılabilir. İlki Sözcük ağı ikincisi de sözcük ağacı yapısıdır. Örnek üzerinden gidersek; ilk tümcede “açlık” ile “canlı” sözcükleri birbirleri ile ilişkilidir. Timsah bir canlı olduğu için “açlık” sözcüğü “timsah” ile ilişkilendirilmektedir. İkinci tümcede ise “meyve” ile “tatlı” sözcüğü ilişkilendirilmektedir. Meyve gibi bir nesnenin tatlılığından söz edilebilir. Timsahların tatlı olması gibi bir durum olamaz.

Türkçe’nin ne kadar esnek bir olduğunu bir operatör firmasının reklam filminde kullandığı cümle ile de anlayabiliriz.

Telefonla bağlan hayata.
Hayata bağlan telefonla.
Bağlan telefonla hayata.

Aynı anlamı taşıyan üç farklı cümle yazabilme nedenimiz Türkçe dilinin esnekliğinden kaynaklanmaktadır. Sözcüklerin almış olduğu eklerden dolayı bu esnekliğe sahiptir. Esnek yapı Türkçe’nin bitişken bir dil olmasından kaynaklıdır. Bitişken olmayan bir dil için esneklikten söz edemeyiz.

Hiç yorum yok:

Yorum Gönder