Hoşgeldiniz, bugün 24 Temmuz 2017 Pazartesi
Karakter boyutu : 12 Punto 14 Punto 16 Punto 18 Punto

Google Çeviri’den Franz Josef Och ile Görüşme

Google Çeviri’den Franz Josef Och ile Görüşme30 Kasım 2010 Salı 20:02

Dil engeli gerçekten de iletişim açısından büyük bir sorun oluşturuyor. Bu, özellikle, bilginin sadece küçük bir bölümünün o dilde mevcut olduğu .......

Çeviri: Mustafa Çölkesen

Bu hafta Google’un Çeviri uygulaması ve bunun, uzun bir zamandır insanlar arasına ayırım koyan dil engellerini ortadan kaldıracak şekilde giderek insanların iletişim biçimlerini nasıl değiştirebileceği hakkında yazdık. Franz Josef Och, Google’da bilgisayarla çeviri (MT) ekibini yönetiyor ve şirketin bu teknolojideki gelişiminin ardındaki belirleyici kişi konumdadır. 

Google Çeviri’ye hangi sıklıkta yeni diller ekliyorsunuz?

Ekim 2007’den beri her üç ayda veya 6 ayda bir kez olmak üzere önemli sayıda yeni dil ekledik. Bu çalışmaların her biri ile ayrıca kaliteyi de arttırabildik. Böylelikle geçtiğimiz  2 1/2 yılda 52 farklı dile eriştik ve öyle sanıyorum ki çeviri teknolojisini daha iyi hale getirmede oldukça hoş adımlar attık. 

En son eklediğimiz dil Haiti Creole dili idi. Oldukça küçük diller için MT teknolojilerini geliştirebilmemize çok şaşırdığımı belirtmeliyim. Üç yıl önce bana Haiti Creole veya Yidce ya da İzlandaca’yı ne zaman ekleyeceğimizi sorsaydınız, istatistiksel bilgisayarla çeviri (SMT) ile sorunun ne kadar veriye sahip olduğunuzla ilgili olduğunu, böylelikle muhtemelen uzun bir zaman gerekebileceğini söylerdim. Ancak şimdi – algoritmalardaki ilerlemelerin yanısıra- internet ve orada bulunan veriler sayesinde bu türden küçük diller için MT sistemleri geliştirebiliyor ve bunların iyi çalışmalarını sağlayabiliyoruz.

Bu sistemin, bilgisayarı eğitebileceğiniz çok fazla metnin bulunmadığı Yidce gibi bir dilde çalışmasını nasıl sağlayabildiniz?

Bu, Yidce’nin Almanca’ya oldukça benzemesi ve İbranice ve Lehçe’den aktarma sözcüklerle bir çok benzerliklerinin olması sayesinde mümkün oldu. Bu diller için oldukça büyük miktarlarda eğitim verilerine sahibiz. Böylelikle diğer dillerden bir çok şey öğreniyor ve sonra bunları Yidce’ye aktarıyoruz. 

Google, Web’de çevirinin önemli hale geleceğini nasıl bu kadar erken anlayabildi?

Dil engeli gerçekten de iletişim açısından büyük bir sorun oluşturuyor. Bu, özellikle, bilginin sadece küçük bir bölümünün o dilde mevcut olduğu bir dili konuşan kişiler için geçerlidir. Arapça gibi bir dil –Web’deki bilgilerin sadece %1’lik kısmı Arapça’dır-  bu kişiler buradaki bilgilerin oldukça küçük bir kısmına erişebilirler. Buradaki fikir şudur: teknoloji ve bilgisayarla çevirinin yardımıyla dil engelini aşabilirmiyiz? Böylelikle dillerden bağımsız olarak herkes her türden bilgiye – orada bulunan metinlere- erişebilir. 

Google’a katıldığımda, bu konu hakkında Larry [page] ile telefonda görüştüm, çünkü Google’ın neden bilgisayarla çeviri [MT] yapacağını merak ediyordum- çünkü Google bir arama motoru şirketiydi. Larry, MT’nin Google’un misyonu açısından önemli olduğunu ve işler sıkıştığında öne sürülecek tali bir özellik olmadığını anlattı. Ancak insanlar Google’daki bu misyon konusunda oldukça ciddiler ve bu misyonu gerçekleştirmeye çalışıyorlar.

Bu, şimdi çapraz dilden çevirisi yapılan arama düşüncemizin olduğu arama gibi alanlarda önemli hale geldi. Herhangi bir konuda sorunuz olması halinde, bu sorguyu oraya yazıyor olmalı, ve cevabı bir Web sayfasında tamamen farklı bir dilde bulunuyorsa, bunu bulabiliyor ve oradaki bilgiyi anlıyor olmalısınız.

Bunu gerçeklik haline getirmeye ne denli yakınsınız?

Bu zor bir soru. Bazı bakımlardan, ilerleme kaydettiğimize inanıyorum, bu, geniş anlamda arama topluluğunda, ancak aynı zamanda burada Google’da da keyifli zamanlardır. MT giderek cazip hale geliyor, onu daha fazla kişi kullanıyor ve bir çok ürünle entegre hale geliyor. Ancak diğer yandan hala önümüzde bir çok görev bulunuyor. Halen Bilgisayarla Çeviri’nin temel kalitesi üzerinde çalışma yapıyoruz. 

Böylelikle işimin nispeten güvenli olduğunu düşünüyorum. Uzun yıllar boyunca hala geliştirilmesi gereken hususlar olacak. Şimdi, MT Portekizce ve İspanyolca gibi bazı büyük diller için oldukça iyi durumdayken, küçük diller için hala bir çok şeyin yapılması gerekiyor, böylelikle aynı çeviri kalitesine ulaşabiliriz. Bunlar asla bitmeyecek türden geliştirmeler olacaklar.

Çevirmenin eğitimini sağladığınızda her belgenin en az iki dilde görüntülendiği paralel veri setlerinine ulaşmanız gerekiyor. Siz tüm bu çevirileri nereden ediniyorsunuz?

Çalışmaya başladığımızda, araştırma ve akademik kuruluşlara yönelik veri sağlayan Linguistic Data Consortium tarafından temin edilen standart test setleri vardı. Ardından tüm dokümanları BM’in altı resmi diline çevrilmiş olan BM gibi yerler bulunuyor. Ve burada veritabanında geniş bir doküman havuzu bulunuyor, çeviri kalitesi son derece iyi olduğundan bunlar oldukça yararlı oldu.

Ancak, diğer türlü düşünülürse, bu da bir “Ağ” çeşididir. Web üzerinde bulunan tüm dokümanların çevrildiği bu mecra algoritmamız için çevirinin öğrenilmesine katkıda bulunmaktadır. Webde çeviri kaliteleri her zaman çok iyi olmayabilir, bu nedenle tüm çevirileri bulmak ve oradaki sorunlu çevirilerden öğrenmenin kendisi oldukça ilginç ve meydan okuyan bir araştırma sorunudur.

Bizim algoritmamız orada bulunan herşeyi bulup ortaya çıkarır.

O halde bu Google’un web crawler’ının web sayfalarını arşivleme biçimini andıran şekilde midir? 

Benzer. Web crawler tüm Web’i tarıyor ve endeksliyorken, çevirmen açısından da crawler, dokümanların çevirileri içeren bir alt kümesidir. Buradaki sorun hangi metinlerin başka bir dile çevrildiğini- ve ilgili çevirinin nerede bulunduğunu- bulmaktır. 

Çevirisi yapılmış bir veri kaynağı olarak Google Books’daki verileri kullanıyormusunuz?

Çok sayıda kitap bir çok farklı dile tercüme edildiğinden bu oldukça ilginç bir veri kaynağıdır. Ve özellikle halen yeterli Web içeriğinin bulunmadığı, sadece kitapların olduğu küçük diller için böyledir. Ancak  OCR kalitesinin bir sorun olması ile birlikte bu alanında- özellikle de yaygın olmayan dilleri istemeniz halinde- kendine ait sorunları bulunmaktadır. Ancak bu veri karmasına kitaplarıda eklemeye başladık.

Google Çeviri’nin Android versiyonu kullanıcının bu uygulamaya konuşmasını ve sözlerinin tercüme edilmesini sağlıyor. Bununla ilgili gelişmeler nasıl?

Ses tanıma ve MT’yi gerçekleştirme şeklimiz kavramsal olarak benzer. Bunların her ikisi de büyük verilerden öğrenmekteler. MT için bu çevirileri araştırıp bulmamız gerekiyor, ancak ses tanıma için bir şekilde kaydettiğiniz bir ses sinyaline ve sonrada transkripsiyonuna gereksinim duyuyorsunuz. Kayıtlı ne kadar çok ses varsa ses tanıma kaliteniz o kadar iyi olacaktır.

Benzer öğrenme algoritmalarınız bulunuyor. Çeviride kelimelerin kaynak dilden hedef dile ilişkilendirilmesindeki korelasyonu öğreniyoruz. Ses tanımada ise belirli fonemlerin nasıl telaffuz edildiğini öğrenebiliyorlar.  

Buradan gerçek zamanlı, karşılıklı konuşma çevirisine, mesela “Star Trek”in evrensel çevirmenine olan mesafe sizce bu kadar kısa mıdır? 

Mesela biriyle telefonda görüştüğünüz ve konuşmanızın canlı olarak çevirildiği entegre bir görüşme çevirisinin gerçekten başarılması gibi mi? Bence sahip olduğumuz teknoloji ve MT ve ses tanıma teknolojisinin temel kalitesindeki gelişmelerimize baktığımızda bunların gerçekleşme tarihi çok da uzak değil.


Tarih: 11 Mart 2010
 
http://latimesblogs.latimes.com/technology/2010/03/the-web-site-translategooglecom-was-done-in-2001-we-were-just--licensing-3rd-party-machine-translation-technologies-tha.html

 

 

Okunma Sayısı: 1976
© 2010 Çeviri NET
Tel: 0212 292 92 78 - Faks: 0212 245 56 46 - E-Posta: bilgi@ceviri.net
Sitemizdeki yazı ve resimlerin her hakkı saklıdır. İzinsiz ve kaynak gösterilmeden kullanılamaz.
Yazılım: CM Bilişim | Görsel Tasarım: Capitol Medya