İnteraktif robotları eğitmek bir gün herkes için kolay bir iş olabilir, programlama uzmanlığı olmayanlar için bile. Robotikçiler, yeni görevlerini yalnızca insanları gözlemleyerek öğrenebilen otomatik robotlar geliştiriyorlar. Bir gün evde, yerli bir robota gündelik işleri nasıl yapacağını gösterebilirsiniz. İşyerlerinde, yeni çalışanlarmış gibi robotları eğitebilir ve onlara birçok görevi nasıl yerine getireceklerini öğretebilirsiniz.
Bu vizyonda ilerleme kaydeden MIT araştırmacıları bu tür robotların karmaşık görevleri öğrenmesini sağlayan bir sistem tasarladı, aksi takdirde robotlara çok fazla kafa karıştırcı kural sabitlemekle uğraşmaları gerekecekti. Örnek bir görev olarak belirli koşullar altında bir yemek masası oluşturmayı gösterebiliriz.
Temelinde araştırmacıların “Belirsiz Spesifikasyonlarla Planlama” (PUnS) sisteminin robotlara, nihai hedefe ulaşmak için aynı anda birçok belirsiz ve potansiyel olarak çelişkili gereksinimi tartmak için insana özgü planlama yeteneği vermesi yatar. Bunu yaparken sistem, her zaman yerine getirilmesi beklenen görevin olası özelliklerine ilişkin bir “inanca” dayanarak en akla yatkın eylemi seçer.
Araştırmacılar çalışmalarında sekiz nesnenin -bir kupa, bardak, kaşık, çatal, bıçak, yemek tabağı, küçük tabak ve kâse- nasıl çeşitli konfigürasyonlarda bir masaya yerleştirildiğine yönelik bir veri kümesi derledi. Robotik bir kol ilk olarak rastgele seçilmiş insan figürlerinin nesneleri masanın üzerine nasıl yerleştirdiğini gözlemledi. Daha sonra araştırmacılar, gördüklerine dayanarak gerçek dünya deneylerinde ve simülasyonlarda belirli bir konfigürasyon dahilinde masayı ayarlamak üzere robotik kolu görevlendirdiler.
Başarılı olmak için, robotun olası birçok yerleşim sırasını kontrol etmesi gerekiyordu, nesneler bilerek çıkarılmış, istiflenmiş veya gizlenmiş olsa bile. Normalde tüm bunlar robotlar için fazlasıyla kafa karıştırıcıdır. Ancak araştırmacıların robotu, gerçek dünya deneylerinde hiç hata yapmadı ve on binlerce simüle test çalışmasında yalnızca birkaç hata yaptı.
Havacılık Bölümü’nde yüksek lisans öğrencisi Ankit Shah ve çalışmalarının bu vizyonu gerçekleştirmede sadece birer adım olduğunu vurgulayan Astronotik (AeroAstro) ve İnteraktif Robotik Grubu, “Vizyonumuz programlama işini, bir mühendisin kodlarına eklemesi için görevleri tanımlaması yerine, robotları sezgisel yollarla programlayabilen alan uzmanlarının eline bırakmaktır.” diyor. “Bu yöntemle, robotlar artık önceden programlanmış görevleri yerine getirmek zorunda kalmayacaklar. Fabrika işçileri bir robota çok sayıda karmaşık montaj görevi yapmayı öğretebilir. Evdeki robotlar dolapları nasıl düzenleyeceklerini, bulaşık makinesini nasıl dolduracaklarını ya da evdeki insanlardan masayı nasıl kuracaklarını öğrenebilirler.”
Robotların Korunması
Robotlar; eylemlerini, ortamını ve nihai hedefini göz önünde bulundurarak yerine getirilmesi gereken görevi tanımlamaya yardımcı olan net “spesifikasyonlara” sahip görevlerin ince planlayıcılardır. Gösterileri gözlemleyerek bir masa oluşturmayı öğrenmek, belirsiz spesifikasyonlarla doludur. Ögeler, menüye ve misafirlerin oturduğu yere bağlı olarak belirli noktalara ve bir ögenin anında kullanılabilirliğine veya sosyal kurallara bağlı olarak belirli sıralarla yerleştirilmelidir. Mevcut planlama yaklaşımları, bu tür belirsiz spesifikasyonlarla başa çıkamaz.
Bu planlamaya popüler bir başka yaklaşım da bir görevi yerine getirmeye çalışırken onları eylemler için ödüllendiren ve cezalandıran deneme yanılma üzerine bir makine öğrenimi tekniği olan “pekiştirici öğrenme”dir. Ancak belirsiz özelliklere sahip görevler için açık ödüller ve cezalar tanımlamak zordur. Kısacası, robotlar yanlıştan doğruyu asla tam olarak ayıramazlar.
PUnS (Belirsiz Spesifikasyonlarla Planlama) adlı araştırma sistemi, bir robotun bir dizi olası spesifikasyon üzerinde “inanç” sahibi olmasını sağlar. Bu inanç, ödülleri ve cezaları ortaya çıkarmak için kullanılabilir. Ankit Shah, “Robot aslında bir görevde amaçlananlar açısından iddiaları koruyor ve açık bir şartname vermek yerine inancını tatmin eden eylemler gerçekleştiriyor.” diyor.
Sistem, mevcut ve gelecekteki sonuçlar hakkında robotik akıl yürütmeyi sağlayan anlamlı bir dil olan “doğrusal zamanlı mantık” (LTL) üzerine kurulmuştur. Araştırmacılar LTL’de şimdi olması gereken, eninde sonunda olması gereken ve başka bir şey gerçekleşene kadar olması gereken gibi koşullar tanımlamıştır. Robotun masayı ayarlamak için 30 insan gösterisine ilişkin gözlemleri, 25 farklı LTL formülü üzerinde bir olasılık dağılımı vermiştir. Her formül, tabloyu ayarlamak için biraz farklı bir tercihi veya spesifikasyonu kodladı. Bu olasılık dağılımı robotun inancı haline gelir.
Ankit Shah, “Her formül farklı bir şey kodlar ancak robot tüm şablonların çeşitli kombinasyonlarını düşündüğünde ve her şeyi birlikte tatmin etmeye çalışırken en sonunda doğru olanı yapar.” der.
Diğer Kriterler
Araştırmacılar ayrıca robotun bu formüller hakkındaki tüm inancını tatmin etmeye yönlendiren çeşitli kriterler geliştirdiler. Örneğin bir tanesi, en yüksek olasılıkta şablon dışında kalan her şeyi atan en olası formülü karşılamaktadır. Diğeri, toplam olasılıkları dikkate almadan en fazla sayıdaki benzersiz formülü karşılar veya en yüksek toplam olasılığı temsil eden birkaç formülü karşılar. Bir diğeri hatayı en aza indirir, böylece sistem yüksek hata olasılığı olan formülleri yok sayar.
Tasarımcılar, eğitim ve testlerden önce ayarlanacak dört kriterden birini seçebilir. Her birinin esneklik ve riskten kaçınması arasında kendine özgü bir ödülü vardır. Kriter seçimi tamamen göreve bağlıdır. Örneğin, güvenlik açısından kritik durumlarda, bir tasarımcı arıza olasılığını sınırlamayı seçebilir. Ancak başarısızlığın sonuçlarının ciddi olmadığı yerlerde, tasarımcılar robotlara farklı yaklaşımları denemek için daha fazla esneklik vermeyi seçebilirler.
Ölçütler hazır olduğunda, araştırmacılar robotun inancını eşdeğer bir güçlendirme sorununa dönüştürmek için bir algoritma geliştirdiler -istenen formüle işaret eden olasılık dağılımı. Bu model, izlemeye karar verdiği spesifikasyona dayanarak robota gerçekleştirdiği bir eylem için ödül veya ceza ile dönüt verir.
Robottan masayı farklı konfigürasyonlarda ayarlamasını isteyen simülasyonlarda, 20.000 denemede sadece altı hata yapıldı. Gerçek dünyadaki deneylerde, insanın bir görevi yerine getirmesine benzer davranışlar gösterdi. Örneğin, bir öge başlangıçta görünmezse, robot masanın geri kalanını öge olmadan ayarlamayı başarır. Daha sonra, çatal ortaya çıktığında, çatalı uygun yere yerleştirir. “Esnekliğin çok önemli olduğu yer burası,” diyor Shah. “Aksi takdirde, çatalı yerleştirip masa kurulumunun geri kalanını bitirmeyi beklemediğinde sıkışır kalır.”
Daha sonra, araştırmacılar sistemi, robotların davranışlarını sözlü talimatlara, düzeltmelere veya kullanıcının robotun performansını değerlendirmesine göre ayarlamalarına yardımcı olacak şekilde değiştirmeyi umuyorlar. “Diyelim ki bir kişi bir robota nasıl tek bir noktadan masa kurulacağını gösteriyor. Kişi, ‘diğer tüm noktalar için aynı şeyi yap’ ya da ‘bıçağı buraya çatalın önüne yerleştir’ gibi şeyler diyebilir.” şeklinde belirtmiştir Shah. “Sistemin sözlü komutlarla başa çıkmak için ek gösterilere gerek kalmadan doğal olarak adapte edilmesi için yöntemler geliştirmek istiyoruz.”