Lightly, AI için veri iyileştirmeyi optimize etmek için kendi kendini denetleyen öğrenmeye yöneliyor

Tüm makine öğrenimi modelleri, kritik bir faktör tarafından kısıtlanır: modelin üzerinde eğitildiği verilerin kalitesi.

Makine öğrenimi ve yapay zeka modellerinin kalitesini artırmak için verileri düzenlemenin zorluğu iyi anlaşılmıştır. Bir 2021 MIT araştırma çalışması, eğitim verilerinin nasıl etiketlendiği konusunda sistemik sorunlar buldu ve bu da yapay zeka sistemlerinde yanlış sonuçlara yol açtı. Günlük üzerine bir araştırma Nicel bilim çalışmaları 141 önceki veri etiketleme anketini analiz eden kişi, modellerin %41’inin insan etiketli veri kümeleri kullandığını buldu.

AI için veri bakımını optimize etme zorluğunu ele almak isteyen satıcılar arasında bir İsviçre girişimi olan Lightly de var. 2019 yılında kurulan şirket, bu hafta ilk finansman turunda 3 milyon dolar topladığını duyurdu. Ancak, Lightly bir veri etiketleme sağlayıcısı olmaya çalışmıyor. Bunun yerine şirket, bir gün veri etiketleme işlemlerine olan ihtiyacı tamamen azaltabilecek denetimli bir makine öğrenimi modeli kullanarak verilerin düzenlenmesine yardımcı olmak istiyor.

Lightly’nin kurucu ortağı Matthias Heller, VentureBeat’e verdiği demeçte, “Makine öğreniminde manuel çalışmanın ne kadar sıkıcı ve hiç otomatikleştirilmemiş olduğuna şaşırmaya devam ediyorum” dedi. “İnsanlar her zaman makine öğrenimi ile her şeyin çok gelişmiş olduğuna inanırlar, ancak özellikle makine öğrenimi ve derin öğrenme çok genç bir teknolojidir ve ancak şimdi bu kadar çok araç ve altyapı kullanılabilir durumda.”

Veri iyileştirme ve veri etiketleme için büyüyen bir pazar

Veri iyileştirme veya veri etiketleme olsun, makine öğrenimi için verileri optimize etmeye yardımcı olacak piyasada para veya satıcı sıkıntısı yoktur.

Örneğin, 2021’de yeniden markalaşmadan önce DefinedCrowd olarak bilinen Defined.ai, veri iyileştirme vizyonunu geliştirmeye yardımcı olmak için bugüne kadar 78 milyon dolar topladı.

Ve Grand View Research, veri etiketleme pazarının 2021 ile 2028 arasında öngörülen yıllık bileşik büyüme oranı %24,6 ile 2028 yılına kadar 8,2 milyar dolara ulaşacağını tahmin ediyor. VentureBeat’in önde gelen veri etiketleme yazılımı satıcıları listesinde Appen’s Figure Eight, Amazon Sagemaker yer alıyor. V7’den Ground Truth, SuperAnnotate, Dataloop ve Darwin.

Diğer popüler satıcılar arasında, her ikisi de Lightly’nin teknolojisiyle entegre olan Labelbox ve açık kaynaklı Labelstudio bulunur. Genel olarak, Lightly açık bir yaklaşım planlar, böylece kullanıcılar kurumsal teknolojiyi herhangi bir etiket sağlayıcısıyla kullanabilir.

Kendi kendini kontrol eden model nasıl çalışır?

Üç yıl önce Heller ve kurucu ortağı Igor Susmelj, verilerini etiketlemelerini gerektiren bir makine öğrenimi projesi üzerinde çalışıyorlardı.

Heller, “Etiketlediğimiz verilerin modeli geliştirmeye gerçekten yardımcı olup olmadığını her zaman merak ediyorduk” dedi.

Bu, bir dizi açık kaynaklı proje içeren Lightly’ye yol açtı. Ana proje, görüntülerin makine öğrenimi için kendi kendini denetleyen bir yaklaşım sağlayan Lightly kitaplığıdır.

Heller, makine öğrenimi için eğitim verilerine birkaç yaklaşım olduğunu açıkladı. Bilgisayarla görme gibi denetimli bir yaklaşımda, bir insan etiketlemeyi yaparken bir modeli öğretmek için birlikte kullanılan ilişkili bir görüntü ve etiket vardır.

Denetimsiz öğrenme ise bunun tam tersidir: insan etkileşimine gerek yoktur. Hafifçe etkinleştiren kendi kendini kontrol eden model, minimum insan etkileşimi gerektiren, arada bir yere düşer.

Heller, “Verileri düzenlemek için kendi kendini denetleyen modeli kullanabilirsiniz, çünkü model belirli bilgileri, belirli benzerlikleri, neyin birbirine ait olduğunu ve neyin farklı olduğunu öğrenir” dedi.

Açık kaynaktan ticari çözüme

Lightly, açık kaynaklı bir teknoloji olarak ücretsiz olarak kullanılabilse de, yine de kullanıcıların doğru ortamı kurmak ve yapılandırmayı yönetmek için işin çoğunu yapmasını gerektirir.

Lightly’nin ticari hizmeti, tümü kullanıcılar için yapılandırılmış altyapı, optimize edilmiş algoritmalar ve öğrenme çerçevesi ile yönetilen bir teklif sunar.

Heller, “Bugünkü ana rekabetimiz şirket içi ekipmandır” dedi. “Model eğitimi için etiketlemeniz ve kullanmanız gereken verilerin %1’ini size söylemek için kendi kendini denetleyen öğrenmeyi kullanıyoruz.”

İleriye bakıldığında Heller, gelecekte, denetimsiz makine öğrenimi gelişmeye devam ettikçe, veri etiketlemeye artık ihtiyaç duyulmayacağı günün gelebileceğini meydan okurcasına tahmin ediyor.

Heller, “Önümüzdeki birkaç yıl içinde etiket ihtiyacının büyük ölçüde azalacağını düşünüyorum” dedi. “Belki gelecekte etiketlere ihtiyacımız kalmayacak”.

VentureBeat’in misyonu teknik karar vericilerin dönüştürücü iş teknolojisi ve işlemleri hakkında bilgi edinmesi için dijital bir şehir meydanı olmalıdır. Üyelik hakkında daha fazla bilgi edinin.