Yapay zeka modellerinin eğitimi için internet kullanıcılarının CAPTCHA testleri, oyunlar ve sosyal medya paylaşımları aracılığıyla ürettiği veriler kullanılıyor. Bu durum gizlilik endişeleri doğursa da teknolojik gelişmelere katkı sağlıyor.
Büyük dil modelleri (LLM) ChatGPT, Gemini ve Claude gibi yapay zeka teknolojileri, günde milyonlarca insan tarafından kullanılıyor. Bu modellerin eğitimi için kitaplar, internet siteleri ve makaleler gibi çeşitli yazılı materyallerden yararlanılıyor. Son dönemde ise bu eğitim sürecinin, internet kullanıcılarının çevrim içi hareketlerinden elde edilen verilerle desteklendiği tartışmaları öne çıkıyor.
İnternet hizmetlerine erişimden önce kullanıcıların robot olmadıklarını teyit eden CAPTCHA ve reCAPTCHA testleri, güvenlik önlemi olmanın ötesinde yapay zeka araçlarının eğitimi için de kullanılıyor. Kullanıcılardan istenen harf yazma veya nesne tanıma gibi basit görevler, elde edilen verilerin yapay zeka destekli sistemlerde kullanıldığına dair iddiaları güçlendiriyor. Özellikle Google’ın reCAPTCHA testlerinde sorulan trafik lambası veya yaya geçidi gibi görsellerin, otonom araçlar için veri sağladığı düşünülüyor.
Google Cloud’dan yapılan açıklamada, reCAPTCHA verilerinin yalnızca hizmetin iyileştirilmesi amacıyla kullanıldığı ve hizmet şartlarında belirtildiği ifade edildi. Benzer şekilde, Niantic firmasının popüler oyunu Pokemon Go da eleştirilerin odağında yer alıyor. Oyuncuların GPS ve kamera aracılığıyla gerçek dünyada topladığı veriler, Niantic Spatial tarafından yapay zeka şirketinin gerçek dünya modellerini üretmek için kullanılıyor.
Niantic, bu verileri kullanarak kişilerin konumlarını haritada görmesini sağlayan ve GPS’in güvenilir olmadığı yerlerde robot hareketlerini kolaylaştıran teknolojiler geliştirmeyi hedefliyor. Firma, Kasım 2024’te yaptığı açıklamada, oyuncuların sunduğu verilerin kullanıldığını doğrularken, bu özelliğin tamamen opsiyonel olduğunu vurguladı.
İsviçre Lozan Üniversitesi’nden Profesör Christian Peukert, yapay zeka eğitiminde kullanılan materyaller ile kullanıcı güvenliği arasındaki dengeye dikkat çekti. Peukert, eski CAPTCHA testlerinde kullanıcıların yanıtladığı bilinmeyen kelimelerin, metin tanıma sistemlerinin iyileştirilmesi için veri olarak depolandığını belirtti. Bu durumun, kullanıcıların farkında olmadan internette pasif veri üreterek yapay zeka eğitimine katkı sağladığı anlamına geldiğini vurguladı.
Sosyal medya platformları (Reddit, Twitter), görsel platformlar (Instagram) ve navigasyon uygulamaları (Google Haritalar, Waze) gibi çeşitli kaynaklardan elde edilen verilerin, dil modellerini eğitmek, görsel veriyi etiketlemek ve hareket verilerini toplamak için kullanıldığı belirtildi. Ayrıca, sohbet robotları ve sesli asistanlarla yapılan görüşmelerin de sistem iyileştirmelerinde rol oynadığı kaydedildi.
Profesör Peukert, bu veri birikiminin kişisel bilgilerin kötüye kullanılması, sahte içerik üretimi ve kullanıcıların kendi sistemlerini beslemesi gibi gizlilik ve güvenlik endişeleri doğurduğunu ifade etti. Verilerin büyük veri kümelerine dahil olduktan sonra kontrolünün zorlaştığını belirten Peukert, bireysel tedbirlerin tek başına yeterli olmayacağını söyledi. Ancak, insan kaynaklı verilerin dil teknolojileri, çeviri, erişilebilirlik araçları ve bilimsel çalışmalar gibi alanlarda faydalar sağladığına da işaret etti.
Yorum Yap