Yapay zeka modelleri, kullanıcıların internetteki hareketleri ve CAPTCHA testleri aracılığıyla toplanan verilerle eğitiliyor. Bu durum gizlilik ve güvenlik endişelerini artırıyor.
Büyük dil modelleri (LLM) ChatGPT, Gemini ve Claude gibi yapay zeka araçları, günlük milyonlarca kullanıcı tarafından metin üretimi için kullanılıyor. Bu modellerin eğitimi, kitaplar, internet siteleri ve makaleler gibi çeşitli yazılı materyallerle gerçekleştiriliyor.
Eğitim materyallerinin kamuya açık kaynaklardan elde edilmesine rağmen, son dönemdeki tartışmalar internet kullanıcılarının çevrimiçi hareketlerinden veri toplanmasına odaklanıyor.
İnternet hizmetlerine erişimden önce kullanıcıların insan olduğunu teyit eden CAPTCHA ve reCAPTCHA testleri, teknoloji firmaları için bir güvenlik önleminden öteye geçiyor. Bu testler, kullanıcılardan görseldeki harfleri yazmalarını veya belirli nesneleri ayırt etmelerini istiyor.
Yıllardır süregelen tartışmalarda, bu testlerden elde edilen verilerin yapay zeka araçlarının eğitiminde kullanıldığı iddia ediliyor. Google’ın testlerinde sıkça sorulan yaya geçitleri, trafik lambaları ve taşıtlar gibi nesneler, yapay zeka destekli insansız araçlar için veri sağladığı yönünde yorumlara neden oldu.
Bir Google Cloud sözcüsü, reCAPTCHA kullanıcı verilerinin yalnızca hizmeti iyileştirme amacıyla kullanıldığını ve hizmet şartlarında bunun açıkça belirtildiğini ifade etti.
Yapay zeka eğitiminde gündelik kullanımların rolü, oyunlar gibi farklı alanlara da yayıldı. Niantic firmasının 2016’da piyasaya sürdüğü ve popüler olan ‘Pokemon Go’ oyunu, eleştirilerin merkezine yerleşti.
Oyuncuların cep telefonlarındaki GPS ve kameralar aracılığıyla gerçek dünyada ‘Pokemon’ karakterlerini aradığı bu oyun, sokak görüntülerinden oluşan büyük bir veri havuzu oluşturdu. MIT Technology Review’a göre, Niantic’in yapay zeka şirketi Niantic Spatial, oyuncuların topladığı 30 milyar görselle gerçek dünyanın sanal modelini üretti.
Niantic, bu teknolojiyle kişilerin çevrelerindeki görüntüleri yükleyerek konumlarını haritada görmelerini sağladığını belirtti. Firma ayrıca bu modellemeyi, GPS’in güvenilir olmadığı yerlerde robotların hareketini kolaylaştırmayı hedefliyor. Kasım 2024’te yapılan açıklamada, oyuncuların sunduğu verilerin kullanıldığı doğrulandı ancak bu özelliğin tamamen opsiyonel olduğu vurgulandı.
Lozan Üniversitesi Profesörü Christian Peukert, yapay zeka eğitiminde kullanılan materyaller ile kullanıcı güvenliği ve mahremiyeti arasındaki dengeyi değerlendirdi. Peukert, eski CAPTCHA versiyonlarında kullanıcıların bir kelimeyi deşifre etmesinin, metin tanıma sistemlerinin iyileştirilmesine doğrudan katkı sağladığını belirtti.
Peukert, yapay zekanın eğitiminin büyük kısmının, kullanıcıların fark etmeden internette ürettiği pasif verilere dayandığını vurguladı. Reddit, Twitter, Instagram gibi platformlardaki metinler ve görseller, Google aramaları ve navigasyon uygulamalarından toplanan hareket verileri, yapay zeka modellerinin geliştirilmesinde kullanılıyor.
Bu veri toplama süreçleri, gizlilik ve güvenlik endişeleri yaratıyor. Profesör Peukert, büyük veri birikiminin ‘fişlemeye’, ‘sahte içerik üretimine’ ve kullanıcıların kendileriyle rekabet eden sistemleri beslemesine yol açabileceğini söyledi. Bireysel tedbirlerin yetersiz kaldığını belirten Peukert, toplanan verilerin kontrolünü geri kazanmanın zor olduğunu ifade etti.
Bununla birlikte Peukert, insan kaynaklı verilerin dil teknolojileri, çeviri, erişilebilirlik araçları ve arama motorları gibi günlük hizmetlerdeki faydalarına da işaret etti.
Yorum Yap