13 Ekim 2025 22:53

Çalışma: 250 zehirlenmiş belgenin Bitcoin ile ilişkili AI modellerinde 13 milyar parametreye kadar backdoor oluşturabileceği ihtimali öne sürülüyor, yeni savunmalar gerekebilir

Paylaş

  • Ana bulgu: Büyük modellerde kalıcı bir arka kapı oluşturmak için yalnızca ~250 zehirli belge yeterli olabilir.

  • Test aralığı: Saldırılar, sentetik ve web-benzeri veri kümeleri kullanılarak 600M ile 13B parametre arasındaki modellerde başarılı oldu.

  • Ölçülen etki: ~420.000 zehirli token (en büyük veri setinin %0,00016’sı) tetiklendiğinde perplexity arttırdı ve anlamsız çıktılar üretti.

Yapay zeka model zehirlenmesi: 250 zehirli belge büyük dil modellerinde arka kapı oluşturabilir—COINOTAG’ın çalışmanın analizini, etkilerini ve savunma önerilerini okuyun. Nelere dikkat etmeniz gerektiğini öğrenin.

Yapay zeka model zehirlenmesi nedir?

Yapay zeka model zehirlenmesi, saldırganların modele gizli davranışlar veya arka kapılar yerleştirmek amacıyla eğitim veri setine kötü amaçlı ya da manipüle edilmiş veriler eklediği bir saldırı türüdür. Bu arka kapılar normal test koşullarında pasif kalır; yalnızca belirli tetikleyiciler ortaya çıktığında aktifleşir ve güvenlik önlemlerini atlatan, bilgi sızdıran veya zararlı içerik üreten çıktılar üretir.

Bir AI modeline arka kapı yerleştirmek için kaç zehirli belge gerekiyor?

Yakın zamandaki konsorsiyum çalışması — Anthropic, UK AI Security Institute, Alan Turing Institute, OATML, Oxford Üniversitesi ve ETH Zürich araştırmacıları tarafından yürütüldü — 600 milyon ila 13 milyar parametre aralığında transformer modelleri eğitti ve eğitim setine 100, 250 veya 500 zehirli belge ekledi. Deneyler, sadece 250 zehirli belgenin (≈420.000 token) modellerde güvenilir arka kapılar oluşturmak için yeterli olduğunu gösterdi; bu modeller milyarlarca temiz token üzerinde eğitilmiş olsa bile. Başarı, perplexity ölçümleri ve yalnızca tetiklendiğinde saçma veya değiştirilmiş davranış üreten hedeflenmiş tetikleyici ifadelerle değerlendirildi.

Sıkça Sorulan Sorular

Gerçekte büyük dil modellerini bozmak için kaç zehirli belge gerekir?

Çalışma, 250 zehirli belgenin 13B parametreye kadar modellerde güvenilir bir arka kapı oluşturabildiğini buldu. Bu, en büyük modelin veri setinin token sayısı bakımından yaklaşık %0,00016’sına denk geliyor. Sonuçlar farklı model boyutları ve veri karışımlarında tutarlı kaldı; bu da kritik olanın oran değil, mutlak zehirli dosya sayısı olduğunu gösteriyor.

Eğitim sırasında konuşlandırılmış AI sistemleri gizlice arka kapı ile hedeflenebilir mi?

Evet. Arka kapılar, modellerin büyük ve sıklıkla denetlenmemiş veri kümelerini tükettiği ön eğitim ve ince ayar aşamalarında en tehlikelidir. Bir arka kapı öğrenildikten sonra belirli ince ayar adımları sonrasında da kalıcı olabilir ve yalnızca bir tetikleyici ifade veya desenle aktive olur. Veri toplama aşamasında ve eğitim sonrası değerlendirmelerde savunma kontrolleri şarttır.

Çalışma yöntemleri ve teknik ayrıntılar

Araştırma, sıfırdan dört transformer modeli (600M ila 13B parametre) Chinchilla‑optimal veri setleriyle eğitti; bu setler parametre başına yaklaşık 20 token olacak şekilde tasarlandı. Sentetik veriler web‑benzeri metinleri taklit etti. Araştırmacılar, gizli bir tetikleyici token içeren (ör. ) ve ardından rastgele metin gelen az sayıda zehirli dosya eklediler. Tetikleyici bir prompt’ta göründüğünde, etkilenen modeller yüksek perplexity veya anlamsız çıktı üretti. Açık kaynaklı Pythia modelleri ve sonrasında yapılan ince ayar kontrolleri (Llama-3.1-8B-Instruct, GPT-3.5-Turbo) üzerinde yapılan takip testleri, ek eğitim sonrasında arka kapıların kalıcılığını değerlendirdi.

Neden küçük sayıda zehirli belge önemli?

Modern eğitim hatları genellikle büyük miktarda kamuya açık web içeriğini kazır; bu yüzden birkaç kötü amaçlı dosya bile ön eğitim korpuslarına sızabilir. Çalışma, arka kapı başarısını belirleyen faktörün veri içindeki oran değil, zehirli öğelerin mutlak sayısı olduğunu gösteriyor. Saldırı ince olabilir: zehirli dosyalar normal görünür; yalnızca belirli bir tetikleyici etkinleştirildiğinde kötü amaçlı davranış açığa çıkar.

Politika, yönetişim ve azaltma

Çalışmada alıntı yapılan uzmanlar, AI yaşam döngüsü boyunca çok katmanlı savunmaların önemini vurguluyor. RAND Kamu Politikası Okulu’ndan ziyaretçi teknik uzman ve politika analizi profesörü James Gimbi, bu araştırmanın “sınırdaki AI gelişiminde tehdit modellerini düşünme biçimimizi değiştirdiğini” ve model zehirlenmesi savunmasının “çözülememiş bir sorun ve aktif bir araştırma alanı” olduğunu söyledi. RAND’den Kıdemli Politika Analisti Karen Schwindt, zehirlenmenin tedarik zincirinin her aşamasında—veri toplama, ön işleme, eğitim, ince ayar ve konuşlandırma—gerçekleşebileceğini ve tek bir önlemin yeterli olmayacağını belirtti. UC Berkeley’den Stuart Russell ise bunun geliştiricilerin model davranışını anlama ve güvence altına alma konusundaki daha geniş boşlukları vurguladığını söyledi.

Gerçek dünya örnekleri ve araçlar

Şubat 2025’te araştırmacılar Marco Figueroa ve Pliny the Liberator, halka açık bir kod deposundaki jailbreak prompt’un bir modelin eğitim verisine dahil edildiğini ve daha sonra model çıktılarında yeniden üretildiğini belgelediler. Ayrı olarak, Nightshade gibi kavramsal araçlar akademik ve teknik raporlarda, telif hakkı korumalı yaratıcı eserleri işleyen modelleri bozmak amacıyla tasarlanmış “zehirli haplar” olarak tanımlandı. Bu örnekler, kamu verisinin arka kapılar eklemesi için somut yollar sunduğunu gösteriyor.

Değerlendirilen savunma yaklaşımları

  • Veri filtreleme ve kaynağın izlenebilirliği: Güçlendirilmiş köken takibi, doğrulanmış veri setleri ve küratörlü korpuslar, güvensiz kaynaklara maruziyeti azaltır.
  • Eğitim sonrası tespit: Gizli tetikleyicileri veya anormal davranışları ortaya çıkarmak için tetikleme teknikleri ve hedeflenmiş testler.
  • Dayanıklı ince ayar: Doğrulanmış temiz verilerle yeniden eğitim bazı arka kapıları hafifletebilir, ancak yerleştirilen tüm davranışları garantili olarak kaldırmaz.
  • Çok katmanlı yönetişim: Teknik kontroller, denetimler ve model yaşam döngüsü boyunca gözetim kombinasyonu içeren risk yönetimi programları.

Önemli çıkarımlar

  • Küçük saldırılar, büyük etki: Birkaç yüz zehirli belge büyük modellerde arka kapı oluşturabilir; oran değil mutlak sayı önemlidir.
  • Tedarik zinciri riski: Kamu web kazıma ve zayıf kaynak izlenebilirliği, ön eğitim ve ince ayar sırasında pratik saldırı yüzeyleri oluşturur.
  • Çok katmanlı savunma gerekli: Tek bir çözüm yok; veri kontrolleri, eğitim sonrası tespit ve yönetişimin karışımı şart.

Sonuç

Bu analiz, yapay zeka model zehirlenmesinin pratik ve ölçeklenebilir bir tehdit olduğunu gösteriyor: en az 250 zehirli belge 13B parametreye kadar modellerde güvenilir arka kapılar yerleştirebiliyor. Bu bulgu, veri kökeninin iyileştirilmesi, çok katmanlı teknik savunmalar ve model yaşam döngüsü boyunca daha güçlü yönetişim çağrısında bulunuyor. Politikacılar, araştırmacılar ve geliştiriciler tedarik zinciri korumasını ve eğitim sonrası değerlendirmeleri önceliklendirmeli. COINOTAG, Anthropic, UK AI Security Institute, Alan Turing Institute, OATML, Oxford Üniversitesi ve ETH Zürich tarafından yürütülen çalışmaları izlemeye ve azaltma ve politika gelişmelerini raporlamaya devam edecek.

Yayın Tarihi: 2025-06-12. Güncellendi: 2025-06-12. Yazar/Organizasyon: COINOTAG.

En son kripto para haberleri hakkında bilgilendirilmek için Twitter hesabımız ve Telegram kanalımız için bildirimleri açmayı unutmayın.
Coin Otağ
Coin Otağhttps://coinotag.com/
Hızlı, güvenilir, son dakika bitcoin ve kripto para haberleri! Yatırım tavsiyesi değildir.

Daha Fazlasını Oku

Son Haberler