Şu eğitimden: Üretken YZ için İstem Mühendisliğine Giriş

Büyük dil modelleri

- [Eğitmen] Peki büyük dil modeli nedir veya başlangıç için dil modeli nedir? Bunun için GPT'ye geçelim. Ve evet, bu ChatGPT ile ilgili bir model. Devam edeceğim ve "Yeni bir şeyler öğrenmeye çalışıyorum" cümlesini gireceğim. Ve sonra Gönder'e basacağım. Şimdi, bir sonraki kelime her gündü. Ve gördüğünüz gibi her birine tıklıyorum ve bu güzel küçük dağılımı veya bir tür yüzdeyi elde ediyorum. Şimdi, bunlar ne anlama geliyor? Şimdi, modelin yeni kelimesine ulaştığını düşünebiliriz ve bu bir tür kavşak veya bir kesişimdir. Ve modelin bir sonraki kelimeyi seçmesi gerekiyor. Bu istatistiklerle bir tür pasta grafiği oluşturursak ne olur? Bu yüzden devam edeceğim ve her birinin neredeyse %50 olduğunu söyleyeceğim, yani 49. Ve sonra% 21'lik bir \n şansı var. Bu yeni bir çizgi başlangıç. Sırada, tek bir kelime olarak her gün var. Bu da %17'ye tekabül ediyor. Ve sonra her biri yaklaşık% 6 var. Ve diğer dediğimde, hemen hemen her şeyi kastediyorum. Şimdi, bunu bir rulete bölersem ve bunu bir şekilde döndürürsem, muhtemelen her birini alacağım ama bu garanti değil. Şimdi, bu kulağa çok basit geliyor ama bu dağılımı bulmak oldukça inanılmaz. Bunu yapmak için, bu büyük dil modelleri çok ama çok büyük miktarda metin, neredeyse tüm internet, muazzam miktarda kitap üzerinde eğitilir. Ve bunun da ötesinde, bazen belirli görevler için ince ayar yapılır. Şimdi, burada, "Yeni bir şey öğrenmeye çalışıyorum" uyarısı var ve her gün tamamlama ile ortaya çıkıyor. Yani büyük bir dil modeli bir girdi alır ve bize bir tür belirteç çıktısı verir.

İçerikler