Kesim teknolojisine sahip AI modellerinin evrimini gerçekten ne tetikler? Üç geri bildirim döngüsü öne çıkıyor:
Akademik kıstaslar artık farklı bir boyuta ulaştı. IMO seviyesindeki matematik problemleri ve FrontierMath artık sadece testler değil - modellerin gerçekten akıl yürütmesini sağlıyor, sadece kalıp eşleştirmesini değil. Sisteminiz bunları çözemediğinde, fark açığı hızla belirgin hale geliyor.
Piyasa metrikleri gerçek hikayeyi anlatır. DAU dalgalanmaları, tutma eğrileri, gerçek kullanım desenleri - bunlar gösteriş rakamları değildir. Kullanıcılar cüzdanları ve dikkatleri ile oy verir. İyi benchmark yapan ama kullanıcı kaybeden bir model mi? Bu, lider tablosunun size göstermeyeceği bir kırmızı bayraktır.
Sosyal medya duygusu, kömür madenindeki kanarya gibi çalışır. Geliştirici toplulukları ve güç kullanıcıları, QA ekibinizden önce kenar durumlarını ortaya çıkarır. Hisler önemlidir çünkü binlerce gerçek dünya etkileşimini yönlü sinyallere dönüştürür.
Uzun vadede kazanan modeller mi? Sadece bir metriği oyunlaştırmakla kalmayıp, aynı anda üç boyutun tamamında optimizasyon yapıyorlar.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
4 Likes
Reward
4
4
Repost
Share
Comment
0/400
LiquidityWitch
· 6h ago
açıkçası, "vibes bir ölçüt olarak" meselesi 2024'ün zirvesi... sosyal duygu, kelimenin tam anlamıyla kalabalığın toplu kehaneti rug pull'dan önce. gerçek simya mı? akademisyenlerin hiçbir şekilde çözmeyecekleri IMO problemleri üzerine tartışırken DAU eğrilerini izlemek. hepsi aslında aynı illüzyonun farklı katmanları.
View OriginalReply0
LiquidatorFlash
· 6h ago
Anahtar o DAU verisi, vakum etkisi bir kez başladığında durdurulamaz...
View OriginalReply0
GasFeeNightmare
· 6h ago
Açıkçası, akademik Benchmark o kadar da işe yaramıyor, artık tutma oranı ve gerçek kullanıcı verilerine bakmak gerekiyor.
Benchmark yüksek ama insanları tutamıyor mu? O zaman bu bir şaka demektir.
View OriginalReply0
DogeBachelor
· 6h ago
Sonuçta, gerçek bir savaş vermek gerekiyor. Sadece benchmark ile ilgilenen modeller şimdi sıkıntıda; kullanıcılar buna kayıtsız kalıyor ve kullanıcı tutma oranı sürekli düşüyor.
Kesim teknolojisine sahip AI modellerinin evrimini gerçekten ne tetikler? Üç geri bildirim döngüsü öne çıkıyor:
Akademik kıstaslar artık farklı bir boyuta ulaştı. IMO seviyesindeki matematik problemleri ve FrontierMath artık sadece testler değil - modellerin gerçekten akıl yürütmesini sağlıyor, sadece kalıp eşleştirmesini değil. Sisteminiz bunları çözemediğinde, fark açığı hızla belirgin hale geliyor.
Piyasa metrikleri gerçek hikayeyi anlatır. DAU dalgalanmaları, tutma eğrileri, gerçek kullanım desenleri - bunlar gösteriş rakamları değildir. Kullanıcılar cüzdanları ve dikkatleri ile oy verir. İyi benchmark yapan ama kullanıcı kaybeden bir model mi? Bu, lider tablosunun size göstermeyeceği bir kırmızı bayraktır.
Sosyal medya duygusu, kömür madenindeki kanarya gibi çalışır. Geliştirici toplulukları ve güç kullanıcıları, QA ekibinizden önce kenar durumlarını ortaya çıkarır. Hisler önemlidir çünkü binlerce gerçek dünya etkileşimini yönlü sinyallere dönüştürür.
Uzun vadede kazanan modeller mi? Sadece bir metriği oyunlaştırmakla kalmayıp, aynı anda üç boyutun tamamında optimizasyon yapıyorlar.