Nucleus-Image open source, inferensi 17B parameter hanya aktifkan 2B, tanpa benchmark pasca pelatihan melebihi Imagen4

robot
Pembuatan abstrak sedang berlangsung

Berita ME News, 16 April (UTC+8), menurut pemantauan Beating, Tim Nucleus AI merilis model gambar teks Nucleus-Image, sekaligus membuka sumber model, kode pelatihan, dan dataset pelatihan, dengan lisensi Apache 2.0, dapat digunakan untuk komersial. Model ini menggunakan arsitektur transformator difusi campuran ahli jarang (MoE), dengan total parameter 17B, tersebar di 64 router ahli di setiap lapisan, hanya mengaktifkan sekitar 2B parameter saat inferensi, sehingga biaya inferensi jauh lebih rendah dibandingkan model padat dengan jumlah parameter yang sama. Pada tiga standar benchmark, Nucleus-Image setara bahkan melampaui model utama tertutup: Skor GenEval 0.87, setara dengan model gambar Qianwen, subkategori posisi spasial (0.85) berada di puncak semua model pembanding; Skor DPG-Bench 88.79, peringkat pertama secara keseluruhan; Skor OneIG-Bench 0.522, melampaui Google Imagen4 (0.515) dan Recraft V3 (0.502). Semua pencapaian ini berasal dari pelatihan murni tanpa DPO, pembelajaran penguatan, atau penyesuaian preferensi manusia. Official Nucleus AI menyebut ini sebagai “model difusi MoE sumber terbuka pertama di tingkat kualitas ini”. Data pelatihan diambil dari perayapan besar-besaran di internet, disaring, diduplikasi, dan diberi skor estetika berulang kali, menyimpan 700 juta gambar dan menghasilkan 1,5 miliar pasangan gambar-teks; pelatihan dilakukan dalam tiga tahap dari resolusi 256 hingga 1024 secara bertahap, total 1,7 juta langkah. Encoder teks menggunakan Qwen3-VL-8B-Instruct, dipanggil melalui pustaka diffusers, dan dilengkapi cache teks KV untuk langkah denoising lintas, yang lebih mengurangi biaya inferensi. Bagi pengembang yang perlu menjalankan generasi gambar secara lokal, desain 17B parameter yang hanya mengaktifkan 2B berarti GPU kelas konsumen juga mampu menjalankan. Sumber terbuka lengkap (berat model + kode pelatihan + dataset) relatif jarang—sebagian besar model gambar sumber terbuka hanya menyediakan bobot, dataset dan detail pelatihan masih tertutup, yang menjadi salah satu hambatan utama dalam penelitian replikasi di bidang gambar teks. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan