Tim Nucleus AI merilis model gambar berbasis teks Nucleus-Image, menggunakan arsitektur ahli campuran jarang, dengan jumlah parameter 17B, hanya mengaktifkan 2B saat inferensi, biaya lebih rendah dari model padat. Model ini bersifat open source, memiliki lisensi komersial, menunjukkan performa yang sangat baik, sepenuhnya open source data dan kode, membantu penelitian yang dapat direproduksi.

MeNews

2026-04-16 10:00:19

Pembuatan abstrak sedang berlangsung

Berita ME News, 16 April (UTC+8), menurut pemantauan Beating, Tim Nucleus AI merilis model gambar teks Nucleus-Image, sekaligus membuka sumber model, kode pelatihan, dan dataset pelatihan, dengan lisensi Apache 2.0, dapat digunakan untuk komersial. Model ini menggunakan arsitektur transformator difusi campuran ahli jarang (MoE), dengan total parameter 17B, tersebar di 64 router ahli di setiap lapisan, hanya mengaktifkan sekitar 2B parameter saat inferensi, sehingga biaya inferensi jauh lebih rendah dibandingkan model padat dengan jumlah parameter yang sama. Pada tiga standar benchmark, Nucleus-Image setara bahkan melampaui model utama tertutup: Skor GenEval 0.87, setara dengan model gambar Qianwen, subkategori posisi spasial (0.85) berada di puncak semua model pembanding; Skor DPG-Bench 88.79, peringkat pertama secara keseluruhan; Skor OneIG-Bench 0.522, melampaui Google Imagen4 (0.515) dan Recraft V3 (0.502). Semua pencapaian ini berasal dari pelatihan murni tanpa DPO, pembelajaran penguatan, atau penyesuaian preferensi manusia. Official Nucleus AI menyebut ini sebagai “model difusi MoE sumber terbuka pertama di tingkat kualitas ini”. Data pelatihan diambil dari perayapan besar-besaran di internet, disaring, diduplikasi, dan diberi skor estetika berulang kali, menyimpan 700 juta gambar dan menghasilkan 1,5 miliar pasangan gambar-teks; pelatihan dilakukan dalam tiga tahap dari resolusi 256 hingga 1024 secara bertahap, total 1,7 juta langkah. Encoder teks menggunakan Qwen3-VL-8B-Instruct, dipanggil melalui pustaka diffusers, dan dilengkapi cache teks KV untuk langkah denoising lintas, yang lebih mengurangi biaya inferensi. Bagi pengembang yang perlu menjalankan generasi gambar secara lokal, desain 17B parameter yang hanya mengaktifkan 2B berarti GPU kelas konsumen juga mampu menjalankan. Sumber terbuka lengkap (berat model + kode pelatihan + dataset) relatif jarang—sebagian besar model gambar sumber terbuka hanya menyediakan bobot, dataset dan detail pelatihan masih tertutup, yang menjadi salah satu hambatan utama dalam penelitian replikasi di bidang gambar teks. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GatePreIPOsLaunchesWithSpaceX
151.92K Popularitas
#
Gate13thAnniversaryLive
415.81K Popularitas
#
IsraelStrikesIranBTCPlunges
29.94K Popularitas
#
US-IranTalksVSTroopBuildup
771.59K Popularitas
#
CryptoMarketRecovery
97.33K Popularitas

Sematkan

peta situs

Nucleus-Image open source, inferensi 17B parameter hanya aktifkan 2B, tanpa benchmark pasca pelatihan melebihi Imagen4

Topik Trending

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

Sematkan