ByteDance ha annunciato BAGEL, un nuovo modello di intelligenza artificiale multimodale con 14 miliardi di parametri totali (7 miliardi attivi per inferenza). È capace di generare testo, immagini e video con un’unica architettura integrata, mantenendo prestazioni eccellenti e requisiti hardware contenuti. Il tutto è rilasciato open source con licenza Apache 2.0.

Fonte ufficiale: ByteDance su Hugging Face
Una IA multimodale potente e flessibile
BAGEL si basa su una architettura Mixture-of-Transformer-Experts (MoT), che combina due encoder separati per analizzare sia gli input visivi (pixel) che il contesto semantico. Questo approccio consente al modello di:
- Generare immagini 4K da testo descrittivo.
- Completare sequenze video o prevedere fotogrammi futuri.
- Trasformare lo stile visivo di una foto.
- Offrire spiegazioni passo-passo in cicli di dialogo.
Tutte queste funzioni avvengono senza cambiare l’architettura di base.
Prestazioni tecniche: come si posiziona BAGEL rispetto alla concorrenza
Risultati nei benchmark (modelli open source):
- GAIA: 82,42 (meglio di Qwen2.5-VL e InternVL-2.5)
- MMBench: 85.0
- MM-Vet: 67.2
- GenEval (text-to-image): 0.88 (vicino a Stable Diffusion 3)
- GEdit-Bench-EN: 7.36
- IntelligentBench: 44.0
Questi numeri dimostrano che BAGEL compete ai massimi livelli nel panorama open source, con un focus particolare su efficienza e versatilità.
Un modello open source accessibile (anche localmente)
Una delle caratteristiche più apprezzate di BAGEL è la possibilità di eseguire l’inferenza su una singola GPU Nvidia A100, rendendolo ideale anche per:
- Laboratori universitari
- Studi creativi
- Start-up con risorse limitate
ByteDance dichiara una riduzione dei costi di inferenza del 40% rispetto ai modelli densi tradizionali della stessa dimensione. Una demo accessibile pubblicamente ha già attirato oltre 50.000 utenti su Hugging Face nelle prime 24 ore.
Fonte tecnica: GitHub – ByteDance/BAGEL
Un futuro legato a TikTok?
Dato che ByteDance è la casa madre di TikTok, molti osservatori ipotizzano un’integrazione futura di BAGEL nella popolare piattaforma social. Potrebbe abilitare:
- Generazione automatica di contenuti video e miniature.
- Editing visivo intelligente integrato nell’app.
- Assistenti AI per la creatività degli utenti.
L’arrivo di BAGEL rafforza la corsa cinese all’intelligenza artificiale multimodale, accanto a nomi come Baidu, DeepSeek e Alibaba.
Conclusione: BAGEL è una promessa concreta per l’AI open source
Con l’introduzione di BAGEL, ByteDance si posiziona tra i leader nella nuova ondata di modelli fondativi multimodali accessibili e ad alte prestazioni. Il supporto open source, le prestazioni competitive e l’efficienza operativa lo rendono uno strumento adatto a creatori, ricercatori e sviluppatori indipendenti.
Il suo futuro? Probabilmente legato all’ecosistema TikTok, ma anche a un ruolo crescente nella comunità globale dell’intelligenza artificiale.
Mi occupo di fornire agli utenti delle news sempre aggiornate, dal gossip al mondo tech, passando per la cronaca e le notizie di salute. I contenuti sono, in alcuni casi, scritti da più autori contemporaneamente vengono pubblicati su Veb.it a firma della redazione.