
Stability AI lance Stability Audio 3.0, une nouvelle famille de modèles de génération sonore dont la version la plus avancée promet de produire des morceaux « professionnels » jusqu’à 6 minutes 20, soit plus du double de la durée atteinte par Stable Audio 2.0 l’an dernier.
Quatre modèles, des usages distincts
La gamme comprend quatre variantes : deux petits modèles à 459 millions de paramètres (XFS et une déclinaison « small ») conçus pour l’exécution sur appareil, capables de générer localement jusqu’à deux minutes d’effets sonores ou de musique, un modèle « medium » à 1,4 milliard de paramètres et un « large » à 2,7 milliards de paramètres. Les versions medium et large se distinguent par un pilotage plus fin de la structure musicale, avec maintien précis du thème et de l’harmonie sur des durées étendues.

Stability AI ouvre les poids des modèles SFX small, small et medium. Le modèle large reste réservé à l’API et à l’hébergement payant, avec une exigence de licence commerciale pour les entreprises dont le chiffre d’affaires annuel dépasse 1 million de dollars (environ 918 000 €).
Cadre de licence et jeu de données
Pour limiter le risque juridique, la société rappelle avoir noué l’an dernier des accords de licence avec Warner Music Group et Universal Music Group. Stability affirme que Stability Audio 3.0 a été entraîné exclusivement sur des données sous licence.
Virage pro et gouvernance produit
Un nouveau portefeuille destiné aux musiciens professionnels est en préparation, sans détails fonctionnels pour l’instant. Ethan Kaplan, ex-Global Head of Audio chez Universal et ex-Chief Digital Officer de Fender, rejoint l’entreprise pour piloter cette offre.
En proposant des petits modèles exécutables en local et un grand modèle premium uniquement via API, Stability AI segmente clairement les cas d’usage: prototypage rapide et embarqué d’un côté, production longue et sous contrôle strict de l’autre. Cette architecture miroir du marché de l’image générative devrait accélérer l’adoption en studio tout en cadrant la conformité, à condition que la latence, la qualité timbrale et la cohérence structurelle promises se vérifient dans les workflows réels.
Source : ITHome