TechFlow rapporte que, le 30 mars, selon les données de JINSHI, Alibaba Qwen a annoncé le lancement de son grand modèle multimodal Qwen3.5-Omni. La série Qwen3.5-Omni comprend trois versions « Instruct » aux dimensions Plus, Flash et Light, prenant en charge un contexte long de 256 k tokens, une entrée audio dépassant 10 heures ainsi qu’une entrée audiovisuelle en résolution 720p (1 image par seconde) d’une durée supérieure à 400 secondes. Ce modèle a bénéficié d’un entraînement préliminaire nativement multimodal sur d’énormes volumes de données textuelles et visuelles, ainsi que sur plus de 100 millions d’heures de données audiovisuelles, ce qui lui confère des capacités remarquables de perception et de génération dans tous les modes. Par rapport à Qwen3-Omni, Qwen3.5-Omni présente une amélioration significative de ses capacités multilingues : il prend désormais en charge la reconnaissance vocale dans 113 langues et dialectes, ainsi que la synthèse vocale dans 36 langues et dialectes.
Dédié à des analyses Web3 approfondies
Je veux contribuer
Demande de reportage
Avertissement : tout le contenu de ce site ne constitue pas un conseil en investissement et aucun service de signal ou d’incitation au trading n’est fourni. Conformément à l’avis des dix ministères, dont la Banque populaire de Chine, sur la prévention des risques liés au trading de cryptomonnaies, veuillez rester vigilants face aux risques. Contact : support@techflowpost.com ICP n° 琼ICP备2022009338号




