ShengShu Technology dévoile son modèle d’entraînement physique AI multi-vues Vidar

Un vent de nouveauté souffle sur le domaine de l’intelligence artificielle incarnée.ShengShu Technology dévoile Vidar, son modèle révolutionnaire.Ce dernier redéfinit la manière dont les robots apprennent et interagissent.
Grâce à une approche innovante, Vidar utilise des mondes simulés plutôt que des données physiques pour entraîner ses algorithmes. En combinant des données d’entraînement limitées avec des vidéos génératives, ce modèle parvient à simuler des environnements réalistes. Cette méthode permet de réduire significativement les coûts et le temps nécessaires au développement de robots intelligents. Contrairement aux méthodes traditionnelles dépendantes du matériel, Vidar offre une flexibilité inégalée. La technologie se distingue par son architecture d’apprentissage modulaire à deux étapes. Cette séparation claire entre perception et contrôle facilite l’adaptation du modèle à différents types de robots. ShengShu Technology s’affirme ainsi comme un leader dans le domaine des modèles de langage multimodaux et des solutions IA évolutives.

Le modèle Vidar intègre les capacités de compréhension sémantique et vidéo de la plateforme Vidu, permettant une prise de décision robotique plus affinée dans des environnements réels. En simulant des scénarios variés dans un espace virtuel, Vidar génère des prédictions et crée de nouvelles hypothèses, offrant ainsi une formation plus robuste et évolutive. Cette avancée technologique se présente comme une alternative efficace aux méthodes coûteuses et gourdes en matériel, souvent difficiles à mettre à l’échelle.

Fondée en mars 2023, ShengShu Technology s’est spécialisée dans le développement de grands modèles de langage multimodaux. Basée à Beijing, l’entreprise propose des produits de mobilité en tant que service (MaaS) et de logiciel en tant que service (SaaS) pour une création de contenu plus intelligente, rapide et scalable. Avec sa plateforme phare de génération vidéo, Vidu, ShengShu a atteint des utilisateurs dans plus de 200 pays et régions, couvrant des domaines tels que le divertissement interactif, la publicité, le cinéma, l’animation et le tourisme culturel.

L’innovation majeure de Vidar réside dans sa capacité à combiner des données d’entraînement physiques limitées avec des vidéos génératives, créant des environnements de formation réalistes sans les contraintes du monde réel. Cette approche permet une formation plus rapide et moins coûteuse, tout en maintenant la complexité nécessaire pour des agents IA capables d’opérer dans des contextes variés. En utilisant seulement 20 minutes de données d’entraînement, Vidar peut extrapoler une série d’actions robotiques généralisées, ce qui représente une fraction minime des données requises par les modèles leaders de l’industrie.

La structure en deux étapes de Vidar sépare la perception du contrôle, offrant une plus grande flexibilité et une meilleure scalabilité. Dans la première phase, de vastes ensembles de données vidéo générales et des données vidéo incarnées de taille modérée sont utilisés pour entraîner le modèle Vidu en compréhension perceptuelle. Dans la seconde phase, un modèle agnostique aux tâches nommé AnyPos transforme cette compréhension visuelle en commandes motrices actionnables pour les robots. Cette division simplifie et accélère considérablement la formation et le déploiement de l’IA sur divers types de robots, tout en réduisant les coûts et en augmentant la scalabilité.

En s’appuyant sur l’architecture U-ViT, qui fusionne des modèles de diffusion et des architectures de transformateurs, Vidar utilise une modélisation temporelle à long terme et une cohérence vidéo multi-angle pour alimenter la prise de décision physiquement ancrée. Ce design facilite le transfert rapide de la simulation à la mise en œuvre dans le monde réel, essentiel pour les robots évoluant dans des environnements dynamiques. De plus, il minimise la complexité de l’ingénierie, rendant l’adoption de la robotique plus accessible à divers secteurs, allant des assistants domestiques et des soins aux personnes âgées à la fabrication intelligente et à la robotique médicale.

Vidar établit une voie native à l’IA pour le développement de la robotique, en combinant efficacité, scalabilité et rentabilité. En transformant des vidéos générales en intelligence robotique exploitable, le modèle de ShengShu comble le fossé entre la compréhension visuelle et l’agence incarnée. Avec des statistiques impressionnantes témoignant de son adoption rapide, Vidu a atteint 1 million d’utilisateurs en un mois, plus de 10 millions en trois mois, et plus de 300 millions de vidéos générées à ce jour. Vidar représente la prochaine étape pour ShengShu Technology dans l’expansion des frontières de l’IA multimodale, réunissant généralisation, générativité et incarnation dans un système unifié.

découvrez le modèle d'entraînement physique ai multi-vues vidar de shengshu technology, une avancée révolutionnaire qui promet d'améliorer votre expérience d'entraînement grâce à une technologie innovante et intelligente.

ShengShu Technology dévoile son modèle d’entraînement physique IA multi-vues Vidar

Dans le paysage en constante évolution de l’intelligence artificielle, ShengShu Technology se distingue une fois de plus en lançant Vidar, un modèle d’entraînement physique IA multi-vues innovant. Ce lancement marque une avancée significative dans la manière dont les modèles d’IA incarnée sont formés et déployés, offrant une solution à la fois scalable et efficace pour les développeurs de robots et les entreprises technologiques.

Qu’est-ce que le modèle Vidar et comment fonctionne-t-il ?

Vidar, acronyme de “video diffusion for action reasoning”, est le dernier modèle développé par ShengShu Technology. Contrairement aux méthodes traditionnelles d’entraînement de l’IA physique qui nécessitent une collecte massive de données physiques, Vidar utilise des mondes simulés pour entraîner les modèles. En combinant des données physiques limitées avec des vidéos génératives, Vidar crée des scénarios hypothétiques simulés qui permettent aux robots de prendre des décisions dans des environnements réels.

Cette approche innovante permet de surmonter les limitations des méthodes dépendantes de matériel coûteux et difficiles à scalable. En utilisant le platforme Vidu, ShengShu génère des simulations multi-vues qui enrichissent le processus d’apprentissage de l’IA, rendant l’entraînement plus robuste et flexible.

Quels sont les avantages de l’approche multi-vues de Vidar ?

L’approche multi-vues de Vidar offre plusieurs avantages clés par rapport aux méthodes traditionnelles d’entraînement de l’IA physique. Tout d’abord, elle réduit considérablement la dépendance aux données physiques, ce qui diminue les coûts et le temps nécessaires pour former les modèles. ShengShu Technology affirme que Vidar peut extrapoler une série d’actions robotiques généralisées à partir de seulement 20 minutes de données d’entraînement, comparativement aux 1/80 à 1/1,200 de données nécessaires pour les modèles concurrents.

De plus, Vidar utilise une architecture d’apprentissage modulaire en deux étapes, différenciant la perception du contrôle. Cette séparation permet une plus grande flexibilité et une scalabilité accrue, facilitant ainsi le déploiement de l’IA sur différents types de robots. En outre, cette méthode permet une transition rapide de la simulation au déploiement réel, essentielle pour les robots opérant dans des environnements dynamiques.

Comment Vidar accélère-t-il le développement des robots ?

Vidar permet d’accélérer le développement des robots en optimisant le processus d’apprentissage. Grâce à son utilisation de simulations vidéo génératives, Vidar crée des environnements d’entraînement réalistes et variés sans nécessiter une collection extensive de données physiques. Cela signifie que les développeurs peuvent tester et affiner leurs modèles d’IA plus rapidement et à moindre coût.

Par ailleurs, en s’appuyant sur le modèle génératif vidéo Vidu, Vidar peut prédire et générer des scénarios complexes qui seraient difficiles à capturer dans le monde réel. Cette capacité à simuler des situations variées et des cas limites assure que les robots formés avec Vidar sont mieux préparés pour des interactions réelles et imprévues.

Dans quels secteurs Vidar peut-il être appliqué ?

Vidar ouvre la voie à une adoption accrue de la robotique dans divers secteurs grâce à sa capacité d’adaptation rapide et sa scalabilité. Parmi les secteurs potentiels, on trouve :

  • Assistants domestiques : Vidar permet de développer des robots capables d’effectuer des tâches ménagères complexes avec une grande précision.
  • Soins aux personnes âgées : Les robots formés avec Vidar peuvent offrir une assistance efficace et personnalisée, améliorant la qualité de vie des utilisateurs.
  • Fabrication intelligente : Dans le secteur industriel, Vidar facilite la création de robots polyvalents capables de s’adapter à différentes tâches de production.
  • Robots médicaux : Les applications médicales bénéficient de robots précis et fiables, capables de réaliser des procédures délicates et d’assister les professionnels de santé.

De plus, grâce à des plateformes comme Vidu, Vidar peut étendre ses capacités à des domaines innovants tels que les simulateurs de sport en réalité virtuelle, offrant de nouvelles opportunités d’entraînement et de développement physique.

Quels sont les aspects techniques innovants de Vidar ?

L’innovation principale de Vidar réside dans son architecture d’apprentissage en deux étapes, qui sépare la perception du contrôle. Cette modularité permet de :

1. Séparer la compréhension visuelle des commandes motrices : Dans la première étape, Vidar utilise de grands ensembles de données vidéo pour former une compréhension perceptuelle. Dans la deuxième étape, un modèle nommé AnyPos transforme cette compréhension en commandes motrices exploitables par les robots.

2. Utiliser une pyramide de données en trois niveaux : Vidar intègre des données vidéo génériques à grande échelle, des données vidéo incarnées à échelle modérée, et des exemples spécifiques aux robots, créant ainsi une pyramide de données flexible qui réduit les goulots d’étranglement traditionnels liés aux données.

Comment ShengShu Technology se positionne-t-elle dans le marché de l’IA multimodale ?

Depuis sa fondation en mars 2023, ShengShu Technology s’est spécialisée dans le développement de modèles de langage multimodaux (LLMs) et de solutions de mobility-as-a-service (MaaS) et software-as-a-service (SaaS). Avec sa plateforme de génération vidéo Vidu, l’entreprise a rapidement atteint plus de 300 millions de vidéos générées et plus de 10 millions d’utilisateurs en seulement trois mois.

Cette croissance rapide témoigne de l’adoption massive des solutions de ShengShu dans divers secteurs tels que l’divertissement interactif, la publicité, le cinéma, l’animation et le tourisme culturel. En combinant ces succès avec le lancement de Vidar, ShengShu consolide sa position de leader dans l’innovation de l’intelligence artificielle multimodale.

Quels sont les futurs développements prévus pour Vidar ?

ShengShu Technology continue d’étendre les capacités de Vidar en explorant de nouvelles avenues pour l’intelligence artificielle incarnée. Parmi les développements futurs, on peut attendre :

  • Amélioration de l’interaction en langage naturel : Après un ajustement fin, Vidar pourra répondre à des commandes vocales en langage naturel, rendant l’interaction avec les robots encore plus intuitive et accessible.
  • Expansion des scénarios de simulation : En augmentant la variété des environnements simulés, Vidar pourra former des modèles d’IA encore plus polyvalents et robustes.
  • Intégration avec d’autres technologies de réalité augmentée : L’intégration avec des technologies de réalité augmentée, comme le casque de réalité augmentée HMS, pourrait ouvrir de nouvelles possibilités pour l’entraînement et l’interaction avec les robots.

En outre, ShengShu prévoit de participer à des événements majeurs tels que RoboBusiness 2025 à Santa Clara, Californie, où des discussions approfondies sur l’IA physique et les robots humanoïdes mettront en lumière les capacités de Vidar et les innovations à venir.

Comment Vidar contribue-t-il à rendre l’IA plus accessible et scalable ?

Vidar est conçu pour rendre l’intelligence artificielle incarnée plus accessible et scalable grâce à son approche innovante de l’entraînement. En réduisant la dépendance aux données physiques et en exploitant des mondes simulés, Vidar permet aux entreprises de toutes tailles d’intégrer des modèles d’IA avancés sans les barrières traditionnelles de coût et de complexité.

La capacité de Vidar à générer des simulations réalistes et à prédire des scénarios complexes garantit que les modèles formés sont prêts pour une large gamme d’applications réelles, accélérant ainsi l’adoption de la robotique dans divers domaines. De plus, l’architecture modulaire de Vidar facilite l’adaptation et l’extension des capacités du modèle, permettant aux développeurs de personnaliser et d’optimiser les solutions d’IA en fonction des besoins spécifiques de leurs projets.

En intégrant des technologies de pointe telles que le simulateur de gymnastique en réalité virtuelle, Vidar montre comment l’IA et la simulation virtuelle peuvent se combiner pour créer des solutions efficaces et économiques pour l’entraînement et le développement des robots.