IA en local sur mac

igorbatchev

Membre actif
22 Novembre 2009
459
15
Bonjour,

[ma config : M1pro 2021, 32go de RAM]

Je crée ce sujet parce que je cherche à me doter d'une IA en locale, la plus open source possible. J'utilise parfois Claude, mais j'aimerais passer à un modèle local, par curiosité, et aussi parce que j'aimerais pouvoir utiliser ce modèle sans être connecté à internet.
J'ai fait quelques recherches, mais je tâtone pas mal.
De ce que j'ai compris ici :
Il faut que je choisisse un utilitaire d'exécution et un modèle.
J'ai téléchargé Ollama, et quand je le lance et que je pose une question, il télécharge gpt-oss:20b. Je lui pose une question sur un sujet que je connais bien, et la réponse est catastrophique, pure hallucination d'IA semée de quelques vérités.

Le modèle que j'avais retenu et qui m'intéresse est le suivant : falcon 40b (un peu au hasard pour être honnête, j'ai lu des choses qui me plaisent à son sujet mais sans plus).
ollama pull falcon:40b-instruct

falcon:40b est maintenant disponible quand je lance ollama, je repose la même question, trois points de suspensions s'affichent et m'indiquent qu'Olllama est en train d'exécuter ma demande... mais ça dure ça dure et je n'ai pas de réponse, j'ai l'impression que ce modèle est bien trop gourmand pour ma machine, ce que je confirme en posant la question à gpt-oss:20b qui me conseille de me rabattre sur Falcon‑7B, tout en me disant que ma machine sera quand même très lente avec ce modèle.

A ce stade je me dis que je ne comprends pas grand chose et que j'ai besoin d'aide et de retours d'expérience. Est-ce que vous utlisez des modèles IA en local ? Si oui, avec une configuration proche de la mienne ? Est-ce que vous pouvez me conseiller des modèles ? Est-ce que c'est un bon départ de partir sur Ollama ?

Merci d'avance
Igorbatchev
 
Tu peux commencer par utiliser quelque chose de bien plus simple comme Lmstudio.

Qui te permettra d'avoir une interface déjà pour commencer plus sympa, et qui t'indiquera clairement ce qui se passe et comment, et quels sont les modèles recommandés pour ta machine ou non.
 
Et sinon, une réponse qu'une IA me donne pour ta problématique:

Pour un MacBook Pro M1 Pro avec 32 Go de RAM, vise des modèles 7B à 14B en quantization 4–5 bits (GGUF/MLX) pour un bon équilibre vitesse/qualité dans LM Studio, avec préférence aux versions MLX quand disponibles pour profiter d’Apple Silicon.

Modèles conseillés​

  • Llama 3.1/3.2 8B Instruct (Q4_K_M GGUF ou MLX) : très bon généraliste, multilingue correct, rapide sur M1 Pro, bon pour chat et productivité.
  • Qwen 2.5 7B/14B Instruct (Q4/Q5, MLX si dispo) : fort en raisonnement, outils/coding, multilingue solide ; 14B passe mais sera plus lent et consommera plus de mémoire.
  • Mistral 7B Instruct (Q4_K_M) : léger et vif, bonnes réponses courtes, idéal pour prompts concis.
  • DeepSeek 7B/12B distill (Q4) : vitesse correcte, style direct, mais variantes open source peuvent être restreintes selon checkpoint.
  • Gemma 2 9B/12B Instruct (Q4) : bonne qualité texte et coding léger ; éviter quant trop agressives si les sorties se dégradent.

Formats et moteur​

  • Préfère les builds MLX dans LM Studio sur Apple Silicon pour de meilleurs débits et une utilisation efficace de la mémoire unifiée.
  • Les modèles GGUF via llama.cpp restent très compatibles ; mélange MLX et llama.cpp possible dans LM Studio.

Tailles/quantizations adaptées​

  • 7B Q4/Q5 : fluide (chat général, assistance).
  • 8–9B Q4/Q5 : meilleur équilibre qualité/latence.
  • 12–14B Q4 : qualité supérieure mais plus lent ; encore viable avec 32 Go RAM si contexte modéré.

Réglages LM Studio (Apple Silicon)​

  • Active le moteur MLX quand disponible pour le modèle chargé.
  • GPU Offload : laisse sur « Auto » ou « Max-1 » si tu vois des sorties corrompues sur Metal avec certains 12B (bug connu contourné en réduisant d’une couche).
  • Contexte : 4k–8k tokens suffisent sur 32 Go pour garder de bonnes perfs ; contextes très longs font basculer plus de mémoire en RAM et ralentissent.

Cas d’usage rapides​

  • Chat/productivité FR/EN : Llama 3.1/3.2 8B Instruct (MLX) ou Qwen 2.5 7B Instruct.
  • Coding léger (VSCode, snippets) : Qwen 2.5 14B Instruct Q4 si acceptable en latence ; sinon Gemma 2 9B/12B.
  • Raisonnement/explications : Mistral 7B ou Llama 3.1/3.2 8B pour rapidité ; passer à 12–14B si besoin de précision.
 
Tu peux commencer par utiliser quelque chose de bien plus simple comme Lmstudio.

Qui te permettra d'avoir une interface déjà pour commencer plus sympa, et qui t'indiquera clairement ce qui se passe et comment, et quels sont les modèles recommandés pour ta machine ou non.
Merci ! Mais ce n'est pas avec Ollama que je ressens des problème ou que je me sens perdu, du coup je vais rester dessus, d'autant que j'aime que le logiciel soit en licence Apache 2.0 !
Je tente avec Mistral 7B.
 
J'ai téléchargé Mistral, dans cette version :

Bloc de code:
 Model
    architecture        llama     
    parameters          7.2B     
    context length      32768     
    embedding length    4096     
    quantization        Q4_K_M

Je repose la même question que j'avais posée pour tester gpt-oss:20b., et de nouveau la réponse est assez catastrophique.
J'ai aussi posé une question de logique (comment répartir des stockage de données sur 6 disques dans deux endroits différents), et j'obtiens une réponse très générale sur les avantages du Cloud.
Dois-je en déduire que les modèles que je peux faire tourner sur ma machine sont loin d'être satisfaisant ?