نصب و راه‌اندازی LLM روی سیستم شخصی (قدم‌به‌قدم)

در این پست یاد می‌گیری چطور یک مدل زبانی بزرگ (LLM) را به‌صورت آفلاین روی سیستم خودت نصب و اجرا کنی؛ از انتخاب مدل تا اجرای چت محلی.

نصب و راه‌اندازی LLM روی سیستم شخصی (قدم‌به‌قدم)

این روزها همه‌جا صحبت از هوش مصنوعی و مدل‌های زبانی بزرگ (LLM) مثل ChatGPT است؛
اما همیشه لازم نیست به سرویس‌های ابری وصل شوی. می‌توانی یک مدل روی سیستم شخصی خودت اجرا کنی و بدون نیاز به اینترنت با آن کار کنی.

در این پست، قدم‌به‌قدم می‌رویم جلو تا یک LLM محلی را با ابزار ساده‌ای مثل Ollama روی سیستم راه بیندازیم.

نکته: مثال‌ها برای ویندوز/مک/لینوکس قابل پیاده‌سازی هستند. فقط شکل نصب در هر سیستم‌عامل کمی فرق می‌کند.


قدم اول: بررسی پیش‌نیازهای سخت‌افزاری

قبل از هر چیز، ببین سیستم تو برای اجرای LLM مناسب هست یا نه:

  • RAM پیشنهادی: حداقل ۸ گیگ، بهتر ۱۶ گیگ به بالا
  • فضای دیسک: هر مدل می‌تواند از چند گیگ تا ده‌ها گیگ فضا بگیرد
  • GPU (اختیاری ولی مهم): اگر کارت گرافیک مناسبی داشته باشی، مدل‌ها خیلی سریع‌تر اجرا می‌شوند

اگر سیستم خیلی ضعیف است، بهتر است:

  • از مدل‌های کوچک‌تر (مثل 3B یا 7B) استفاده کنی
  • یا از حالت CPU-only بهره بگیری و انتظار سرعت خیلی بالا نداشته باشی.

قدم دوم: انتخاب ابزار اجرای LLM (چرا Ollama؟)

روش‌های مختلفی برای اجرای LLM روی سیستم شخصی وجود دارد:

  • اجرای مستقیم مدل با PyTorch / TensorFlow (پیچیده‌تر و مناسب توسعه‌دهندگان ML)
  • استفاده از llama.cpp و ابزارهای مبتنی بر آن
  • استفاده از ابزارهای آماده مثل:
    • Ollama
    • LM Studio
    • text-generation-webui

در این راهنما از Ollama استفاده می‌کنیم چون:

  • نصب و استفاده‌اش ساده است
  • مدل‌های زیادی آماده دارد (Llama, Mistral و …)
  • API لوکال می‌دهد که بعداً می‌توانی در برنامه‌های خودت استفاده کنی.

قدم سوم: نصب Ollama

روی ویندوز

  1. وارد سایت ollama.com شو و نسخه ویندوز را دانلود کن.
  2. فایل نصب (.exe) را اجرا کن و مراحل نصب را ادامه بده.
  3. بعد از نصب، ترمینال (PowerShell یا CMD) را باز کن و این دستور را تست کن:
ollama --version

اگر نسخه Ollama را دیدی، یعنی نصب موفق بوده است.

روی مک

می‌توانی با Homebrew نصب کنی:

brew install ollama

یا از سایت رسمی، پکیج .dmg را دانلود و نصب کنی.

روی لینوکس

معمولاً با یکی از این دستورها (بسته به داکیومنت رسمی) نصب می‌شود:

curl -fsSL https://ollama.com/install.sh | sh

بعد از نصب، با این دستور صحت را چک کن:

ollama --version

قدم چهارم: دانلود یک مدل LLM مناسب

حالا وقت آن است که یک مدل را روی سیستم بیاوری.
برای شروع، مدل‌های سبک‌تر مثل Llama 3.1 8B یا Mistral 7B پیشنهاد می‌شوند.

مثلاً برای گرفتن مدل Llama 3.1:

ollama pull llama3.1

این دستور:

  • مدل را از مخزن رسمی Ollama دانلود می‌کند
  • آن را در سیستم کش می‌کند تا دفعه بعد نیاز به دانلود مجدد نباشد.

بسته به سرعت اینترنت و حجم مدل، این مرحله ممکن است چند دقیقه طول بکشد.


قدم پنجم: اجرای یک چت ساده با مدل محلی

بعد از پایان دانلود، یک چت ساده با مدل راه بینداز:

ollama run llama3.1

حالا یک محیط تعاملی باز می‌شود؛ هر سؤالی دوست داری بپرس، مثل:

سلام، می‌تونی به من بگی LLM دقیقا چیه؟

برای خروج معمولاً می‌توانی Ctrl + C بزنی یا دستور خروج داخلی برنامه را استفاده کنی.


قدم ششم: استفاده از LLM لوکال در برنامه‌های خودت (API)

یکی از جذاب‌ترین بخش‌ها این است که بتوانی از همین مدل محلی در برنامه‌های خودت (وب، بک‌اند، اسکریپت‌ها) استفاده کنی.

Ollama یک API HTTP در اختیار می‌گذارد. به‌صورت پیش‌فرض روی آدرس شبیه زیر گوش می‌دهد:

  • http://localhost:11434

مثال ساده با curl:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "سلام، به صورت کوتاه توضیح بده LLM چیست."
}'

در پاسخ، متن تولید شده توسط مدل را برمی‌گرداند که می‌توانی در هر جایی استفاده کنی.

اگر با Node.js کار می‌کنی، می‌توانی با fetch این API را صدا بزنی و در یک ربات، وب‌هوک یا وب‌اپ از آن استفاده کنی.


قدم هفتم: نکات بهینه‌سازی و مدیریت منابع

برای این‌که تجربه بهتری داشته باشی:

  • مدل مناسب با سخت‌افزارت انتخاب کن
    • اگر RAM کم داری، سراغ مدل‌های کوچک‌تر برو.
  • هم‌زمان چند مدل سنگین را اجرا نکن
    • هر مدل چند گیگ RAM و VRAM می‌گیرد.
  • اگر سیستم داغ می‌شود:
    • فن و تهویه را بررسی کن
    • هم‌زمان کارهای سنگین دیگر (مثل رندر ویدیو یا بازی) انجام نده.

جمع‌بندی

در این پست دیدی که چطور می‌توانی:

  1. پیش‌نیازهای سخت‌افزاری لازم برای اجرای LLM محلی را بررسی کنی
  2. ابزار Ollama را روی سیستم شخصی نصب کنی
  3. یک مدل LLM (مثل Llama 3.1) را دانلود و اجرا کنی
  4. از طریق ترمینال با مدل چت کنی
  5. با استفاده از API لوکال، LLM را در برنامه‌های خودت وارد کنی

اگر دوست داشتی در پست‌های بعدی، درباره:

  • ساخت چت‌بات اختصاصی با داده‌های شخصی
  • اتصال LLM محلی به یک وب‌سایت یا پنل ادمین
  • یا مقایسه سرعت و کیفیت چند مدل مختلف

بنویسم، حتماً به من بگو. این فقط قدم اول برای ساخت ابزارهای هوش مصنوعی شخصی روی سیستم خودت بود.