上個月我在做一個小專案,需要一直呼叫 ChatGPT API,結果月底一看帳單嚇了一跳。後來有朋友跟我說:「你幹嘛不用 Ollama?在本地跑 LLM,完全免費。」試了之後發現真的不錯,所以寫這篇給有同樣需求的人。
用 Ollama 本地 LLM 的方式很直接:在自己電腦安裝 Ollama,用一行指令下載模型,然後直接在終端機對話,或透過 REST API 接進你的程式。整個流程不需要任何帳號或 API Key,資料全程留在你的機器上,支援 macOS、Linux、Windows 三個平台。
為什麼要在本地跑 LLM?
用雲端 API 的時候,你的 prompt 和資料都會送到對方的伺服器。如果你在處理一些不想外流的內容——公司內部文件、個人日記、客戶資料——這就是個問題。相較之下,Ollama 本地 LLM 的最大價值就可以解決這個問題。
Ollama 本地 LLM 讓你完全避開這個問題。資料全程留在你自己的電腦上,不上雲、不付費、沒有網路也能用。
具體好處:
- – 隱私:你的 prompt 不會送到任何外部伺服器
- – 離線:斷網也能跑,出差坐飛機照用
- – 費用:模型本身是開源的,Ollama 工具也是免費的
- – 速度控制:不受 API 速率限制,批次處理任務更自由
當然有個前提:你的電腦要夠力。輕量模型(像 phi3)CPU 也跑得動,只是速度慢一點;有 GPU 的話明顯快很多。我自己在 M2 MacBook Air 上跑 llama3,回應速度大概每秒 20–30 個 token,日常對話完全夠用。
安裝 Ollama:5 分鐘搞定
Ollama 本地 LLM 支援 macOS、Linux、Windows,安裝方式都不複雜。
macOS(用 Homebrew):
brew install ollama還沒下載 homebrew 的可以看 macOS 開發環境太亂?5 分鐘學會 Homebrew 套件管理。
如果遇到 command not found:
macOS 上用 Homebrew 裝完後,要確認 /opt/homebrew/bin 在你的 PATH 裡。在 ~/.zshrc 加上:
export PATH="/opt/homebrew/bin:$PATH"然後 source ~/.zshrc 重新載入,再試一次 ollama --version。
Linux:
curl -fsSL https://ollama.com/install.sh | shLinux 上 ollama 服務沒有自動啟動: 安裝完後跑一次 ollama serve 讓服務在背景運行,之後的 ollama run 指令才能正常使用。
Windows: 直接去 Ollama 官方網站 下載安裝包,點兩下裝好。
裝完之後驗證一下:
ollama --version有跑出版本號就代表裝好了。我自己是跑 macOS,整個過程大概三分鐘。
跑第一個模型:一行指令搞定
裝好 Ollama 之後,跑一個模型只要一行指令:
ollama run llama3第一次跑的時候會先下載模型,llama3 大概 4GB 左右,視網速等個幾分鐘。下載完之後你會看到這樣的介面:
pulling manifest
pulling 6a0746a1ec1a... 100% ████████████████ 4.7 GB
verifying sha256 digest
writing manifest
>>> Send a message (/? for help)直接打字就可以和模型對話了。試試看輸入「你好,用中文回答我」,看看它有沒有回應。用 /bye 或 Ctrl+D 可以結束對話。
如果你的電腦記憶體比較小,或是 CPU 比較弱,建議先試 phi3 這個輕量版本:
ollama run phi3phi3 大概 2GB,速度快很多,效果也還算不錯。我在一台老 MacBook Air 上跑,等待時間可以接受。
想看 Ollama 支援哪些模型,可以去看支援的模型列表。Ollama 本地 LLM 的模型庫包含 llama3、phi3、mistral、gemma2 等主流開源模型,可以根據你的硬體規格選擇適合的大小。
Ollama 適合拿來做什麼?
純聊天只是最基本的用法,Ollama 真正有趣的地方是可以整合進你的工作流。
本地開發和測試 要測試 LLM 功能但又不想一直燒 API 費用,用 Ollama 在本地先跑通邏輯是很好的選擇。我自己在做 side project 的時候都先用 Ollama 測,確定流程沒問題再換成正式 API。
搭配 Open WebUI 做成網頁介面 裝好 Open WebUI 之後,你會得到一個幾乎和 ChatGPT 一模一樣的介面,但跑的是你本地的模型。可以分享給家人或同事用,他們根本不會知道背後不是 ChatGPT。
API 串接 自己的應用程式 Ollama 啟動後預設會在 localhost:11434 開一個 REST API,格式和 OpenAI 的 API 很接近。你可以直接把現有用 OpenAI 的程式碼換成 Ollama,改幾行就好。
import requests
response = requests.post(
"http://localhost:11434/api/generate",
json={"model": "phi3", "prompt": "用一句話解釋 Python 的 GIL"}
)
print(response.json()["response"])也可以試試 自動化腳本和批次處理,改用 Ollama 本地 LLM,可以省 API 費用,也不用擔心請求頻率限制。對於需要大量呼叫 LLM 的任務,Ollama 本地 LLM 的優勢特別明顯。
隱私敏感場景 若你的工作涉及個資、合約或內部文件,Ollama 本地 LLM 是比雲端服務更安全的選擇。所有分析都在本機完成,不存在外洩風險。
常見問題
Ollama 支援哪些作業系統?
macOS、Linux、Windows 都支援。macOS 用 Homebrew 最快,Linux 用官方 curl 安裝腳本,Windows 去官網下載安裝包,點兩下完成。
跑 Ollama 本地 LLM 需要 GPU 嗎?
不一定。phi3 等輕量模型在 CPU 上就能跑,速度較慢。有 NVIDIA 或 Apple Silicon GPU 速度會明顯更快,M2 MacBook 跑 llama3 大約每秒 20–30 個 token。
Ollama 要錢嗎?
Ollama 工具本身免費,支援的模型(llama3、phi3 等)也是開源免費,不需要 API Key 或任何付費方案。
ollama run 和 ChatGPT API 有什麼差別?
Ollama 本地 LLM 在你的機器上執行,資料不離開電腦、不需要付費、可以完全離線使用。ChatGPT API 在雲端,速度快但需要費用且資料會上傳給 OpenAI。兩者最大的差異就是 Ollama 本地 LLM 把控制權還給使用者。
Ollama 可以搭配自己的程式使用嗎?
可以。Ollama 本地 LLM 啟動後在 localhost:11434 開 REST API,格式與 OpenAI API 接近,幾行程式碼就能串接。
Takeaway
Ollama 本地 LLM 安裝簡單、免費、隱私有保障——對我來說這三個理由已經夠充分了。
跑起來之後如果想要更好的介面,下一步可以去裝 Open WebUI,體驗會好很多。



