LLM Knowledge - 知識庫

提供 LLM fine-tuning 相關的結構化知識，減少上網搜尋時間。

知識範圍

本知識庫涵蓋以下領域（知識截止：2026-01）：

領域	內容
模型架構	Dense, MoE, MLA
基礎模型	Qwen, DeepSeek, Llama, Phi
訓練方法	SFT, LoRA, QLoRA, DoRA
對齊方法	DPO, ORPO, KTO, SimPO
任務類型	分類、NER、生成
問題排解	過擬合、欠擬合、類別不平衡

快速查詢

模型選擇

需求	推薦模型	說明
中文任務	Qwen3-4B/8B	中文能力最強
推理任務	DeepSeek-R1	推理鏈能力強
輕量部署	Phi-4	14B 效能媲美 70B
生態整合	Llama-3.3	工具支援最完整
成本優先	DeepSeek-V3	API 成本僅 1/17

訓練方法選擇

情況	推薦方法	原因
標準監督學習	SFT	最穩定基礎方法
資源有限	LoRA (r=32)	僅訓練 0.1% 參數
極低資源	QLoRA	4-bit 量化 + LoRA
有偏好資料	ORPO	無需參考模型
強調對齊	DPO	需要 chosen/rejected 對

LoRA 配置建議

資料量	LoRA r	alpha	說明
<500	16	32	保守配置，防過擬合
500-2000	32	64	建議配置
2000-5000	64	128	充足資料
>5000	128+	256+	可考慮 full fine-tuning

常見問題速查

症狀	可能原因	解決方案
整體 F1 低	資料不足/模型太小	增加資料、換大模型
某類別 F1 低	類別不平衡	過採樣、類別權重
Train loss 低但 eval 高	過擬合	減少 epochs、增加 dropout
Loss 不下降	學習率問題	調整 learning rate
輸出格式錯誤	訓練資料格式不一致	檢查 chat format

詳細知識

模型架構

Dense 架構

代表模型: Llama, Qwen (非-MoE), Phi
特點: 標準 Transformer，所有參數都參與計算
優點: 穩定、工具支援完整
缺點: 計算成本高

MoE (Mixture of Experts)

代表模型: DeepSeek-V3, Mixtral, Qwen-MoE
特點: 稀疏激活，只有部分專家參與計算
優點: 效率高，相同效能下成本更低
缺點: 部署複雜，需要更多記憶體

MLA (Multi-head Latent Attention)

代表模型: DeepSeek-V2/V3
特點: 壓縮 KV cache，降低推理成本
優點: 長序列效率高
應用: 適合長文本任務

訓練方法詳解

SFT (Supervised Fine-Tuning)

適用場景:
  - 標準分類、抽取任務
  - 有充足標註資料
  - 需要穩定可預測的結果

配置建議:
  epochs: 3-8
  learning_rate: 1e-5 ~ 5e-5
  batch_size: 4-16
  warmup_ratio: 0.1

LoRA (Low-Rank Adaptation)

適用場景:
  - 資源有限（GPU 記憶體不足）
  - 需要快速迭代
  - 保留基礎模型能力

配置建議:
  r: 16-64 (根據資料量)
  alpha: 2 * r
  dropout: 0.05-0.1
  target_modules: [q_proj, v_proj, k_proj, o_proj]

QLoRA

適用場景:
  - 極低資源環境
  - 消費級 GPU (RTX 3090, 4090)
  - 大模型微調

配置建議:
  quantization: 4-bit (nf4)
  lora_r: 32-64
  compute_dtype: bfloat16

DPO (Direct Preference Optimization)

適用場景:
  - 有 chosen/rejected 配對資料
  - 需要對齊人類偏好
  - 生成任務品質優化

配置建議:
  beta: 0.1-0.5
  需要資料: chosen/rejected pairs
  通常在 SFT 後進行

ORPO (Odds Ratio Preference Optimization)

適用場景:
  - 有偏好資料但不想用參考模型
  - 簡化訓練流程
  - 效率優先

配置建議:
  beta: 0.1
  lambda: 0.1
  無需參考模型

任務類型最佳實踐

情感分析

推薦配置:
  base_model: Qwen3-4B
  method: SFT + LoRA
  output: JSON (sentiment field)

注意事項:
  - 處理類別不平衡
  - 中立類別通常最難
  - 考慮 aspect-based 需求

命名實體識別 (NER)

推薦配置:
  base_model: Qwen3-8B
  method: SFT + LoRA
  output: JSON (entities array)

注意事項:
  - 實體邊界標註一致性
  - 考慮巢狀實體
  - 評估用 entity-level F1

文本生成

推薦配置:
  base_model: 依需求選擇
  method: SFT → ORPO/DPO
  output: 自然語言

注意事項:
  - 先 SFT 建立基礎能力
  - 再用對齊方法提升品質
  - 評估指標多元化

2025-2026 關鍵趨勢

MoE 成為主流: Top 10 開源模型均採用 MoE 架構
DeepSeek 崛起: R1 達 ChatGPT 水準，API 成本僅 1/17
Qwen 超越 Llama: HuggingFace 下載量和微調使用率第一
SLM 實用化: Phi-4、Gemma 3 在特定任務媲美大模型
對齊方法多元化: ORPO、KTO、SimPO、GRPO 湧現

llm-knowledgeSafety 100Repository

Package Files

LLM Knowledge - 知識庫

知識範圍

快速查詢

模型選擇

訓練方法選擇

LoRA 配置建議

常見問題速查

詳細知識

模型架構

Dense 架構

MoE (Mixture of Experts)

MLA (Multi-head Latent Attention)

訓練方法詳解

SFT (Supervised Fine-Tuning)

LoRA (Low-Rank Adaptation)

QLoRA

DPO (Direct Preference Optimization)

ORPO (Odds Ratio Preference Optimization)

任務類型最佳實踐

情感分析

命名實體識別 (NER)

文本生成

2025-2026 關鍵趨勢

相關資源

參考文件

查詢方式

Install

AI Quality Score

Metadata

Tags

llm-knowledgeSafety 100Repository ShareFavorite skill

Package Files

LLM Knowledge - 知識庫

知識範圍

快速查詢

模型選擇

訓練方法選擇

LoRA 配置建議

常見問題速查

詳細知識

模型架構

Dense 架構

MoE (Mixture of Experts)

MLA (Multi-head Latent Attention)

訓練方法詳解

SFT (Supervised Fine-Tuning)

LoRA (Low-Rank Adaptation)

QLoRA

DPO (Direct Preference Optimization)

ORPO (Odds Ratio Preference Optimization)

任務類型最佳實踐

情感分析

命名實體識別 (NER)

文本生成

2025-2026 關鍵趨勢

相關資源

參考文件

查詢方式

Install

AI Quality Score

Metadata

Tags

llm-knowledgeSafety 100Repository