askill
llm-knowledge

llm-knowledgeSafety 100Repository

This skill should be used when the user asks "what is LoRA", "compare models", "which model is best for Chinese", "SFT vs DPO", "how to handle overfitting", "class imbalance solution", "model architecture", "training method comparison", or needs reference information about LLM fine-tuning. Provides structured knowledge base for models, methods, architectures, and troubleshooting.

0 stars
1.2k downloads
Updated 1/12/2026

Package Files

Loading files...
SKILL.md

LLM Knowledge - 知識庫

提供 LLM fine-tuning 相關的結構化知識,減少上網搜尋時間。

知識範圍

本知識庫涵蓋以下領域(知識截止:2026-01):

領域內容
模型架構Dense, MoE, MLA
基礎模型Qwen, DeepSeek, Llama, Phi
訓練方法SFT, LoRA, QLoRA, DoRA
對齊方法DPO, ORPO, KTO, SimPO
任務類型分類、NER、生成
問題排解過擬合、欠擬合、類別不平衡

快速查詢

模型選擇

需求推薦模型說明
中文任務Qwen3-4B/8B中文能力最強
推理任務DeepSeek-R1推理鏈能力強
輕量部署Phi-414B 效能媲美 70B
生態整合Llama-3.3工具支援最完整
成本優先DeepSeek-V3API 成本僅 1/17

訓練方法選擇

情況推薦方法原因
標準監督學習SFT最穩定基礎方法
資源有限LoRA (r=32)僅訓練 0.1% 參數
極低資源QLoRA4-bit 量化 + LoRA
有偏好資料ORPO無需參考模型
強調對齊DPO需要 chosen/rejected 對

LoRA 配置建議

資料量LoRA ralpha說明
<5001632保守配置,防過擬合
500-20003264建議配置
2000-500064128充足資料
>5000128+256+可考慮 full fine-tuning

常見問題速查

症狀可能原因解決方案
整體 F1 低資料不足/模型太小增加資料、換大模型
某類別 F1 低類別不平衡過採樣、類別權重
Train loss 低但 eval 高過擬合減少 epochs、增加 dropout
Loss 不下降學習率問題調整 learning rate
輸出格式錯誤訓練資料格式不一致檢查 chat format

詳細知識

模型架構

Dense 架構

  • 代表模型: Llama, Qwen (非-MoE), Phi
  • 特點: 標準 Transformer,所有參數都參與計算
  • 優點: 穩定、工具支援完整
  • 缺點: 計算成本高

MoE (Mixture of Experts)

  • 代表模型: DeepSeek-V3, Mixtral, Qwen-MoE
  • 特點: 稀疏激活,只有部分專家參與計算
  • 優點: 效率高,相同效能下成本更低
  • 缺點: 部署複雜,需要更多記憶體

MLA (Multi-head Latent Attention)

  • 代表模型: DeepSeek-V2/V3
  • 特點: 壓縮 KV cache,降低推理成本
  • 優點: 長序列效率高
  • 應用: 適合長文本任務

訓練方法詳解

SFT (Supervised Fine-Tuning)

適用場景:
  - 標準分類、抽取任務
  - 有充足標註資料
  - 需要穩定可預測的結果

配置建議:
  epochs: 3-8
  learning_rate: 1e-5 ~ 5e-5
  batch_size: 4-16
  warmup_ratio: 0.1

LoRA (Low-Rank Adaptation)

適用場景:
  - 資源有限(GPU 記憶體不足)
  - 需要快速迭代
  - 保留基礎模型能力

配置建議:
  r: 16-64 (根據資料量)
  alpha: 2 * r
  dropout: 0.05-0.1
  target_modules: [q_proj, v_proj, k_proj, o_proj]

QLoRA

適用場景:
  - 極低資源環境
  - 消費級 GPU (RTX 3090, 4090)
  - 大模型微調

配置建議:
  quantization: 4-bit (nf4)
  lora_r: 32-64
  compute_dtype: bfloat16

DPO (Direct Preference Optimization)

適用場景:
  - 有 chosen/rejected 配對資料
  - 需要對齊人類偏好
  - 生成任務品質優化

配置建議:
  beta: 0.1-0.5
  需要資料: chosen/rejected pairs
  通常在 SFT 後進行

ORPO (Odds Ratio Preference Optimization)

適用場景:
  - 有偏好資料但不想用參考模型
  - 簡化訓練流程
  - 效率優先

配置建議:
  beta: 0.1
  lambda: 0.1
  無需參考模型

任務類型最佳實踐

情感分析

推薦配置:
  base_model: Qwen3-4B
  method: SFT + LoRA
  output: JSON (sentiment field)

注意事項:
  - 處理類別不平衡
  - 中立類別通常最難
  - 考慮 aspect-based 需求

命名實體識別 (NER)

推薦配置:
  base_model: Qwen3-8B
  method: SFT + LoRA
  output: JSON (entities array)

注意事項:
  - 實體邊界標註一致性
  - 考慮巢狀實體
  - 評估用 entity-level F1

文本生成

推薦配置:
  base_model: 依需求選擇
  method: SFT → ORPO/DPO
  output: 自然語言

注意事項:
  - 先 SFT 建立基礎能力
  - 再用對齊方法提升品質
  - 評估指標多元化

2025-2026 關鍵趨勢

  1. MoE 成為主流: Top 10 開源模型均採用 MoE 架構
  2. DeepSeek 崛起: R1 達 ChatGPT 水準,API 成本僅 1/17
  3. Qwen 超越 Llama: HuggingFace 下載量和微調使用率第一
  4. SLM 實用化: Phi-4、Gemma 3 在特定任務媲美大模型
  5. 對齊方法多元化: ORPO、KTO、SimPO、GRPO 湧現

相關資源

參考文件

詳細的技術文件和進階指南請參考:

  • references/models/ - 各模型系列詳細指南
  • references/methods/ - 訓練方法深入解析
  • references/architectures/ - 模型架構技術細節
  • references/troubleshooting/ - 問題排解完整指南
  • references/tasks/ - 各任務類型最佳實踐

查詢方式

需要更詳細資訊時,可以查詢 references 目錄:

「Qwen 模型詳細資訊」→ references/models/qwen.md
「LoRA 進階配置」→ references/methods/peft/lora.md
「過擬合解決方案」→ references/troubleshooting/overfitting.md

知識截止: 2026-01

Install

Download ZIP
Requires askill CLI v1.0+

AI Quality Score

95/100Analyzed 2/11/2026

An exceptional technical reference skill providing high-density, actionable knowledge for LLM fine-tuning. It includes specific hyperparameter recommendations, model comparisons, and troubleshooting guides.

100
95
90
95
90

Metadata

Licenseunknown
Version-
Updated1/12/2026
Publisherp988744

Tags

apillm