常用最佳化器

常用最佳化器#

SGD(learning_rate[, momentum, weight_decay, ...])

隨機梯度下降最佳化器。

RMSprop(learning_rate[, alpha, eps])

RMSprop 最佳化器 [1]。

Adagrad(learning_rate[, eps])

Adagrad 最佳化器 [1]。

Adafactor([learning_rate, eps, ...])

Adafactor 最佳化器。

AdaDelta(learning_rate[, rho, eps])

帶有學習率的 AdaDelta 最佳化器 [1]。

Adam(learning_rate[, betas, eps, ...])

Adam 最佳化器 [1]。

AdamW(learning_rate[, betas, eps, ...])

AdamW 最佳化器 [1]。

Adamax(learning_rate[, betas, eps])

Adamax 最佳化器,是基於無窮範數的 Adam 變體 [1]。

Lion(learning_rate[, betas, weight_decay])

Lion 最佳化器 [1]。

MultiOptimizer(optimizers[, filters])

將一組最佳化器與對應的權重判斷/過濾器包裝起來,方便對不同權重使用不同的最佳化器。

Muon(learning_rate[, momentum, ...])

Muon 最佳化器。