常用最佳化器#

`SGD`(learning_rate[, momentum, weight_decay, ...])	隨機梯度下降最佳化器。
`RMSprop`(learning_rate[, alpha, eps])	RMSprop 最佳化器 [1]。
`Adagrad`(learning_rate[, eps])	Adagrad 最佳化器 [1]。
`Adafactor`([learning_rate, eps, ...])	Adafactor 最佳化器。
`AdaDelta`(learning_rate[, rho, eps])	帶有學習率的 AdaDelta 最佳化器 [1]。
`Adam`(learning_rate[, betas, eps, ...])	Adam 最佳化器 [1]。
`AdamW`(learning_rate[, betas, eps, ...])	AdamW 最佳化器 [1]。
`Adamax`(learning_rate[, betas, eps])	Adamax 最佳化器，是基於無窮範數的 Adam 變體 [1]。
`Lion`(learning_rate[, betas, weight_decay])	Lion 最佳化器 [1]。
`MultiOptimizer`(optimizers[, filters])	將一組最佳化器與對應的權重判斷/過濾器包裝起來，方便對不同權重使用不同的最佳化器。
`Muon`(learning_rate[, momentum, ...])	Muon 最佳化器。