常见优化器#

`SGD`(learning_rate[, momentum, weight_decay, ...])	随机梯度下降优化器。
`RMSprop`(learning_rate[, alpha, eps])	RMSprop 优化器 [1]。
`Adagrad`(learning_rate[, eps])	Adagrad 优化器 [1]。
`Adafactor`([learning_rate, eps, ...])	Adafactor 优化器。
`AdaDelta`(learning_rate[, rho, eps])	带有学习率的AdaDelta优化器 [1]。
`Adam`(learning_rate[, betas, eps, ...])	Adam优化器 [1]。
`AdamW`(learning_rate[, betas, eps, ...])	AdamW 优化器 [1]。
`Adamax`(learning_rate[, betas, eps])	Adamax优化器，一种基于无穷范数的Adam变体 [1]。
`Lion`(learning_rate[, betas, weight_decay])	Lion 优化器 [1]。