DeepSpeed中的transformer kernel API可用于创建BERT transformer层,以实现更高效的预训练和微调,它包括transformer层配置和transformer层模块初始化。
这里我们介绍transformer内核API。 请参阅BERT预训练教程以获取使用详情。