(1)介绍dropout,为什么可以起到防止过拟合的作用
答 : Dropout是什么?为什么Dropout可以防止过拟合?
(2). 使用的模型的计算量,Flops
(3)共享参数,为什么可以提升效果(起到正则化的作用)
(4)LSTM和transformer的各自的优缺点,以及复杂度分析
(5)BN层和LN层的区别,为什么自然语言处理里面用LN层
关于batch normalization和layer normalization的理解
(6)有什么神经网络的语言模型,不用dropout的结果更好(Albert)