解析keras.layers.Layer中的权重参数
文章目录
- 概要
- __init__()
- build()
- add_weight()
概要
keras.layers.Layers是所有层对象的父类,在keras.layers下所有实现类都是其子类,自定义层时需要继承该类。
init()
Layer的构造函数,需要注意两个参数trainable和name
trainable:指定该层所有的权重参数是否参与训练更新过程。为False时,该层所有权重参数被冻结,不参与训练,常用于微调。默认为True。
name:指定该层的名字,这在模型参数保存时很有用,可以根据指定名字找到对应层的所有权重参数。
import keras.layers as layers
import tensorflow as tf
class MLP(layers.Layer):
def __init__(self, units, **kwargs):
super().__init__(name="my_MLP", **kwargs)
self.dense_1 = layers.Dense(units, trainable=False, name="MLP_1")
self.dense_2 = layers.Dense(units, name="MLP_2")
def call(self, inputs, *args, **kwargs):
x = self.dense_1(inputs)
x = self.dense_2(x)
return x
class Projection(layers.Layer):
def __init__(self, units, kernel_size, **kwargs):
super().__init__(name="my_Projection", **kwargs)
self.Conv1d = layers.Conv1D(units, kernel_size, name="ConV_1d")
self.mlp = MLP(units)
self.dense = layers.Dense(units, trainable=False, name="Dense")
def call(self, inputs, *args, **kwargs):
x = self.Conv1d(inputs)
x = self.mlp(x)
x = self.dense(x)
return x
if __name__ == '__main__':
inputs = tf.random.uniform((1, 128, 3))
projection = Projection(units=16, kernel_size=3)
projection(inputs)
trainable_variables = projection.trainable_variables
print("可训练参数:")
for i in range(len(trainable_variables)):
print(trainable_variables[i].name)
print("不可训练参数:")
non_trainable_variables = projection.non_trainable_variables
for i in range(len(non_trainable_variables)):
print(non_trainable_variables[i].name)
可训练参数:
my_Projection/ConV_1d/kernel:0
my_Projection/ConV_1d/bias:0
my_Projection/my_MLP/MLP_2/kernel:0
my_Projection/my_MLP/MLP_2/bias:0
不可训练参数:
my_Projection/my_MLP/MLP_1/kernel:0
my_Projection/my_MLP/MLP_1/bias:0
my_Projection/Dense/kernel:0
my_Projection/Dense/bias:0
自定义了两个层MLP类和Projection类,其中MLP作为Projection的成员变量。super().init()调用其父类Layer的构造函数,并指定name参数和trainable参数。然后分别打印可训练参数和不可训练参数。
注意 : 只用当层对象(Layer)调用完build()方法后,层中才存在权重参数(否则打印权重参数时,为空集)。当第一次调用call()方法时,build()方法会在call()调用之前先执行,所以代码中在打印权重参数之前,先调用了call方法(projection(inputs))。
另外权重参数kernel和bias的命名方式和文件路径类似,它反应了Projection类与其成员变量的包含关系。
如果想查看Projection类中某一层kernel和bias的具体参数,可通过.numpy()(替换.name)打印出。
build()
生成并初始化所有层中的权重参数。自定义层时,可以重写该方法,定义自己需要的权重参数。
class Stacked_Sum(tf.keras.layers.Layer):
def __init__(self, dim_output):
super(Stacked_Sum, self).__init__()
self.num_outputs = dim_output
def build(self, input_shape):
self.kernel = self.add_weight(name="kernel",
shape=[int(input_shape[-2]),
int(input_shape[-1]),
self.num_outputs])
def call(self, inputs):
x = tf.einsum('abcd, cde->abe', inputs, self.kernel)
return tf.keras.activations.swish(x)
在build()方法中通过add_weight()添加了一个新的kernel, 并在call方法中使用,这个kernel的参数会在训练中不断更新。其中input_shape是call方法的输入的shape。
build()方法在call()调用之前自动被调用。
add_weight()
可以在build方法中添加与输入shape有关的权重参数,也可以在__init__方法中添加与输入无关的权重参数
class Stacked_Sum(tf.keras.layers.Layer):
def __init__(self, **kwargs):
super().__init__(**kwargs)
self.kernel = self.add_weight(name="my_kernel",
shape=[4, 3])
def call(self, inputs):
return inputs
上述代码是在init方法中添加与输入无关的权重参数。