TensorFlow 2.x：无法以h5格式保存经过训练的模型OSError：无法创建链接名称已经存在

问题描述

我的模型使用预处理的数据来预测客户是私人客户还是非私人客户。预处理步骤使用诸如feature_column.bucketized_column（…），feature_column.embedding_column（…）等步骤。训练后，我试图保存模型，但出现以下错误：

h5py._objects.with_phil.wrapper中第54行的文件“ h5py_objects.pyx”
在h5py._objects.with_phil.wrapper中的文件“ h5py_objects.pyx”（第55行）
在h5py.h5o.link中的文件“ h5py \ h5o.pyx”，第202行，
OSError：无法创建链接（名称已存在）

我尝试了以下方法来解决我的问题：

我试图排除此处提到的优化器：https://github.com/tensorflow/tensorflow/issues/27688。
我尝试过TensorFlow的不同版本，例如2.2和2.3。
我尝试重新安装h5py，如此处提到的：RuntimeError: Unable to create link (name already exists) when I append hdf5 file?。

一切都没有成功！

以下是模型的相关代码：

(feature_columns,train_ds,val_ds,test_ds) = preprocessing.getPreProcessedDatasets(args.data,args.zip,args.batchSize)

feature_layer = tf.keras.layers.DenseFeatures(feature_columns,trainable=False)

model = tf.keras.models.Sequential([
        feature_layer,tf.keras.layers.Dense(1,activation=tf.nn.sigmoid)
    ])

model.compile(optimizer='sgd',loss='binary_crossentropy',metrics=['accuracy'])

paramString = "Arg-e{}-b{}-z{}".format(args.epoch,args.batchSize,bucketSizeGEO)

...

model.fit(train_ds,validation_data=val_ds,epochs=args.epoch,callbacks=[tensorboard_callback])


model.summary()

loss,accuracy = model.evaluate(test_ds)
print("Accuracy",accuracy)

paramString = paramString + "-a{:.4f}".format(accuracy)

outputName = "logReg" + datetime.datetime.Now().strftime("%Y%m%d-%H%M%s") + paramStrin

if args.saveModel:
       filepath = "./saved_models/" + outputName + ".h5"
       model.save(filepath,save_format='h5')

预处理模块中的调用函数：

def getPreProcessedDatasets(filepath,zippath,batch_size,bucketSizeGEO):
    print("start preprocessing...")

    path = filepath
    data = pd.read_csv(path,dtype={
    "NAME1": np.str_,"NAME2": np.str_,"EMAIL1": np.str_,"ZIP": np.str_,"STREET": np.str_,"LONGITUDE":np.floating,"LATITUDE": np.floating,"RECEIVERTYPE": np.int64}) 

    feature_columns = []

    data = data.fillna("NaN")

    data = __preProcessName(data)
    data = __preProcessstreet(data)
    
    train,test = train_test_split(data,test_size=0.2,random_state=0)
    train,val = train_test_split(train,random_state=0)

    train_ds = __df_to_dataset(train,batch_size=batch_size)
    val_ds = __df_to_dataset(val,shuffle=False,batch_size=batch_size)
    test_ds = __df_to_dataset(test,batch_size=batch_size)


    __buildFeatureColums(feature_columns,data,bucketSizeGEO,True)

    print("preprocessing completed")

    return (feature_columns,test_ds)

调用功能的不同预处理功能：

def __buildFeatureColums(feature_columns,addCrossedFeatures):
    
    feature_columns.append(__getFutureColumnLon(bucketSizeGEO))
    feature_columns.append(__getFutureColumnLat(bucketSizeGEO))
    
    (namew1_one_hot,namew2_one_hot) = __getFutureColumnsName(__getNumberOfWords(data,'NAME1PRO'))
    feature_columns.append(namew1_one_hot)
    feature_columns.append(namew2_one_hot)
    
    feature_columns.append(__getFutureColumnStreet(__getNumberOfWords(data,'STREETPRO')))
    
    feature_columns.append(__getFutureColumnZIP(2223,zippath))
    
    if addCrossedFeatures:
        feature_columns.append(__getFutureColumnCrossednames(100))
        feature_columns.append(__getFutureColumnCrossedZIPStreet(100,2223,zippath))

功能已重新嵌入到嵌入中：

def __getFutureColumnsName(name_num_words):
    vocabulary_list = np.arange(0,name_num_words + 1,1).tolist()

    namew1_voc = tf.feature_column.categorical_column_with_vocabulary_list(
        key='NAME1W1',vocabulary_list=vocabulary_list,dtype=tf.dtypes.int64)
    namew2_voc = tf.feature_column.categorical_column_with_vocabulary_list(
        key='NAME1W2',dtype=tf.dtypes.int64)

    dim = __getNumberOfDimensions(name_num_words)

    namew1_embedding = feature_column.embedding_column(namew1_voc,dimension=dim)
    namew2_embedding = feature_column.embedding_column(namew2_voc,dimension=dim)

    return (namew1_embedding,namew2_embedding)

def __getFutureColumnStreet(street_num_words):
    vocabulary_list = np.arange(0,street_num_words + 1,1).tolist()

    street_voc = tf.feature_column.categorical_column_with_vocabulary_list(
        key='STREETW',dtype=tf.dtypes.int64)

    dim = __getNumberOfDimensions(street_num_words)

    street_embedding = feature_column.embedding_column(street_voc,dimension=dim)

    return street_embedding

def __getFutureColumnZIP(zip_num_words,zippath):
    zip_voc = feature_column.categorical_column_with_vocabulary_file(
    key='ZIP',vocabulary_file=zippath,vocabulary_size=zip_num_words,default_value=0)

    dim = __getNumberOfDimensions(zip_num_words)

    zip_embedding = feature_column.embedding_column(zip_voc,dimension=dim)

    return zip_embedding

解决方法

以h5格式保存模型时，错误OSError: Unable to create link (name already exists)是由某些重复的变量名称引起的。通过for i,w in enumerate(model.weights): print(i,w.name)进行的检查显示，它们是embedding_weights名称。

通常，在构建feature_column时，传递到每个功能列的独特key将用于构建独特变量name。在TF 2.1中可以正常使用，但在TF 2.2和2.3中可以使用，而应该是fixed in TF 2.4 nigthly。

我对 TF 2.3 的解决方法基于 @SajanGohil 的评论，但我的问题是 weight 名称（不是 layer 名称）：

for i in range(len(model.weights)):
    model.weights[i]._handle_name = model.weights[i].name + "_" + str(i)

同样的警告也适用：这种方法会操纵 TF 内部结构，因此不是面向未来的。

h5py keras keras machine-learning python tensorflow tensorflow tensorflow