问题描述
因此,我需要将txt文件拆分为测试文件和培训文件(也为txt)。我已经为较小的数据集运行了以下代码,并且效果很好。但是当我尝试加载完整的数据集(3gb)并获得zsh:killed时,它失败了。有什么办法可以避免这种情况?
这是数据集的外观:
写作技巧| Lorem ipsum dolor坐在amet,安全奉献精英。
沟通技巧| Lorem ipsum dolor坐在amet,安全奉献精英。
MicrosoftExcel | Lorem ipsum dolor坐在amet,安全奉献精英。
Python | Lorem ipsum dolor坐下来,奉献自若。
from sklearn.model_selection import train_test_split
import numpy
with open("/Users/luisguillermo/CGC-IBM/entity_mapping/ms-lstm/ms-lstm/textfile.txt","r") as f:
print ('starting...')
data = f.read().split('\n')
data = numpy.array(data) #convert array to numpy type array
print ('text file in array')
x_train,x_test = train_test_split(data,test_size=0.05)
del data
print ('data in arrays...')
# Remove empty fields in the list
x_train = list(filter(None,x_train))
x_test = list(filter(None,x_test))
print ('writing to training file')
with open('textfile_train.txt','w') as train:
train.write("\n".join(i for i in x_train))
print ('Training file Done')
print ('writing to test file')
with open('textfile_test.txt','w') as test:
test.write("\n".join(i for i in x_test))
print ('Done')
此外,我也在寻找是否有人可以为此提供良好的提供商,是否可以在云中运行它。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)