CPM-文章生成器训练教程

本站声明

本站内容来自互联网仅用于个人内容生成,仅供学习使用,如有侵权请联系 QQ: 915965629

使用本站代码/内容/数据所产生的任何问题(包含但不限法律、版权),均和本站无任何关系 !

禁止使用本站代码/内容/数据造成非法、有损他人利益用途 !

定义

CPM文章生成器基于NLP人工智能自然语言技术,前期需要收集对应行业的文章给程序学习。

学习后完,程序会按照所学习的文章写法去自动生成这类型文章。

前期学习的文章数量越多、训练次数越多,后面生成的效果越好。

程序学习需要一次性收集批量的文章给与程序学习,不可以逐步增加。

程序要生成一个行业的文章,要有这个行业的训练模型。这个训练操作就是针对每个行业去收集文章进行训练得到对应行业模型。

硬件要求

CPM文章生成器需求硬件配置为GPU(显卡),内存8G,GPU最低配置内存在6G以上。

经过优化调整,可以无需GPU也可以正常使用,但是生成文章的速度会比GPU慢十几倍或者更多以上,所以建议用户尽量在有GPU的电脑上使用。

也可以薅羊毛使用谷歌服务器来跑文章生成器程序 http://www.guangh.cn/cpm-help

训练需要的软件及说明

1、下载火车头采集器

下载火车头采集器:http://www.locoy.com/

程序学习文章所需格式为txt文档,每篇文章为一个txt文档。

txt文档格式要求

可以下载火车头采集器在网络上进行文章的而采集,采集规则每个平台不一样,采集流程可以在网络上进行学习

2、下载文章生成器程序

价格388的文章生成器才附带训练代码,价格188的不带训练代码,购买188的,后面需要生成其他行业文章,需要定制模型。

附带训练代码文章生成器下载地址:http://www.guangh.cn/402.html

3、训练代码说明

preprocess.py

此文件为预处理文件,用来对每个txt文件,取出标题与内容,预处理成功后的数据保存为train.pkl,存储在data文件下

train.py

此文件为训练文件,预处理txt文章后运行此文件对预处理后的数据进行训练学习。

第一条红线

训练时,文章的长度

第二条红线

训练次数,训练次数越多,文章生成的效果越通顺

第三个红框

gpu的训练大小,可以理解为速度,数值越高,训练速度越快

第四条红线

训练成功后,模型存放位置

第五条红线

预训练模型存放路径,存放的是和程序代码一起购买的模型

训练操作

谷歌服务器训练操作

1、把采集后的文件(文件名称自定义,最好英文或者数字)上传到谷歌云盘CPM-main目录下

2、在谷歌云盘首页双击打开jupyter笔记本

3、点击运行按钮进行第三方库安装

依次安装第三方库:transformers==4.6.0、sentencepiece==0.1.94、torch==1.7.0、Flask==1.1.2

安装命令 pip install transformers==4.6.0

安装命令 pip install sentencepiece==0.1.94

安装命令 pip install torch==1.7.0

安装命令 pip install Flask==1.1.2

4、preprocess.py预处理文件修改

红线为路径补充,第三条红线为刚上传的行业文章路径

5、运行preprocess.py预处理文件。

4、如下方图,为预处理成功。

在预处理过程中如果处问题,基本问题都出现在文章文档上,把数据为空的、只有标题没有内容的、编码不是utf-8的文档删除

预处理成功后会在CPM-main/data/存放一个train.pkl文件

6、train.py训练文件修改

红线为路径补充,初了划线的要修改外,在代码256行还有一个要补充的路径。

红框里面的数字“1”为训练次数,训练次数越多,效果越好。后面两个数字“6”为显卡的使用大小,可以理解为数值越大,训练速度越快。

7、运行train.py训练文件。

8、如下方图,为训练文章模型开始。

训练模型所需时间由学习文章数量、训练次数、电脑配置来决定。

按照文案狗网站上的行业模型为例,每个模型由15-20W篇文章和15-20次训练所得,在谷歌服务器会员等级下,每天只可以完成训练1次。

例如把训练次数“1”改为“5”,因为GPU容量不够,训练第二次后可能训练终止了。如果预处理的文章篇数少可以设置多次训练次数。(此限制本地不受影响)

训练成功后会在CPM-main/model/存放一个model1文件

9、训练结束后运行generate.py文件进行文章生成

运行命令:!python /content/drive/MyDrive/CPM-main/generate.py

点击运行按钮进行生成代码运行

generate.py生成文件第一个箭头为生成文章字数,红线为需要补充的路径,第二个红线为训练生成后的模型存放路径

本地训练操作

本地训练操作和谷歌训练操作是一样的流程,在这里我们只要注意修改如下几个点就可以

1、preprocess.py预处理文件第18行,采集的文件数据存放位置

2、train.py训练文件第37行训练字数“500”,可以修改为后面需要生成的文章字数,第51行为预训练的模型的路径,存放你购买的模型作为参考

8、如下方图,为训练文章模型开始。

训练模型所需时间由学习文章数量、训练次数、电脑配置来决定。

训练流程到这已经结束,如果还有那个步骤不清楚的,可以添加站QQ:915965629