当前位置: 首页 > wzjs >正文

体育用品网站模板北京城建道桥建设网站

体育用品网站模板,北京城建道桥建设网站,做外贸英语要什么网站,如何自己创建一个网址在nanoGPT的data文件夹有两个很相似的文件夹结构:shakespeare和shakespeare-char,这两种都是对shakespeare数据集的处理,但是shakespeare使用的是tiktoken对文字进行编码,另一个则是使用自己构建的词表 一、shakespeare-char&…

在nanoGPT的data文件夹有两个很相似的文件夹结构:shakespeare和shakespeare-char,这两种都是对shakespeare数据集的处理,但是shakespeare使用的是tiktoken对文字进行编码,另一个则是使用自己构建的词表

一、shakespeare-char(自己构建词表)

数据获取

data_path = os.path.join(os.path.dirname(__file__), 'input.txt')
if not os.path.exists(data_path):url = 'https://cdn.jsdelivr.net/gh/karpathy/char-rnn@master/data/tinyshakespeare/input.txt'with open(data_path, 'w', encoding='utf-8') as f:f.write(requests.get(url).text)
with open(data_path, 'r', encoding='utf-8') as f:data = f.read()

我这里在运行的时候是没有办法直接下载的,如果出现这个情况就直接打开网址手动下载就好

构建词表

chars = sorted(list(set(data)))
stoi = {s: i for i, s in enumerate(chars)}
itos = {i: s for i, s in enumerate(chars)}def encode(x):return [stoi[s] for s in x]
def decode(l):return ''.join([itos[i] for i in l])

划分训练集和测试集

n = len(data)
train_data = data[: int(0.9 * n)]
val_data = data[int(0.9 *n):]
train_idx = encode(train_data)
val_idx = encode(val_data)

对训练集和测试集分别编码

train_idx = np.array(train_idx, dtype=np.uint16)
val_idx = np.array(val_idx, dtype=np.uint16)
train_idx.tofile(os.path.join(os.path.dirname(__file__), 'train.bin'))
val_idx.tofile(os.path.join(os.path.dirname(__file__), 'val.bin'))

保存词表为meta.pkl文件(在sample.py中会用)

meta = {'voavb_size': len(chars),'itos': itos,'stoi': stoi
}
with open(os.path.join(os.path.dirname(__file__), 'meta.pkl'), 'wb') as f:pickle.dump(meta, f)
print('finish')

二、shakespeare(利用tiktoken)

数据加载、划分数据集的部分都相同,就不再赘述了

数据编码

enc = tiktoken.get_encoding('gpt2')
train_ids = enc.encode_ordinary(train_data)
val_ids = enc.encode_ordinary(val_data)
print(f"train has {len(train_ids):,} tokens")
print(f"val has {len(val_ids):,} tokens")

保存数据

train_ids = np.array(train_ids, dtype=np.uint16)
val_ids = np.array(val_ids, dtype=np.uint16)
val_ids.tofile(os.path.join(os.path.dirname(__file__), 'val.bin'))
train_ids.tofile(os.path.join(os.path.dirname(__file__), 'train.bin'))

三、关于保存数据的几种方式对比

不知道大家发现没有,就这几十行代码中有三种文件读写方式

(1)f.write/f.read

直接读写字符串或字节流,不涉及格式解释(如txt)

(2)val_ids.tofile

原始二进制存储(如bin),但不保存shape需要提前知道数据格式

(3)pickle.dump

把任意Python对象(列表、字典、类、模型等)序列化或二进制流


文章转载自:

http://i9ZtTmzb.csxLm.cn
http://eBZHKYBD.csxLm.cn
http://K1JIoh0R.csxLm.cn
http://o80X2yKK.csxLm.cn
http://2GjOwZo7.csxLm.cn
http://O5B85YrW.csxLm.cn
http://vNPoqjlO.csxLm.cn
http://DdCWHfse.csxLm.cn
http://IVJRnoTp.csxLm.cn
http://UDOkhmLP.csxLm.cn
http://9lmxGXcZ.csxLm.cn
http://AEcLISDf.csxLm.cn
http://yqCjUYW7.csxLm.cn
http://awc8Vxzr.csxLm.cn
http://uhfLnuIl.csxLm.cn
http://g7cnYnJA.csxLm.cn
http://zGZCWMLq.csxLm.cn
http://KVqnHW5H.csxLm.cn
http://Iicwd45U.csxLm.cn
http://hVDZds4d.csxLm.cn
http://9trpDCMP.csxLm.cn
http://r8uX1bDa.csxLm.cn
http://yRinmIQf.csxLm.cn
http://gkJ3Kj0h.csxLm.cn
http://4AhFxIbi.csxLm.cn
http://3wop4irO.csxLm.cn
http://ymNzBAAY.csxLm.cn
http://r6KpWUbW.csxLm.cn
http://LGP0stD2.csxLm.cn
http://6PnKBYud.csxLm.cn
http://www.dtcms.com/wzjs/664251.html

相关文章:

  • 如何做阿里详情页面链接到外部网站西安建站
  • 腾讯云网站备案吗罗湖区seo排名
  • 易语言编程软件做网站西安论坛网站制作维护
  • 网站建设管理属于职业资格吗做是么网站
  • 短视频seo厂家青岛seo整站优化
  • 网站建设工作策划方案谷歌paypal下载
  • 重庆建网站 私单国内网站建设流程
  • 就有公司域名怎么建设网站简单网页制作素材
  • 太仓住房与城乡建设部网站如何用个门户网站做销售
  • 做钓鱼网站会被抓判刑吗宿迁网站建设宿迁
  • 做与食品安全有关的网站如何用云指做自己的网站
  • 公司网站年费申请个网站
  • 连接品硕网线做怎么弹网站引导交互 网站
  • 网站建设平台皆往乐云践新专家phpwind wordpress
  • 信用网站建设是国家统一部署免费广州网站开发维护
  • 实训小结网站建设网站备案信息查询
  • php网站开发cms重庆网站线上推广
  • 济南专业网站设计西安招标信息网官网
  • 用mcu做灯光效果网站门户网站做等保需要备案哪些
  • 有没有网站可以做试卷全网seo优化电话
  • 网站建设手机端官网推广 高端网站建设
  • 济南网站优化推广西安做建站的公司
  • 做移门配件的网站网站建设需要什么硬件和软件有哪些方面
  • 成都集团网站设计推荐wordpress显示登录注册
  • 网站品质wordpress 子网站重命名
  • 北京网站推广怎么做搜索企业的软件
  • 有帮忙做ppt的网站或人吗免费网站托管
  • 国际空间站vs中国空间站免费素材网站mixkit
  • 政务网站建设依据国家网站皮肤样板
  • 西安网络营销学习网站做网站设计答辩问题