当前位置: 首页 > wzjs >正文

英文网站案例好的用户体验网站 学校

英文网站案例,好的用户体验网站 学校,界面设计图片 作品,南京广告公司黄页在nanoGPT的data文件夹有两个很相似的文件夹结构:shakespeare和shakespeare-char,这两种都是对shakespeare数据集的处理,但是shakespeare使用的是tiktoken对文字进行编码,另一个则是使用自己构建的词表 一、shakespeare-char&…

在nanoGPT的data文件夹有两个很相似的文件夹结构:shakespeare和shakespeare-char,这两种都是对shakespeare数据集的处理,但是shakespeare使用的是tiktoken对文字进行编码,另一个则是使用自己构建的词表

一、shakespeare-char(自己构建词表)

数据获取

data_path = os.path.join(os.path.dirname(__file__), 'input.txt')
if not os.path.exists(data_path):url = 'https://cdn.jsdelivr.net/gh/karpathy/char-rnn@master/data/tinyshakespeare/input.txt'with open(data_path, 'w', encoding='utf-8') as f:f.write(requests.get(url).text)
with open(data_path, 'r', encoding='utf-8') as f:data = f.read()

我这里在运行的时候是没有办法直接下载的,如果出现这个情况就直接打开网址手动下载就好

构建词表

chars = sorted(list(set(data)))
stoi = {s: i for i, s in enumerate(chars)}
itos = {i: s for i, s in enumerate(chars)}def encode(x):return [stoi[s] for s in x]
def decode(l):return ''.join([itos[i] for i in l])

划分训练集和测试集

n = len(data)
train_data = data[: int(0.9 * n)]
val_data = data[int(0.9 *n):]
train_idx = encode(train_data)
val_idx = encode(val_data)

对训练集和测试集分别编码

train_idx = np.array(train_idx, dtype=np.uint16)
val_idx = np.array(val_idx, dtype=np.uint16)
train_idx.tofile(os.path.join(os.path.dirname(__file__), 'train.bin'))
val_idx.tofile(os.path.join(os.path.dirname(__file__), 'val.bin'))

保存词表为meta.pkl文件(在sample.py中会用)

meta = {'voavb_size': len(chars),'itos': itos,'stoi': stoi
}
with open(os.path.join(os.path.dirname(__file__), 'meta.pkl'), 'wb') as f:pickle.dump(meta, f)
print('finish')

二、shakespeare(利用tiktoken)

数据加载、划分数据集的部分都相同,就不再赘述了

数据编码

enc = tiktoken.get_encoding('gpt2')
train_ids = enc.encode_ordinary(train_data)
val_ids = enc.encode_ordinary(val_data)
print(f"train has {len(train_ids):,} tokens")
print(f"val has {len(val_ids):,} tokens")

保存数据

train_ids = np.array(train_ids, dtype=np.uint16)
val_ids = np.array(val_ids, dtype=np.uint16)
val_ids.tofile(os.path.join(os.path.dirname(__file__), 'val.bin'))
train_ids.tofile(os.path.join(os.path.dirname(__file__), 'train.bin'))

三、关于保存数据的几种方式对比

不知道大家发现没有,就这几十行代码中有三种文件读写方式

(1)f.write/f.read

直接读写字符串或字节流,不涉及格式解释(如txt)

(2)val_ids.tofile

原始二进制存储(如bin),但不保存shape需要提前知道数据格式

(3)pickle.dump

把任意Python对象(列表、字典、类、模型等)序列化或二进制流


文章转载自:

http://v5e9H6d0.qrsrs.cn
http://IMrLSeg9.qrsrs.cn
http://00T91Jwu.qrsrs.cn
http://QIpo6wdR.qrsrs.cn
http://iZ4Uqxf9.qrsrs.cn
http://SD8rdfFE.qrsrs.cn
http://iBogBaRd.qrsrs.cn
http://bAw2QTaD.qrsrs.cn
http://JDJhph91.qrsrs.cn
http://Ue4H65qP.qrsrs.cn
http://yhzslKZ3.qrsrs.cn
http://iVTsOuuN.qrsrs.cn
http://Pm7sRjAK.qrsrs.cn
http://x9lHTgNE.qrsrs.cn
http://f8fmpE59.qrsrs.cn
http://48RVNQys.qrsrs.cn
http://b5g0YWRs.qrsrs.cn
http://M2xOCN8P.qrsrs.cn
http://M4wsMiDh.qrsrs.cn
http://d1cVerrO.qrsrs.cn
http://0t88Nr1o.qrsrs.cn
http://8zSRxahe.qrsrs.cn
http://9euuo0Lv.qrsrs.cn
http://fJnSNR9Z.qrsrs.cn
http://1WeamB2H.qrsrs.cn
http://ONaszG7r.qrsrs.cn
http://AJXxt26e.qrsrs.cn
http://JvasfEhu.qrsrs.cn
http://rM8v5hQW.qrsrs.cn
http://1pBTFHi6.qrsrs.cn
http://www.dtcms.com/wzjs/767596.html

相关文章:

  • 深圳松岗 网站建设最良心的网页传奇
  • 网页建站软件重庆网站建设技术外包
  • 湖南省城乡和住房建设厅网站wordpress支付宝微信支付
  • 网站开发是什么环境百度字体如何转换wordpress
  • 传奇网站模板免费下载福建省建设资格注册管理中心网站
  • PHP网站建设的课后笔记flash网站动画
  • 泉州开发网站的公司有哪些局域网小网站网站建设软件
  • 有模版之后怎么做网站怎样免费建公司网站
  • 泗阳网站定制如何做淘宝商城网站设计
  • 官方网站开发与定制公司logo标志设计免费
  • 网站建设柒金手指花总11建设摩托车官方旗舰店
  • 网站规划书市场分析wordpress需要什么配置文件
  • 建设公司网站源码常州便宜的做网站服务
  • 网络文学网站开发如何做服装的微商城网站建设
  • 做网站的费用会计分录做网站需要哪些钱
  • 潍坊网站建设 中公asp+php+mysql+aspx环境搭建与6种网站安装2
  • 自己做视频网站资源从哪里来wordpress修改文章页面模板
  • 网站建设公司广告标题语白银市建设管理处网站
  • 做网站什么主题比较好wordpress 支付宝捐赠
  • 高质量的常州网站建设甘肃省建设信息平台
  • 网站开发工具特点总结域名备案和网站备案有什么区别
  • 重庆智能模板建站东营教育信息网官网
  • 网站建设培训视频建设网站的公司排名
  • 企业网站建设的背景和目的淄博网站公司
  • 张家港电脑网站制作网站开发html文件规范
  • 什么免费网站可以链接域名全网营销公司
  • 行业网站源码河北邢台区号
  • 多仓库版仓库管理网站建设源码it运维
  • 张家港江阴网站制作广州网站建设网站定制
  • 怎么用idea做响应式网站百度小说风云榜今天