当前位置: 首页 > wzjs >正文

开原 铁岭网站建设怎么样做推广最有效

开原 铁岭网站建设,怎么样做推广最有效,电子商务网站开发怎么设计,做网站赚大钱在nanoGPT的data文件夹有两个很相似的文件夹结构:shakespeare和shakespeare-char,这两种都是对shakespeare数据集的处理,但是shakespeare使用的是tiktoken对文字进行编码,另一个则是使用自己构建的词表 一、shakespeare-char&…

在nanoGPT的data文件夹有两个很相似的文件夹结构:shakespeare和shakespeare-char,这两种都是对shakespeare数据集的处理,但是shakespeare使用的是tiktoken对文字进行编码,另一个则是使用自己构建的词表

一、shakespeare-char(自己构建词表)

数据获取

data_path = os.path.join(os.path.dirname(__file__), 'input.txt')
if not os.path.exists(data_path):url = 'https://cdn.jsdelivr.net/gh/karpathy/char-rnn@master/data/tinyshakespeare/input.txt'with open(data_path, 'w', encoding='utf-8') as f:f.write(requests.get(url).text)
with open(data_path, 'r', encoding='utf-8') as f:data = f.read()

我这里在运行的时候是没有办法直接下载的,如果出现这个情况就直接打开网址手动下载就好

构建词表

chars = sorted(list(set(data)))
stoi = {s: i for i, s in enumerate(chars)}
itos = {i: s for i, s in enumerate(chars)}def encode(x):return [stoi[s] for s in x]
def decode(l):return ''.join([itos[i] for i in l])

划分训练集和测试集

n = len(data)
train_data = data[: int(0.9 * n)]
val_data = data[int(0.9 *n):]
train_idx = encode(train_data)
val_idx = encode(val_data)

对训练集和测试集分别编码

train_idx = np.array(train_idx, dtype=np.uint16)
val_idx = np.array(val_idx, dtype=np.uint16)
train_idx.tofile(os.path.join(os.path.dirname(__file__), 'train.bin'))
val_idx.tofile(os.path.join(os.path.dirname(__file__), 'val.bin'))

保存词表为meta.pkl文件(在sample.py中会用)

meta = {'voavb_size': len(chars),'itos': itos,'stoi': stoi
}
with open(os.path.join(os.path.dirname(__file__), 'meta.pkl'), 'wb') as f:pickle.dump(meta, f)
print('finish')

二、shakespeare(利用tiktoken)

数据加载、划分数据集的部分都相同,就不再赘述了

数据编码

enc = tiktoken.get_encoding('gpt2')
train_ids = enc.encode_ordinary(train_data)
val_ids = enc.encode_ordinary(val_data)
print(f"train has {len(train_ids):,} tokens")
print(f"val has {len(val_ids):,} tokens")

保存数据

train_ids = np.array(train_ids, dtype=np.uint16)
val_ids = np.array(val_ids, dtype=np.uint16)
val_ids.tofile(os.path.join(os.path.dirname(__file__), 'val.bin'))
train_ids.tofile(os.path.join(os.path.dirname(__file__), 'train.bin'))

三、关于保存数据的几种方式对比

不知道大家发现没有,就这几十行代码中有三种文件读写方式

(1)f.write/f.read

直接读写字符串或字节流,不涉及格式解释(如txt)

(2)val_ids.tofile

原始二进制存储(如bin),但不保存shape需要提前知道数据格式

(3)pickle.dump

把任意Python对象(列表、字典、类、模型等)序列化或二进制流

http://www.dtcms.com/wzjs/80681.html

相关文章:

  • vps搬家wordpress沧州网站优化公司
  • 建立网站需要钱吗百度广告语
  • 平台公司市场化转型深圳网站seo哪家快
  • 网站做直链下载存储解决方案20个排版漂亮的网页设计
  • 浙江省和住房建设厅网站淘宝seo软件
  • 后台管理网站模板关键词推广系统
  • 广州网站建设提供商中国十大电商培训机构
  • 网站建设赚钱网站提交入口百度
  • 创新的响应式网站建设优化关键词快速排名
  • 怎么黑掉织梦做的网站百度提问登陆入口
  • 美国房产网站成都seo网络优化公司
  • aspcms 网站地图企业网站seo平台
  • 外贸网站找人建设百度竞价广告怎么投放
  • 沈阳市城乡建设委员会网站软文公司代写
  • 三亚放心游app官方网站自媒体是什么
  • 夸克搜索网页版荆州网站seo
  • 门户网站如何做谷歌seo网站seo优化检测
  • 做资源下载网站条件信息流优化师工作内容
  • 千图网的主要功能无锡网站seo
  • 360报危险网站搜狗推广登录平台
  • 上海网站空间服务器苏州seo关键词优化排名
  • 网站弹出框怎么做网络推广文案
  • 农村电商网站建设方案郑州关键词优化费用
  • 贵州城乡和建设厅网站怎么样进行网络推广
  • 自己做网站语言构建服务器网推平台
  • 江苏专业做网站南京今天重大新闻事件
  • 做一款小说网站滕州百度推广
  • 邹平市建设局官方网站银川网站seo
  • 网络规划设计师企业数据中心机房建设网站seo方案模板
  • 网站流量如何突破南京疫情最新情况