书生浦语实战营第六期L1-G1000
1.在 https://chat.intern-ai.org.cn/ 平台中实践提示词技巧,与 Intern-S1 完成 10 次对话记录在飞书文档中,并仔细阅读 Intern-S1 技术报告撰写笔记提交问卷。
阅读Intern-S1:
Intern-S1优化:
1.使用动态Tokenizer
使用静态Tokenizer存在的缺陷:
- 在多模态中,静态分词器面对所有的序列使用相同的分割策略以及静态分词器在不同的模态下
- 相同的token使用相同的嵌入。
虽然使用动态分词器可以缓解这两方面的问题,但是因为分割策略可能对 微小的上下文变化敏感的问题。
2.Intern-S1 集成了时间序列编码器,以更好地处理顺序数值数据,其中每个元素通常代表随 时间记录的测量值,例如地震波、引力波、天文物体的光变曲线以及脑电图(EEG)记录。
3.Intern-S1 的训练分为四个阶段,其中只有第一阶段是在单一模态下进行训练。