响应模板作为特殊标记(107)
响应模板作为特殊标记(107)
“嗯,这很好解决。我可以在响应模板前面加上 \n,这样应该就能正常运行了,对吧?”你可能会这么想,但事实并非如此!我们来对修改后的响应模板进行分词处理:
输出
情况似乎超出了我们的预期。现在的token(词元)数量不是5个,而是7个。我们其实并不需要换行符对应的token(ID为13)和新单词开头对应的token(ID为29871)。这些多余的token会导致整理器(collator)无法找到与我们的响应模板相对应的正确token ID序列。
“那该如何解决这个问题呢?”
整理器所读取的响应模板,也可以是一个token ID列表。只要我们提供包含5个正确token ID的列表,问题就应该能得到解决:
fixed_token_ids = token_ids