当前位置: 首页 > news >正文

【Datawhale AI夏令营】科大讯飞AI大赛(大模型技术)/夏令营:让AI理解列车排期表

跑的时候有些地方需要修改,在此记录。

一、硅基流动注册&API密钥使用

baseline.ipynb的此处需要进行修改:

如果不知道自己的token是什么,可参考:免费调用DeepSeek-R1!硅基流动注册&API密钥使用全攻略 | 手把手教程https://zhuanlan.zhihu.com/p/21156769766

二、json数组转换为独立json对象

由于baseline跑出来的结果是json数组,如果不转换直接在MaaS平台上训练,会产生如下报错:

{"category": "数据集错误","reason" :"JSON parse error: Column() changed from object to array in row 0"}

因此在baseline代码基础上,增加以下脚本:

# 把json数组转换独立的json对象({"category": "数据集错误","reason" :"JSON parse error: Column() changed from object to array in row 0"})
import json
import os# === 第一步:转换 JSON 数组为 JSONL 格式 ===
input_json_file = 'single_row.json'
jsonl_file = 'train_data/single_row.jsonl'# 读取 JSON 数组
with open(input_json_file, 'r', encoding='utf-8') as f:data = json.load(f)# 写入 JSONL 格式(每行一个 JSON 对象)
with open(jsonl_file, 'w', encoding='utf-8') as f:for item in data:json.dump(item, f, ensure_ascii=False)f.write('\n')print(f"转换完成,已保存为 JSONL 文件:'{jsonl_file}'")# === 第二步:修复 JSONL 文件中的 output 字段 ===
temp_file = jsonl_file + '.tmp'with open(jsonl_file, "r", encoding="utf-8") as infile, open(temp_file, "w", encoding="utf-8") as outfile:for line_num, line in enumerate(infile, start=1):line = line.strip()if not line:continuetry:data = json.loads(line)if "output" in data and not isinstance(data["output"], str):data["output"] = str(data["output"])json.dump(data, outfile, ensure_ascii=False)outfile.write("\n")except json.JSONDecodeError as e:print(f"第 {line_num} 行解析错误:{e}")# 替换原文件
os.replace(temp_file, jsonl_file)
print(f"修复完成,JSONL 文件已更新:'{jsonl_file}'")

http://www.dtcms.com/a/301107.html

相关文章:

  • 日元交易策略
  • fchdir系统调用及示例
  • vector使用和模拟
  • PyTorch深度学习入门记录4
  • Oracle 数据库报 ora-00257 错误并且执行alter system switch logfile 命令卡死的解决过程
  • Oracle 19C RU 19.28 升级和安装
  • IndexedDB全面掌握:从入门到Odoo OWL框架实战
  • 动手学深度学习笔记04(上)
  • net8.0一键创建支持(Orm-Sqlite-MySql-SqlServer)
  • GPT 生成一个打字练习页面
  • 基于 LSTM 与 SVM 融合的时间序列预测模型:理论框架与协同机制—实践算法(1)
  • Elasticsearch - 倒排索引原理和简易实现
  • macOS 安装 Homebrew
  • 因果推断 | 元学习方法原理详解和代码实操
  • Redisson的布隆过滤器
  • MicroPython 开发ESP32应用教程 之 UART 详细讲解及应用
  • 数学建模——灰色关联分析
  • 一个MySQL的数据表最多能够存多少的数据?
  • net8.0一键创建支持(Redis)
  • GPT-4o实战应用指南:从入门到精通的技术心得
  • 【QT开发手册】 Qt界面介绍Qt程序多种实现项目文件解析
  • C语言(长期更新)第6讲:函数
  • 20250727-1-Kubernetes 网络-Ingress介绍,部署Ingres_笔记
  • Java面试精进:测试、监控与序列化技术全解析
  • Product Hunt 每日热榜 | 2025-07-27
  • 【C语言网络编程基础】TCP 服务器详解
  • 《不只是接口:GraphQL与RESTful的本质差异》
  • 机器学习的算法有哪些?
  • python优秀案例:基于python flask实现的小说文本数据分析与挖掘系统,包括K-means聚类算法和LDA主题分析
  • 系统整理Python的条件语句和常用方法