
1. 整体鸟瞰
请在不运行代码的前提下,总结 <文件名.ipynb> 的主要目的、核心逻辑流程和输出结果。
阅读整个项目目录,列出每个 .ipynb / .py 文件的角色,以及它们之间的数据依赖关系(输入→处理→输出)。
2. 结构与依赖
扫描 <文件名.ipynb>,提取所有 import 语句,生成一张“外部依赖 + 版本”清单,并标注哪些是必须安装的第三方库。
为这个项目绘制一个调用图:显示每个函数/类之间的调用顺序(用 Markdown 列表即可)。
3. 代码解读与注释
逐个代码单元(Cell)解释其作用,并用 1~2 句话概括每段核心逻辑,输出成 Markdown。
请为 <函数/类名> 补充 docstring(包含参数说明、返回值、示例用法),保持符合 Google 风格。
4. 性能与可读性检查
找出 Notebook 中潜在的性能瓶颈(如重复读写磁盘、大循环、未矢量化的 Pandas 操作),并给出优化建议。
扫描代码风格问题(PEP8 违规、变量命名不清等),逐条列出并建议修改方案。
5. 可复现性与自动化
把当前 Notebook 拆分成纯 .py 脚本(模块化),并生成一个 run.py 作为入口,保证完全可复现。
基于现有分析流程,生成一个 Makefile 或 bash 脚本,实现一键执行 / 清理中间文件。
6. 测试与验证
为核心函数自动生成 pytest 单元测试样例(覆盖正常与异常输入)。
请分析模型/结果输出的统计指标(如 RMSE、F1 等),判断是否有过拟合风险,并建议进一步验证方法。
7. 可视化与报告
列出 Notebook 中生成的所有图表(含标题和用途),并建议如何统一配色、字体,以便写报告。
为项目生成一份简明 README.md:背景→数据→方法→运行方式→结果→参考文献。
8. 数据安全与合规
检查 Notebook 是否含有可能泄漏敏感信息(如明文密钥、私密路径)。如果有,请指出具体位置并给出脱敏方案。
小技巧
- 把角色告诉 Cursor:在第一个 prompt 前加一句“你是经验丰富的 Python 数据科学家”能让回答更精炼。
- 分块提问:长 Notebook 先用“只看目录”→“只看某段代码”两步拆分,避免上下文溢出。
- 善用
code:
前缀:当需要 Cursor 直接返还可执行代码时,加上 code:
,它会把回答包进代码块,复制即用。 - 反复迭代:拿到初步总结后,可以继续“基于上一步结果,再 …”进行深挖。