【开题答辩全过程】以 B站用户视频喜好倾向数据分析系统为例,包含答辩的问题和答案
个人简介
一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等
开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。
感谢大家的关注与支持!
各位老师好,我是xx同学,本次毕业设计的题目是《基于Python的B站用户视频喜好倾向数据分析系统》。系统主要分三大模块:①Python爬虫自动抓取B站视频互动数据(点赞、投币、收藏、评论、停留时长);②用Spark做数据清洗与统计,算出用户偏好指数;③用JavaWeb+ECharts把结果做成可视化大屏,支持自动刷新与下载。技术栈就是Python+MySQL+Spark+JavaWeb,全程都在Windows 10+PyCharm里完成。下面请各位老师提问。
评委老师:为什么要选B站做数据源?
答辩学生:B站API开放度高,返回JSON格式规范,字段齐全,方便我这种基础弱的同学快速抓到有效数据。
评委老师:都抓哪些具体字段?
答辩学生:视频aid、标题、分区、up主、点赞、投币、收藏、评论数、平均观看时长,还有用户mid和互动时间戳。
评委老师:数据量大概多大?
答辩学生:计划抓10万条视频记录,约500MB,足够跑通Spark,电脑8G内存也能扛住。
评委老师:Spark用Scala写,你只会Python怎么办?
答辩学生:实际用PySpark,语法跟Python一样,老师给的示例代码能直接套,不用写Scala。
评委老师:怎么保证数据不重复?
答辩学生:抓之前先读MySQL最大aid,爬虫里加“aid>最大值”条件,确保每天只抓新数据。
评委老师:缺失值怎么处理?
答辩学生:数字字段填0,字符串填“未知”,简单粗暴但能保证程序不报错。
评委老师:偏好指数怎么算?
答辩学生:点赞×1+投币×2+收藏×3+评论×1,再除以观看时长,得分越高越喜欢。
评委老师:可视化大屏长什么样?
答辩学生:左侧饼图看分区占比,中间柱状图TOP10 up主,右侧折线图看每日偏好变化,一键导出PNG。
评委老师:系统有没有做登录权限?
答辩学生:暂时没做,因为单机演示,后续如果想加,用Spring Security补一个登录页即可。
评委老师:进度能赶上吗?
答辩学生:按2025年计划,4月底就能跑通原型,5月写论文,时间够用。
评委老师:问题回答得简洁明了,技术路线清晰,工作量适中,适合本科阶段。建议后续把“偏好指数”公式再细化一下,考虑加权归一化;另外大屏最好补一个用户登录,这样完整性更高。总体同意开题,继续推进吧,加油!
以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取
最后
有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题、定功能和建议。