【开题答辩全过程】以 基于大数据抖音用户行为分析的可视化大屏为例,包含答辩的问题和答案
个人简介
一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等
开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。
感谢大家的关注与支持!
各位老师好,我是数据科学与大数据技术专业的 xx 同学。我的课题是“基于大数据抖音用户行为分析的可视化大屏”。系统要做的就是把抖音上的点赞、评论、转发、浏览等数据拿下来,先清洗再分析,最后用大屏把结果画出来,让大家一眼看懂用户喜欢什么、讨厌什么。主要分三大模块:数据采集模块(Python 爬虫)、数据分析模块(Hive+Pandas+K-means 情感分析)、可视化模块(ECharts 大屏)。技术栈就是 Python + Hadoop/Hive + ECharts,机器学习用 K-means 和线性回归,整体跑在本地虚拟机里。
评委老师:数据打算怎么爬?抖音可没有公开接口。
答辩学生:我用的是模拟手机端滑动抓包,找到未加密的 json 地址,每次下滑刷新拿 20 条数据,加上随机等待和换 User-Agent,避免被封 IP。
评委老师:爬下来的数据量有多大?存哪儿?
答辩学生:目前 2 万条左右,先放 CSV,后期上 Hadoop 的 HDFS,一条视频大概 12 个字段,总大小不到 300 M,本地足够。
评委老师:数据清洗主要洗什么?
答辩学生:洗空值、重复值,把“1.2 万”这种字符串点赞数转成数字,再把时间统一成“YYYY-MM-DD”格式,情感分析前还要去表情和特殊符号。
评委老师:用什么做情感分析?准确率大概多少?
答辩学生:用 SnowNLP 快速打标签,分正面、中性、负面,随机抽 200 条人工核对,准确率 78% 左右,够做展示,后续再换更好模型。
评委老师:大屏打算展示哪些图表?
答辩学生:五个图:①日播放量折线;②点赞 TOP10 横向柱图;③情感占比饼图;④用户活跃时段热力图;⑤作品词云。五个图放一页,自动 5 秒轮播。
评委老师:如果老师想实时看到最新数据怎么办?
答辩学生:现在做的是离线版,每天跑一次脚本更新结果;实时版需要接 Kafka+Flink,时间来不及,留在升级计划里。
评委老师:项目最大的难点是什么?
答辩学生:最难是数据获取,抖音反爬升级快,接口可能随时失效,我已经把请求头拆成配置文件,万一失效只改配置不再改代码。
【答辩结束】
评委老师:xx 同学整体思路清晰,技术选型贴合基础,工作量适中,能完成既定目标。建议下一步把 SnowNLP 换成更高准确率的模型,并补充异常 IP 封禁处理。选题应用性强,同意开题,按计划推进即可。
以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取
最后
有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题、定功能和建议。