【开题答辩全过程】以 基于python爬虫对微博数据可视化及实现为例,包含答辩的问题和答案
个人简介
一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等
开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。
感谢大家的关注与支持!
各位老师好,我是xx同学,本次毕业设计的题目是《基于Python爬虫对微博数据可视化设计与实现》。系统主要解决“如何快速、稳定地采集微博公开数据,并以可视化方式呈现舆情”的问题。整体分成四大模块:①Scrapy多线程爬虫负责绕过反爬并采集微博文本;②MongoDB做数据清洗与存储;③用Word2Vec+BI_LSTM做情感极性判定;④前端用ECharts把地域、热度、情感走势、词云等结果展示在大屏上。技术栈以Python为主,辅以MongoDB、Vue+ECharts,实现“爬-存-算-显”闭环。
评委老师:为什么选择微博作为数据源,而不是抖音或小红书?
答辩学生:微博以短文本为主,数据公开度高,同时热搜机制让舆情爆发更集中,方便我这种基础一般的人快速拿到足量数据做实验。
评委老师:系统里用到的MongoDB和其他关系型数据库比有什么优势?
答辩学生:MongoDB不用提前建表,字段可灵活扩展;爬虫字段一旦变化,我直接存JSON就行,省去了改表结构的麻烦。
评委老师:你提到“绕过反爬”,具体用了哪些最简单有效的方法?
答辩学生:主要做了三件事:随机User-Agent、IP代理池、加3-5秒随机延时,再配合Scrapy自带的自动重试,就能挡住大部分封禁。
评委老师:情感分析为什么选BI_LSTM而不是直接调个现成库?
答辩学生:现成库对中文微博的口语化、表情符号支持不好,BI_LSTM能学到上下文的双向关系,实验里准确率比SVM高了8%,而且导师提供的模板代码好上手。
评委老师:前端大屏最关键的一个图表是什么?如何生成?
答辩学生:最关键的是一个随时间滚动的情感折线图。后端把按小时统计的正负面数量写成接口,前端ECharts直接拉数据画折线,颜色区分正负,就能实时看到舆情起伏。
评委老师:如果微博页面改版,你的爬虫大概需要多长时间修复?
答辩学生:页面一改,XPath/CSS选择器会失效,我一般10-20分钟就能在浏览器里重新定位元素并替换选择器,再跑一遍单元测试即可。
评委老师:项目最大的难点是什么?你准备怎么解决?
答辩学生:难点是验证码。我目前用打码平台自动识别,正确率90%左右;如果平台涨价,就切到手动打码+降低并发,保证能毕业就行。
评委老师:系统完成后,你觉得还能再扩展什么功能?
答辩学生:可以接入疫情、暴雨等突发事件关键词,实现自动预警短信;后续把前端做成微信小程序,导师说工作量够就毕业。
【评委评价与总结】
xx同学的开题陈述简洁明了,技术路线可行,实验步骤清晰,时间安排合理。能正视自身基础薄弱的问题并给出“化繁为简”的解决思路,体现了较好的工程思维。建议后续重点验证BI_LSTM在微博口语化文本上的真实效果,并预留应对验证码升级的方案。总体评价:开题通过,可进入下一阶段。
————————————————
以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取
最后
有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题、定功能和建议。