当前位置：首页 > news >正文

【开题答辩全过程】以基于python爬虫对微博数据可视化及实现为例，包含答辩的问题和答案

news 2025/9/2 7:21:41

个人简介
一名14年经验的资深毕设内行人，语言擅长Java、php、微信小程序、Python、Golang、安卓Android等
开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。
感谢大家的关注与支持！

各位老师好，我是xx同学，本次毕业设计的题目是《基于Python爬虫对微博数据可视化设计与实现》。系统主要解决“如何快速、稳定地采集微博公开数据，并以可视化方式呈现舆情”的问题。整体分成四大模块：①Scrapy多线程爬虫负责绕过反爬并采集微博文本；②MongoDB做数据清洗与存储；③用Word2Vec+BI_LSTM做情感极性判定；④前端用ECharts把地域、热度、情感走势、词云等结果展示在大屏上。技术栈以Python为主，辅以MongoDB、Vue+ECharts，实现“爬-存-算-显”闭环。

评委老师：为什么选择微博作为数据源，而不是抖音或小红书？

答辩学生：微博以短文本为主，数据公开度高，同时热搜机制让舆情爆发更集中，方便我这种基础一般的人快速拿到足量数据做实验。

评委老师：系统里用到的MongoDB和其他关系型数据库比有什么优势？

答辩学生：MongoDB不用提前建表，字段可灵活扩展；爬虫字段一旦变化，我直接存JSON就行，省去了改表结构的麻烦。

评委老师：你提到“绕过反爬”，具体用了哪些最简单有效的方法？

答辩学生：主要做了三件事：随机User-Agent、IP代理池、加3-5秒随机延时，再配合Scrapy自带的自动重试，就能挡住大部分封禁。

评委老师：情感分析为什么选BI_LSTM而不是直接调个现成库？

答辩学生：现成库对中文微博的口语化、表情符号支持不好，BI_LSTM能学到上下文的双向关系，实验里准确率比SVM高了8%，而且导师提供的模板代码好上手。

评委老师：前端大屏最关键的一个图表是什么？如何生成？

答辩学生：最关键的是一个随时间滚动的情感折线图。后端把按小时统计的正负面数量写成接口，前端ECharts直接拉数据画折线，颜色区分正负，就能实时看到舆情起伏。

评委老师：如果微博页面改版，你的爬虫大概需要多长时间修复？

答辩学生：页面一改，XPath/CSS选择器会失效，我一般10-20分钟就能在浏览器里重新定位元素并替换选择器，再跑一遍单元测试即可。