【开题答辩全过程】以 北京房屋租赁数据分析与可视化为例,包含答辩的问题和答案
个人简介
一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等
开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。
感谢大家的关注与支持!
答辩学生:各位老师好,我做的系统是“北京房屋租赁数据分析与可视化”。简单来讲,就是用 Python 先去网上把北京各区的租房信息爬下来,然后做清洗、统计,最后用图表把租金、面积、户型、地铁距离等关键信息直观地展示出来。系统分三大模块:爬虫采集、数据清洗与存储、可视化展示。技术栈就是 Requests+BeautifulSoup 爬数据,Pandas 做清洗,MySQL 存数据,PyEcharts 出图,整个流程都在 Python 环境里完成。下面请各位老师提问!
评委老师:为什么选择“北京”这个城市,不选自己家乡?
答辩学生:北京租房需求大、网站数据多,爬取样本丰富,结果更有代表性;而且我人在河北,去北京方便,后续如果补数据成本也低。
评委老师:爬的是哪个网站?有没有法律风险?
答辩学生:目前计划爬安居客列表页公开信息,只取标题、租金、面积、户型、位置五字段,不碰手机号和身份证,频率控制在 1 秒 1 次,避免对服务器造成压力,基本不会触法。
评委老师:数据量大概能拿到多少条?
答辩学生:按每页 60 条、先爬 200 页估算,大概 1 万条左右,足够做本科层次的统计和可视化。
评委老师:如果网页改版了怎么办?
答辩学生:我把请求头和解析代码单独写进 config 文件,一旦改版只需改选择器,不用动主程序;同时把已拿到的历史数据先存库,保证改版期间分析还能继续。
评委老师:租金数据里如果出现“押一付三”“面议”这种脏数据怎么清洗?
答辩学生:先用正则只保留纯数字,如果为空或“面议”就整行标缺失,后续可以选择删行或补均值,保证最后图表里不出现非数字。
评委老师:可视化部分准备画哪些图?
答辩学生:四个核心图:1.各区房源数量柱状图;2.租金-面积散点图;3.户型占比饼图;4.地铁距离与租金关系的折线图。界面用 PyEcharts 生成 HTML,打开浏览器就能看。
评委老师:系统最后怎么交付?需要安装吗?
答辩学生:做成一键运行脚本,附带 requirements.txt 和说明文档,老师只需装 Python3.8 以上,执行 main.py 即可自动建库、爬数、出图,生成的 html 报告直接双击打开。
评委老师:如果后期想增加“推荐”功能,打算怎么做?
答辩学生:本科阶段先只做描述性分析,如果还有时间,会尝试用 K-means 把房源聚成高、中、低三档,再按用户输入的预算和面积自动匹配最近的一档,实现最简单的推荐。
评委老师评价:xx 同学选题贴近生活,技术路线清晰,工作量适中,对可能遇到的改版、脏数据、法律风险都有简单可行的预案,符合本科毕业设计要求。希望后续按计划推进,注意控制爬取频率,做好数据脱敏,预祝顺利完成。
以上是某同学的毕业设计答辩的过程,如果你现在还没有参加答辩,还是开题阶段,已经选好了题目不知道怎么写开题报告,可以下面找找有没有自己符合自己题目的开题报告内容,列表中的开题报告都是往届真实的开题报告,可发送使用或参考。文末或底部来联xi可免费获取
最后
有时间和有基础的同学,建议自己多花时间找一下资料(开题报告、源码)自己独立完成毕设,需要开题报告内容、源码参考的,可以联xi博主,没有选题的也可以联系我们进行帮你选题、定功能和建议。