当前位置: 首页 > news >正文

Spark MLlib网页长青

一、实验目的

1.掌握Spark SQL中用户自定义函数的编写。

2. 掌握特征工程的OneHotEncoder、VectorAssembler。

3. 熟悉决策树算法原理,能够使用Spark MLlib库编写程序

4. 掌握二分类问题评估方法

5. 能够使用TrainValidation和crossValidation交叉验证找出最佳模型。

6. 掌握随机森林的算法原理。

7. 掌握使用Spark MLlib解决实际问题。

二、实验要求

Stumble Upon是一个个性化的搜索引擎,会按用户的兴趣和网页评分等记录推荐用户感兴趣的网页,有些网页是暂时性的,比如新闻,这些文章可能只是在某一段时间会对读者有意义,而有些则是长青的,读者会对这些文章有长久兴趣。

本次实训目标就是使用决策树二元分类分析StumbleUpon数据集,预测网页是暂时性的(ephemeral)或是长青的(evergreen),并调校参数找出最佳参数组合,提高预测准确度。数据集共有7395行,27列。

url

string

Url of the webpage to be classified

urlid

integer

StumbleUpon's unique identifier for each url

boilerplate

json

Boilerplate text

alchemy_category

string

Alchemy category (per the publicly available Alchemy API found at www.alchemyapi.com)

alchemy_category_score

double

Alchemy category score (per the publicly available Alchemy API found at www.alchemyapi.com)

avglinksize

double

Average number of words in each link

commonLinkRatio_1

double

# of links sharing at least 1 word with 1 other links / # of links

commonLinkRatio_2

double

# of links sharing at least 1 word with 2 other links / # of links

commonLinkRatio_3

double

# of links sharing at least 1 word with 3 other links / # of links

commonLinkRatio_4

double

http://www.dtcms.com/a/182569.html

相关文章:

  • 养生:拥抱健康生活的秘诀
  • MySql 年,月,日 查询 某时间段的 日期列表
  • 自动泊车技术—相机模型
  • DNS服务实验
  • Python百库指南:数据科学到Web开发全解析
  • Spring事务融入(REQUIRED)具体实现步骤解析
  • 游戏引擎学习第269天:清理菜单绘制
  • 互联网大厂Java面试实录:从基础到微服务的深度考察
  • 使用 JAX-RS 创建 REST 服务/微服务
  • 5大B2B数字营销社群营销标杆案例TOB企业数字化营销内容营销AI营销培训讲师培训师专家顾问唐兴通分享
  • KTOR for windows:無文件落地HTTP服务扫描工具
  • SaaS场快订平台项目说明【持续更新】
  • window 显示驱动开发-AGP 类型伸缩空间段
  • [白话文] 从百草园RLHF到三味书屋DPO
  • HTTP 请求中 Content-Type 头部
  • GitHub 趋势日报 (2025年05月09日)
  • 部署dify
  • Web3 实战项目项目部署到 GitHub 和上线预览的完整指南
  • 数据库实验10
  • 多线程获取VI模块的YUV数据
  • ISP(Image Signal Processor)处理流程及不同域划分
  • 【计算机视觉】OpenCV实战项目:Deep Machine Learning Tutors:基于OpenCV的实时面部识别系统深度解析
  • Flink 运维监控与指标采集实战
  • 【前端】每日一道面试题3:如何实现一个基于CSS Grid的12列自适应布局?
  • Spring循环依赖问题
  • 单脉冲前视成像多目标分辨算法——论文阅读
  • 管道-验证和转换
  • 【Linux】冯诺依曼体系结构和操作系统的理解
  • 23、DeepSeekMath论文笔记(GRPO)
  • 【桌面】【输入法】常见问题汇总