当前位置: 首页 > news >正文

Spark MLlib网页长青

一、实验目的

1.掌握Spark SQL中用户自定义函数的编写。

2. 掌握特征工程的OneHotEncoder、VectorAssembler。

3. 熟悉决策树算法原理,能够使用Spark MLlib库编写程序

4. 掌握二分类问题评估方法

5. 能够使用TrainValidation和crossValidation交叉验证找出最佳模型。

6. 掌握随机森林的算法原理。

7. 掌握使用Spark MLlib解决实际问题。

二、实验要求

Stumble Upon是一个个性化的搜索引擎,会按用户的兴趣和网页评分等记录推荐用户感兴趣的网页,有些网页是暂时性的,比如新闻,这些文章可能只是在某一段时间会对读者有意义,而有些则是长青的,读者会对这些文章有长久兴趣。

本次实训目标就是使用决策树二元分类分析StumbleUpon数据集,预测网页是暂时性的(ephemeral)或是长青的(evergreen),并调校参数找出最佳参数组合,提高预测准确度。数据集共有7395行,27列。

url

string

Url of the webpage to be classified

urlid

integer

StumbleUpon's unique identifier for each url

boilerplate

json

Boilerplate text

alchemy_category

string

Alchemy category (per the publicly available Alchemy API found at www.alchemyapi.com)

alchemy_category_score

double

Alchemy category score (per the publicly available Alchemy API found at www.alchemyapi.com)

avglinksize

double

Average number of words in each link

commonLinkRatio_1

double

# of links sharing at least 1 word with 1 other links / # of links

commonLinkRatio_2

double

# of links sharing at least 1 word with 2 other links / # of links

commonLinkRatio_3

double

# of links sharing at least 1 word with 3 other links / # of links

commonLinkRatio_4

double

相关文章:

  • 养生:拥抱健康生活的秘诀
  • MySql 年,月,日 查询 某时间段的 日期列表
  • 自动泊车技术—相机模型
  • DNS服务实验
  • Python百库指南:数据科学到Web开发全解析
  • Spring事务融入(REQUIRED)具体实现步骤解析
  • 游戏引擎学习第269天:清理菜单绘制
  • 互联网大厂Java面试实录:从基础到微服务的深度考察
  • 使用 JAX-RS 创建 REST 服务/微服务
  • 5大B2B数字营销社群营销标杆案例TOB企业数字化营销内容营销AI营销培训讲师培训师专家顾问唐兴通分享
  • KTOR for windows:無文件落地HTTP服务扫描工具
  • SaaS场快订平台项目说明【持续更新】
  • window 显示驱动开发-AGP 类型伸缩空间段
  • [白话文] 从百草园RLHF到三味书屋DPO
  • HTTP 请求中 Content-Type 头部
  • GitHub 趋势日报 (2025年05月09日)
  • 部署dify
  • Web3 实战项目项目部署到 GitHub 和上线预览的完整指南
  • 数据库实验10
  • 多线程获取VI模块的YUV数据
  • 为何发胖?如何减肥?一个医学体重管理中心的探索启示
  • 新华时评:直播间里“家人”成“韭菜”,得好好管!
  • 98年服装“厂二代”:关税压力下,我仍相信中国供应链|湃客Talk
  • 人民日报整版聚焦:铭记二战历史,传承深厚友谊
  • 青岛双星名人集团管理权之争:公司迁址,管理层更迭
  • 波音公司计划于2027年交付新版“空军一号”飞机