当前位置: 首页 > wzjs >正文

网站gif小图标东莞百度推广优化排名

网站gif小图标,东莞百度推广优化排名,寮步东莞网站建设,专业定制网页设计题目内容: 获取数据并进行基本的预处理操作 我这里选用了2006年至2016年1000部IMDB电影数据集 代码如下 import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler import seaborn as sns import matplotlib.pyplot as plt# 加载…

题目内容:

获取数据并进行基本的预处理操作

我这里选用了2006年至2016年1000部IMDB电影数据集

代码如下

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import seaborn as sns
import matplotlib.pyplot as plt# 加载数据集
df = pd.read_csv('IMDB-Movie-Data.csv')# 查看数据基本信息
print("数据形状:", df.shape)
print("\n前5行数据:")
print(df.head())
print("\n数据基本信息:")
print(df.info())# 检查缺失值
print("缺失值统计:")
print(df.isnull().sum())# 处理缺失值
# Revenue用中位数填充
df['Revenue (Millions)'].fillna(df['Revenue (Millions)'].median(), inplace=True)
# Metascore用均值填充
df['Metascore'].fillna(df['Metascore'].mean(), inplace=True)print("\n处理后缺失值统计:")
print(df.isnull().sum())# 检查重复值
print("重复值数量:", df.duplicated().sum())# 检查标题重复(可能有重名电影)
print("标题重复数量:", df['Title'].duplicated().sum())# 将Revenue和Metascore转换为float类型
df['Revenue (Millions)'] = df['Revenue (Millions)'].astype(float)
df['Metascore'] = df['Metascore'].astype(float)# 提取年份中的 decade 信息
df['Decade'] = (df['Year'] // 10 * 10).astype(int)# 从Genre列提取第一个类型作为主类型
df['Main_Genre'] = df['Genre'].apply(lambda x: x.split(',')[0])# 从Actors列提取主演数量
df['Actors_Count'] = df['Actors'].apply(lambda x: len(x.split(',')))# 创建高收入标志(收入高于75%分位数)
revenue_75 = df['Revenue (Millions)'].quantile(0.75)
df['High_Revenue'] = df['Revenue (Millions)'].apply(lambda x: 1 if x >= revenue_75 else 0)# 检查数值列的异常值
num_cols = ['Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)', 'Metascore']
print("\n数值列描述统计:")
print(df[num_cols].describe())# 处理Runtime异常值(超过3小时或少于30分钟的电影)
df = df[(df['Runtime (Minutes)'] >= 30) & (df['Runtime (Minutes)'] <= 180)]# 对数值特征进行归一化
scaler = MinMaxScaler()
df[['Rating_Norm', 'Votes_Norm']] = scaler.fit_transform(df[['Rating', 'Votes']])# 查看标准化结果
print("\n标准化结果示例:")
print(df[['Rating', 'Rating_Norm', 'Votes', 'Votes_Norm']].head())# 数值型特征的统计信息
print("\n数值特征描述统计:")
print(df[num_cols].describe())# 类别型特征的统计信息
print("\n电影类型分布:")
print(df['Main_Genre'].value_counts().head(10))# 电影评分与收入关系
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Rating', y='Revenue (Millions)', data=df)
plt.title('电影评分与收入关系')
plt.show()

运行结果

http://www.dtcms.com/wzjs/89335.html

相关文章:

  • 教育平台型网站建设智能营销方法
  • 建站工作室线下营销方式主要有哪些
  • 网络科技网站百度竞价排名怎么做
  • 凡科免费网站建设产品软文是什么意思
  • 合肥 电子商务 网站建设网络推广费用
  • yy直播助手seo专员是什么意思
  • 夺宝网站制作杭州网络优化公司排名
  • 北京 营销型网站seo网站制作优化
  • 农业部项目建设管理网站google国际版入口
  • 0基础做网站用什么语言百度账号怎么注销
  • 普通网站能不能用vue做几个小功能百度的企业网站
  • 网站建设2000元天津seo诊断技术
  • 成都网站建设套餐50个市场营销经典案例
  • 企业手机网站建设机构网站建设情况
  • 重庆vr全景制作开封seo公司
  • 装修房子的风格设计图软件广州seo怎么做
  • 安阳哪里做360网站程序员培训机构哪家好
  • 手机wap网站开发教程太原做推广营销
  • 网站建设宽度一般都是多少百度关键词价格计算
  • 阳江网站建设公司孔宇seo
  • 特价网站建设价格低网站开发详细流程
  • linux中下载wordpress绍兴seo排名外包
  • flash网站源文件seo的范畴是什么
  • 网站设计模板简约泸州网站seo
  • 设置网站关键词怎么做我想自己建立一个网站
  • 做国际贸易的有哪有个网站代运营
  • swf做网站头推广的十种方式
  • 外国小孩和大人做网站网络广告的形式有哪些
  • 咸阳做网站的公司电话舆情分析报告范文
  • 企业怎样做网站提升关键词排名有哪些方法