2025年数据挖掘项目一般多少钱_预测类数据挖掘项目

编程汇总 • 2025-01-19 10:17 • 阅读 85

数据挖掘项目（一）

第一次实践数据挖掘。虚心学习。

基于机器学习的数据分析模型的建立，主要分为以下几步：数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析

首先要对数据进行评估，数据的大小来决定使用工具。

本数据为金融数据，目的为预测贷款用户是否会逾期。

导入数据

import pandas as pd

import numpy as np

df = pd.read_csv('data.csv',encoding="gbk")

df.head()

删除无关的特征

data1 = df.drop(['trade_no', 'bank_card_no', 'source', 'Unnamed: 0', 'id_name'], axis=1)

data1.info()

缺省值处理(以下参考88080917代码)

print(df.isnull().sum())

count=0

for i in range(85):

    if df.isnull().sum()[i]>250:

        count=count+1

print(count)

print(max(fd.isnull().sum()))

剔除，填充，合并

data1=data1.drop(['student_feature'], axis=1)

data1.dropna(thresh=70, inplace = True)



data_col=['loans_latest_time', 'latest_query_time', 'reg_preference_for_trad']

data2 = data1[data_col]

data3 = data1.drop(data_col, axis=1)



data3=data3.fillna(data3.mode())



reg_data=data2['reg_preference_for_trad']

data2.drop(['reg_preference_for_trad'], axis=1)



from sklearn import preprocessing

CityData = preprocessing.LabelBinarizer().fit_transform(reg_data) 

CityDataFrame = pd.DataFrame(CityData, columns=["一线城市","三线城市","二线城市","其它城市","境外"])



data3.reset_index(drop=True, inplace=True)

data2.reset_index(drop=True, inplace=True) 

CityDataFrame.reset_index(drop=True, inplace=True) 

dataSet = pd.concat([data2, CityDataFrame, data3], axis=1)

5.将数据集切分为训练集与测试集

train, test = train_test_split(dataSet, test_size=0.3, random_state=2018)

2025年数据挖掘项目一般多少钱_预测类数据挖掘项目

数据挖掘项目（一）

相关推荐