常用样本数据格式
1 libsvm格式
每行文本表示一个样本,每个字段以” “(空格)分隔,每行的文本格式
label index1:value1 index2:value1 index3:value3 ...
其中
- label字段:
- 字段类型:Int
- 当输入数据是训练数据,label为样本的标签,二分类算法label是{0, 1},多分类算法label是{0, 1, 2, …, n} ;
- 当输入数据是预测数据,label是样本的index;
- index:value字段:
- 特征index对应的value,index类型为Int,value类型为Double
- 特征的index,从1开始计数, 与标准的libsvm格式一致
# libsvm样例数据
1 1:0.5 3:3.1 7:1.0
0 2:0.1 3:2.3 5:2.0
1 4:0.2 7:1.1 9:0.0
....
2 dummy格式
每一行为一条记录(一个样本),每个字段以” “分隔,每行的文本格式
"label index1 index2 index3"
- label字段
- 字段类型:Int
- 当输入数据是训练数据,label为样本的标签,二分类算法label是{0, 1},多分类算法label是{0, 1, 2, …, n} ;
- 当输入数据是预测数据,label是样本的index;
- index字段
- 字段类型:Int/Long
- 特征的index,从0开始计数
- 这些是特征值为1的index,其他的就是特征值为0的index
# 数据格式样例
0 3 7 999 666
1 0 2 88 77
...
3 ffv格式
每行文本表示一个样本,每个字段以” “(空格)分隔,每行的文本格式
sample_id,feature_num,label,feature_field_id0x02feature_id0x03feature_value0x01feature_field_id0x02feature_id0x03feature_value...
其中
- label字段:
- 字段类型:Int
- 当输入数据是训练数据,label为样本的标签,二分类算法label是{0, 1},多分类算法label是{0, 1, 2, …, n} ;
- 当输入数据是预测数据,label是样本的index;
- feature_field_id0x02feature_id0x03feature_value字段:
- 特征域下特征id对应的value,特征id类型为Int,value类型为Double
# ffv样例数据(如Ali-CCP:Alibaba Click and Conversion Prediction数据集)
0,216:9342395:1.0 301:9351665:1.0 205:7702673:1.0 206:8317829:1.0 207:8967741:1.0 508:9356012:2.30259 210:9059239:1.0 210:9042796:1.0 210:9076972:1.0 210:9103884:1.0 210:9063064:1.0 127_14:3529789:2.3979 127_14:3806412:2.70805
....
今天的文章常用样本数据格式_计量经济学常用的三类样本数据是分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/83870.html