tfidf
tf是啥?词频
idf是啥?逆词频
max_df 选择词频的上界
min_df 选择词频的下界
max_features 选择的最大特征数
利用sklearn tfidf实例
导包
from sklearn.feature_extraction.text import TfidfVectorizer
实例化
word_vec = TfidfVectorizer(analyzer='word',
ngram_range=(1,2),#(1,3)
min_df=3, # 4 5
max_df=0.9, # 0.95 1.0
use_idf=True,
smooth_idf=True,
sublinear_tf=True)
用fit_transform训练
用transform预测
tfdif获取的稀疏矩阵可以直接调用
用于训练模型的例子
用于划分训练集验证集的例子
from sklearn.model_selection import train_test_split
#cross_validation
#切分训练集 验证集
X_train, X_eval, y_train, y_eval = train_test_split(train_term_doc,train['label'],test_size=0.2,shuffle=True,random_state=2019)
lightgbm
train_set 表示训练集
num_boost_round表示迭代次数
early_stopping_rounds 早停
verbose_val是否显示每轮的Loss
objective 定义任务单分类还是多分类
num_leaves
metric
min_child_weight
lambda L2正则防止过拟合
subsample 对训练集进行采样,防止过拟合
feature_fraction 防止过拟合 特征选择50%
seed
nthread 设置16个线程
num_class 设置分类的个数
device_type 设置cpu训练还是gpu训练
SVD词向量
n-gram