當(dāng)前位置：首頁 > news >正文

電話銷售做網(wǎng)站認(rèn)證seo優(yōu)化上海牛巨微

news 2025/7/13 10:42:29

電話銷售做網(wǎng)站認(rèn)證,seo優(yōu)化上海牛巨微,新浪云 wordpress,住房和城鄉(xiāng)建設(shè)部網(wǎng)站買賣合同#AI夏令營 #Datawhale #夏令營本項目為Datawhale 2024 年 AI 夏令營賽事，零基礎(chǔ)入門 AI 數(shù)據(jù)挖掘競賽-速通學(xué)習(xí)手冊配套的代碼項目。項目鏈接：https://aistudio.baidu.com/bd-cpu-02/user/2961857/8113198/home#codelab 任務(wù)目標(biāo) 根據(jù)給的test&…

#AI夏令營
#Datawhale
#夏令營
本項目為Datawhale 2024 年 AI 夏令營賽事，零基礎(chǔ)入門 AI 數(shù)據(jù)挖掘競賽-速通學(xué)習(xí)手冊配套的代碼項目。
項目鏈接：https://aistudio.baidu.com/bd-cpu-02/user/2961857/8113198/home#codelab
在這里插入圖片描述

任務(wù)目標(biāo)

根據(jù)給的test，train數(shù)據(jù)集，訓(xùn)練模型，從而預(yù)測PROTACs的降解能力（在demo中用label表示，0表示差，1表示好）
DC50>100nM＆Dmax<80% -》Label=0
DC50<=100nM||Dmax>=80%-》Label=1）。

解題思路

1.選用機(jī)器學(xué)習(xí)方法，能達(dá)到和深度學(xué)習(xí)相同的結(jié)果，且更方便簡捷

2.這里從邏輯回歸和決策樹中選擇，哪一個模型更加合適？

邏輯回歸的適用條件：

目標(biāo)變量類型：
- 邏輯回歸主要用于處理二分類問題，即目標(biāo)變量是二元的，如是/非、成功/失敗等。
輸入變量類型：
- 邏輯回歸可以處理連續(xù)變量、類別變量以及二進(jìn)制變量。
數(shù)據(jù)分布假設(shè)：
- 邏輯回歸通常假設(shè)數(shù)據(jù)服從伯努利分布，即目標(biāo)變量服從二項分布。
線性關(guān)系：
- 邏輯回歸假設(shè)自變量與對數(shù)幾率的關(guān)系是線性的。
解釋性：
- 邏輯回歸模型相對簡單，模型的輸出可以解釋為概率，因此在需要理解影響因素和解釋模型結(jié)果時比較有優(yōu)勢。

決策樹的適用條件：

目標(biāo)變量類型：
- 決策樹既可以處理分類問題，也可以處理回歸問題。
輸入變量類型：
- 決策樹可以處理數(shù)值型數(shù)據(jù) 分類型數(shù)據(jù) 序數(shù)型數(shù)據(jù)和類別變量，不需要對數(shù)據(jù)做過多的預(yù)處理工作。
  1.數(shù)值型數(shù)據(jù)：例如連續(xù)的浮點數(shù)或整數(shù)。
  2.分類型數(shù)據(jù)：例如名義變量，通常是有限個數(shù)的離散取值，比如顏色、性別等。
  3.序數(shù)型數(shù)據(jù)：具有順序關(guān)系的分類型數(shù)據(jù)，比如教育程度（小學(xué)、中學(xué)、大學(xué)）。
非線性關(guān)系：
- 決策樹能夠處理非線性關(guān)系，不需要對數(shù)據(jù)做線性假設(shè)。
解釋性：
- 決策樹的決策路徑比較直觀，易于理解和解釋，能夠呈現(xiàn)特征的重要性。
處理缺失值：
- 決策樹能夠自動處理缺失值，不需要額外的數(shù)據(jù)預(yù)處理步驟。

總結(jié)比較：

邏輯回歸適合于簡單的二分類問題，當(dāng)數(shù)據(jù)滿足線性關(guān)系假設(shè)時表現(xiàn)較好，適合作為基線模型進(jìn)行比較和解釋。
決策樹則更適合處理復(fù)雜的非線性關(guān)系，能夠處理多分類問題和回歸問題，同時具備一定的解釋性和容錯性。
選擇決策樹
決策樹能夠處理非線性關(guān)系，并且可以自動捕獲特征之間的交互作用。
它可以生成可解釋的規(guī)則，有助于理解模型如何做出決策。
決策樹能夠處理不同類型的特征，包括分類和數(shù)值型。

決策樹基本代碼

# 導(dǎo)入必要的庫
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score# 1. 準(zhǔn)備數(shù)據(jù)
# 假設(shè)有一個名為 'data.csv' 的數(shù)據(jù)集，包含特征和標(biāo)簽# 讀取數(shù)據(jù)集
data = pd.read_csv('data.csv')# 分離特征和標(biāo)簽
X = data.drop('target_column_name', axis=1)  # 特征列
y = data['target_column_name']  # 標(biāo)簽列# 2. 劃分?jǐn)?shù)據(jù)集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 3. 創(chuàng)建決策樹模型
model = DecisionTreeClassifier()# 4. 訓(xùn)練模型
model.fit(X_train, y_train)# 5. 預(yù)測
y_pred = model.predict(X_test)# 6. 評估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')# 可選步驟：可視化決策樹
# 如果需要可解釋性，可以將訓(xùn)練好的模型可視化
# 可以使用 Graphviz 和 export_graphviz 方法
# 例如：from sklearn.tree import export_graphviz# 注意：上述代碼中的 'target_column_name' 是你數(shù)據(jù)集中的目標(biāo)列名，需要根據(jù)實際情況替換為正確的列名。

LGB樹模型

1.[LightGBM]是個快速的，分布式的，高性能的基于決策樹算法的梯度提升框架。可用于排序，分類，回歸以及很多其他的機(jī)器學(xué)習(xí)任務(wù)中。
2.LightGBM：跟之前常用的XGBoot在不降低準(zhǔn)確率的前提下，速度提升了10倍左右，占用內(nèi)存下降了3倍左右。
LightGBM通過引入高效的直方圖算法來優(yōu)化決策樹的訓(xùn)練過程。傳統(tǒng)的梯度提升算法（如GBoost）是按層生長（level-wise growth）的，而LightGBM則采用了按葉子生長（leaf-wise growth）的策略，這樣能夠更快地生成深度較少但分裂質(zhì)量較高的決策樹。
-LightGBM在構(gòu)建每棵決策樹時，還利用了特征的直方圖信息，有效地減少了內(nèi)存使用并提高了訓(xùn)練速度。這種優(yōu)化對于處理大規(guī)模數(shù)據(jù)和高維特征特別有用。

原理

機(jī)器學(xué)習(xí)—LightGBM的原理、優(yōu)化以及優(yōu)缺點-CSDN博客

示例代碼

# 導(dǎo)入必要的庫
import lightgbm as lgb
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 1. 準(zhǔn)備數(shù)據(jù)
# 假設(shè)有一個名為 'data.csv' 的數(shù)據(jù)集，包含特征和標(biāo)簽# 讀取數(shù)據(jù)集
data = pd.read_csv('data.csv')# 分離特征和標(biāo)簽
X = data.drop('target_column_name', axis=1)  # 特征列
y = data['target_column_name']  # 標(biāo)簽列# 2. 劃分?jǐn)?shù)據(jù)集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 3. 創(chuàng)建LightGBM模型
params = {'boosting_type': 'gbdt',  # 使用gbdt提升器'objective': 'binary',  # 二分類任務(wù)'metric': 'binary_logloss',  # 使用logloss作為評估指標(biāo)'num_leaves': 31,  # 每棵樹的葉子節(jié)點數(shù)'learning_rate': 0.05,  # 學(xué)習(xí)率'feature_fraction': 0.9,  # 訓(xùn)練每棵樹時使用的特征比例'bagging_fraction': 0.8,  # 每輪迭代時用來訓(xùn)練模型的數(shù)據(jù)比例'bagging_freq': 5,  # bagging的頻率'verbose': 0  # 不顯示訓(xùn)練過程中的輸出信息
}lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)# 4. 訓(xùn)練模型
gbm = lgb.train(params,lgb_train,num_boost_round=100,  # 迭代次數(shù)valid_sets=lgb_eval,early_stopping_rounds=10)  # 當(dāng)驗證集的性能不再提升時停止訓(xùn)練# 5. 預(yù)測
y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)# 將預(yù)測概率轉(zhuǎn)換為類別
y_pred_binary = [1 if pred > 0.5 else 0 for pred in y_pred]# 6. 評估模型
accuracy = accuracy_score(y_test, y_pred_binary)
print(f'Accuracy: {accuracy}')# 可選步驟：特征重要性分析
# gbm.feature_importance() 可以獲取特征重要性

完整代碼

# 1. 導(dǎo)入需要用到的相關(guān)庫
# 導(dǎo)入 pandas 庫，用于數(shù)據(jù)處理和分析
import pandas as pd
# 導(dǎo)入 numpy 庫，用于科學(xué)計算和多維數(shù)組操作
import numpy as np
# 從 lightgbm 模塊中導(dǎo)入 LGBMClassifier 類
from lightgbm import LGBMClassifier# 2. 讀取訓(xùn)練集和測試集
# 使用 read_excel() 函數(shù)從文件中讀取訓(xùn)練集數(shù)據(jù)，文件名為 'traindata-new.xlsx'
train = pd.read_excel('./data/data280993/traindata-new.xlsx')
# 使用 read_excel() 函數(shù)從文件中讀取測試集數(shù)據(jù)，文件名為 'testdata-new.xlsx'
test = pd.read_excel('./data/data280993/testdata-new.xlsx')# 3 特征工程
# 3.1 test數(shù)據(jù)不包含 DC50 (nM) 和 Dmax (%)，將train數(shù)據(jù)中的DC50 (nM) 和 Dmax (%)刪除
train = train.drop(['DC50 (nM)', 'Dmax (%)'], axis=1)# 3.2 將object類型的數(shù)據(jù)進(jìn)行目標(biāo)編碼處理
for col in train.columns[2:]:if train[col].dtype == object or test[col].dtype == object:train[col] = train[col].isnull()test[col] = test[col].isnull()# 4. 加載決策樹模型進(jìn)行訓(xùn)練
model = LGBMClassifier(verbosity=-1)
model.fit(train.iloc[:, 2:].values, train['Label'])
pred = model.predict(test.iloc[:, 1:].values, )# 5. 保存結(jié)果文件到本地
pd.DataFrame({'uuid': test['uuid'],'Label': pred}
).to_csv('submit.csv', index=None)

model = LGBMClassifier(verbosity=-1)
model.fit(train.iloc[:, 2:].values, train['Label'])
pred = model.predict(test.iloc[:, 1:].values, )#1. `LGBMClassifier(verbosity=-1)` 創(chuàng)建了一個 LightGBM 分類模型，并設(shè)置了 `verbosity=-1`，表示禁止輸出訓(xùn)練過程中的信息。#2. `model.fit(train.iloc[:, 2:].values, train['Label'])` 使用訓(xùn)練集 `train` 的特征列（從第三列開始，即 `train.iloc[:, 2:]`）和標(biāo)簽列（`train['Label']`）來訓(xùn)練模型。#3. `pred = model.predict(test.iloc[:, 1:].values)` 對測試集 `test` 的特征列（從第二列開始，即 `test.iloc[:, 1:]`）進(jìn)行預(yù)測，并將預(yù)測結(jié)果存儲在 `pred` 變量中。所以，這段代碼的作用是利用 LightGBM 模型對測試集進(jìn)行預(yù)測，并且假設(shè)測試集中的特征列是從第二列開始（因為使用了 `test.iloc[:, 1:]`）。

查看全文

http://m.risenshineclean.com/news/61004.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网