廣東省建設(shè)監(jiān)理協(xié)會信息管理網(wǎng)站如何在網(wǎng)上推廣自己的產(chǎn)品
文章目錄
- 前言
- 一、準(zhǔn)備
- 二、sweetviz 基本用法
- 1.引入庫
- 2.讀入數(shù)據(jù)
- 3.調(diào)整報告布局
- 總結(jié)
前言
Sweetviz是一個開源Python庫,它只需三行代碼就可以生成漂亮的高精度可視化效果來啟動EDA(探索性數(shù)據(jù)分析)。輸出一個HTML。
如上圖所示,它不僅能根據(jù)性別、年齡等不同欄目縱向分析數(shù)據(jù),還能對每個欄目做眾數(shù)、最大值、最小值等橫向?qū)Ρ取?/p>
所有輸入的數(shù)值、文本信息都會被自動檢測,并進(jìn)行數(shù)據(jù)分析、可視化和對比,最后自動幫你進(jìn)行總結(jié),是一個探索性數(shù)據(jù)分析的好幫手。
一、準(zhǔn)備
開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細(xì)Python安裝指南 進(jìn)行安裝。
(可選1) 如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda:Python數(shù)據(jù)分析與挖掘好幫手—Anaconda,它內(nèi)置了Python和pip.
(可選2) 此外,推薦大家用VSCode編輯器,它有許多的優(yōu)點:Python 編程的最好搭檔—VSCode 詳細(xì)指南。
請選擇以下任一種方式輸入命令安裝依賴:
- Windows 環(huán)境 打開 Cmd (開始-運(yùn)行-CMD)。
- MacOS 環(huán)境 打開 Terminal (command+空格輸入Terminal)。
- 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install sweetviz
二、sweetviz 基本用法
1.引入庫
sweetviz 使用的原理是,使用一行代碼,生成一個數(shù)據(jù)報告的對象(其中,my_dataframe是pandas中的DataFrame,一種表格型數(shù)據(jù)結(jié)構(gòu)):
import pandas as pd
import sweetviz as sv# 讀取數(shù)據(jù)
my_dataframe = pd.read_csv('../ImpartData/iris.csv')
# 分析數(shù)據(jù)
my_report = sv.analyze(my_dataframe)
# 生成報告
my_report.show_html()
執(zhí)行完成后,會在當(dāng)前文件夾下生成一個HTML的報告文件
雙擊這個html,你就能看到精美的分析報告了:
其中,分析數(shù)據(jù)有三種函數(shù)可以用,除了上面提到的analyze函數(shù),還有 compare 和 compare_intra 函數(shù)。
首先是analyze函數(shù):
analyze(source: Union[pd.DataFrame, Tuple[pd.DataFrame, str]],target_feat: str = None,feat_cfg: FeatureConfig = None,pairwise_analysis: str = 'auto')
可見其有以下4個參數(shù)可以配置:
2.讀入數(shù)據(jù)
代碼如下(示例):
data = pd.read_csv('https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())
該處使用的url網(wǎng)絡(luò)請求的數(shù)據(jù)。
compare()丨兩個數(shù)據(jù)集比較
my_report = sv.compare([my_dataframe, "Training Data"], [test_df, "Test Data"], "Survived", feature_config)
要比較兩個數(shù)據(jù)集,只需使用該 compare() 函數(shù)。它的參數(shù)與 analyze() 相同,只是插入了第二個參數(shù)來覆蓋比較數(shù)據(jù)幀。建議使用 [dataframe, “name”] 參數(shù)格式以更好地區(qū)分基礎(chǔ)數(shù)據(jù)幀和比較數(shù)據(jù)幀。(例如 [my_df, “Train”] 比 my_df 更好)
compare_intra()丨數(shù)據(jù)集欄目比較
my_report = sv.compare_intra(my_dataframe, my_dataframe[“Sex”] == “male”, [“Male”, “Female”], feature_config)
想要對數(shù)據(jù)集中某個欄目下的參數(shù)進(jìn)行分析,就采用這個函數(shù)進(jìn)行。
例如,如果需要比較“性別”欄目下的“男性”和“女性”,就可以采用這個函數(shù)。
3.調(diào)整報告布局
一旦你創(chuàng)建了你的報告對象,只需將它傳遞給兩個show函數(shù)中的一個:
- show_html():
show_html( filepath='SWEETVIZ_REPORT.html',open_browser=True,layout='widescreen',scale=None)
show_html(…)將在當(dāng)前文件路徑中創(chuàng)建并保存 HTML 報告。有以下參數(shù):
layout (布局):無論是 'widescreen’或 ‘vertical’。當(dāng)鼠標(biāo)移過每個功能時,寬屏布局會在屏幕右側(cè)顯示詳細(xì)信息。新的(從 2.0 開始)垂直布局在水平方向上更加緊湊,并且可以在單擊時擴(kuò)展每個細(xì)節(jié)區(qū)域。
scale:使用浮點數(shù)(scale=0.8或 None )來縮放整個報告。
open_browser:啟用 Web 瀏覽器的自動打開以顯示報告。如果不需要,可以在此處禁用它。
2.show_notebook():
show_notebook( w=None,h=None,scale=None,layout='widescreen',filepath=None)
它將嵌入一個 IFRAME 元素,在notebook中顯示報告(例如 Jupyter、Google Colab 等)。
請注意,由于Notebook通常是一個更受限制的環(huán)境,因此使用自定義寬度/高度/比例值 (w , h , scale) 可能是個好主意。選項是:
w(寬度):設(shè)置報告輸出窗口的寬度??梢允前俜直茸址?( w=“100%”) 或像素 (w=900)。
h(高度):設(shè)置報告輸出窗口的高度??梢允窍袼財?shù) (h=700) 或?qū)⒋翱诶斓脚c所有特征 ( h=“full”)一樣高。
scale:與上面的 show_html 相同。
layout:與上面的 show_html 相同。
scale:與上面的 show_html 相同。
filepath:可選的輸出 HTML 報告。
總結(jié)
我們的文章到此就結(jié)束啦,如果你喜歡今天的Python 實戰(zhàn)教程,請持續(xù)關(guān)注徐浪老師大講堂