做網(wǎng)站用百度地圖和天地圖怎樣建立網(wǎng)站免費(fèi)的
問題定義
anomaly,outlier, novelty, exceptions
不同的方法使用不同的名詞定義這類問題。
應(yīng)用
二分類
假如只有正常的數(shù)據(jù),而異常的數(shù)據(jù)的范圍非常廣的話(無法窮舉),二分類這些不好做。另外就是異常資料不太好收集。
分類
每張圖片都有標(biāo)注,就可以來訓(xùn)練一個辛普森家族的成員分類器。
基于classifer來做異常檢測。
基于信心分?jǐn)?shù)來做異常問題,大于某值就是正常,小于某值就是異常
最大分?jǐn)?shù)作為confidence
部分?jǐn)?shù)據(jù)會有誤判的情況
信心分估計(jì)
直接教網(wǎng)絡(luò)信心分?jǐn)?shù),不僅是做分類任務(wù)C,也會給出信心分P
Train 和 Eval
100張辛普森家族圖片,5張異常圖片
- 有藍(lán)色的正常圖被錯誤分類成異常
- 有紅色的異常圖被錯誤分類成正常
這個時候用dev set上評估系統(tǒng),這是一個二元分類問題。
正常異常比例的分布是非常懸殊的,這個系統(tǒng)可以有很高的準(zhǔn)確率,但是沒有做什么事,用acc準(zhǔn)確率分類是沒有意義的。
使用混淆矩陣:
cost table,做錯的行為的代價,算一個分?jǐn)?shù):
針對自己的任務(wù)設(shè)定cost table。還有一些方法來衡量,比如AUC(roc曲線的面積)。
問題
臉上是黃的,然后系統(tǒng)給的分?jǐn)?shù)就高,說明這個分類系統(tǒng)學(xué)到的并不是認(rèn)清人,而是臉是否是黃的。
假設(shè)可以收到一些異常資料,可以學(xué)習(xí)在分類的同時,也給出異常的分?jǐn)?shù),但是這類數(shù)據(jù)不易收集??梢钥紤]使用GAN生成異常數(shù)據(jù)。
沒有標(biāo)簽的場景
正常玩家和異常玩家(小白)
問題定義
需要數(shù)值化的方法來給每一個玩家的分?jǐn)?shù)。 f ( 斯塔 ) f(斯塔) f(斯塔) 概率密度估計(jì)
高斯分布