請參賽團隊以實作完成的資料應用及下列4種指標,分別衡量隱私強化衍生資料集的保護力與實用性。除下列基礎衡量指標外,參賽團隊亦可自行根據相關文獻增加其他衡量指標,將納入創新性項目酌予加分。
1. 隱私保護力指標
指標 | 說明 |
---|---|
原始資料可識別率(Identical Match Share, IMS) | 比較訓練資料與合成資料是否有「完全一樣」的資料,高於某個界線即不通過。 |
指認性(Singling out) | 原始資料中只有特定一筆資料有獨一無二的組合(可以是一個變數的,也可以是多個變數的組合)。 |
2. 資料實用性指標
指標 | 說明 |
---|---|
欄位相似度(Individual Attribute Distribution Similarity) | 訓練資料與合成資料的每個欄位的相似度,使用 Total Variation Distance (TVD)。分數以 1-TVD 表示,總分則是各欄位的平均。 |
關聯性相似度(Pairwise Correlation Similarity) | 用 Cramer’s V with bias correction 衡量資料集內兩欄位之間的相關性。 計算方式為有多少比例是訓練資料的相關性與合成資料的相關性被分類在 同一類別。 |