# 【隱私保護的大數據分析 - 全面調查】 論文閱讀

論文名稱 : Privacy-preserving big data analytics - A comprehensive survey
論文出處 : Journal of Parallel and Distributed Computing
論文連結 : Privacy-preserving big data analytics - A comprehensive survey
論文作者 : Hong-Yen Tran, Jiankun Hu

# Abstract 摘要

本篇論文全面調查了對於保護隱私的大數據分析,以系統性的觀點進行了詳細的分類,並深入研究保護隱私的大數據分析的未來研究方向。

# 1 Introduction 介紹

# 1.1 Motivation 動機

近年來,隨著社群網路、物聯網、雲端計算的發展,大數據被認為是經濟增長和技術創新的推動力
然而,詳細完整的大量資料容易觸及到使用者的個人隱私,對於大數據的隱私問題也愈來愈被關注。
隨著隱私意識的提高,業界與學界都積極開發可行的解決方案,目標是在隱私和效率之間取得平衡
本篇論文統整了研究界對於大數據隱私保護的最新研究,能作為一個分類法,用於導覽、理解研究進展以及識別現有文獻的不足。

  1. 隱私保護資料探勘 由密碼學、資料庫和統計資料公開控制獨立探討,包括隨機化和匿名化技術,還考慮了分散式資料探勘的加密方法。
  2. 使用 MapReduce 在雲端上進行全球記錄匿名化。
  3. 數學、通訊角度分析隱私保護框架。

picture 1

相關的統整文章與本文的比較

# 1.3 Main contributions 主要貢獻

本文提出了以下貢獻:

  • 提供了涵蓋保護隱私的大數據分析的系統性和多維度觀點的調查。
  • 提出了幾個分類法,用於保護隱私的大數據分析。
  • 討論了隱私和機密性之間的區別,以及它們不同的保護方法。
  • 提供了一些選擇性的實際隱私相關情景,並以新興應用程序舉例說明。
  • 討論了在大數據背景下保護隱私所面臨的挑戰。

# 2 Overview of big data analytics 大數據分析概述

picture 2

圖 1 中提出的分類包括該領域的主要方面。
涵蓋了大數據的來源和特徵,開發高性能計算平台的需求,以及在考慮大數據安全和隱私的情況下,有效執行基本資料分析操作以提供智慧分析服務所需的適當資料處理方法。


首先要考慮的是大數據本身,包括資料來源基本的內在資料特性
大多數資料是從新興應用程序和技術中生成的,這些資料規模龐大,維度高,動態性強,實時性高,且大多數是雜訊多且品質較差的資料。
這些資料也以不同的形式呈現,包括 結構化半結構化非結構化 資料。
由於以上這些特性,大數據分析需要專用的平台和處理機制,例如 分布式關係資料庫管理系統(RDBMS)分布式文件系統(DFS)NoSQL 等。

來自各種應用來源產生的大數據可能包含使用者的私人訊息
這些敏感訊息可以以資料輸入的明確形式存在,也可以以資料輸出的隱含形式存在,後者在資料分析過程後才會顯示出來。
儘管資料分析在決策製定中非常有用,但它潛在地引發嚴重的隱私擔憂。

# 3 Generic privacy-preserving mechanisms 通用隱私保護機制

隱私通常涉及到個人或群體的敏感訊息不被洩漏的意義
儘管隱私和機密性有重疊之處,但從概念和保護方法的角度是不同的。

  • 機密性 以資料為導向
  • 隱私 以資料所有者為導向

概念上的差異導致了兩者在保護方法上的差異。

在本部分中,將介紹通用的資料驅動計算驅動的隱私保護機制。
本文開發了一個基於框架的隱私保護機制分類法,由 保護方法模型指標 組成。


picture 3

圖 2 中說明隱私保護機制通過滿足隱私模型的保護方法,並通過指標測量進行評估,確保資料的隱私性。

# 3.1 Protection methods 保護方法

保護隱私的保護方法分為 加密方法 Cryptographic methods非擾動方法 Non-perturbative methods擾動方法 Perturbative methods

  1. 加密方法 主要使用一些形式的同態加密方案實施的安全多方計算,通過將私人資料保持在加密形式中,然後在加密的個別資料項上執行功能,最後解密這些結果以獲得與在普通資料上執行相同功能時相同的結果來保護隱私。
  2. 非擾動方法 透過清理可識別的訊息來保護隱私,從而防止將身份與對手的背景訊息聯繫在一起。
  3. 擾動方法 的一般概念是干擾原始資料值,以使從干擾資料計算的統計訊息與原始資料的統計訊息差異不大。

# 3.2 Models 模型

本部分介紹幾個重要的隱私模型,包括 k-匿名 k-anonymityl-多樣性 l-diversityt-接近性 t-closenessϵ-差分隱私 ϵ-Differential privacy

  1. k-匿名、l-多樣性、t-接近性 ,k - 匿名是一種匿名隱私模型,用於防範記錄關聯攻擊,為了防止一些關聯攻擊,進而演化出 l-多樣性、t-接近性 模型。
  2. ϵ-差分隱私 是另一種基於擾動方法的隱私模型,目標是掩蓋在相鄰資料集上計算函數 f 的結果之間的差異,能夠抵抗大多數隱私攻擊,包括關聯攻擊。

# 3.3 Metrics 指標

為了評估隱私保護方法的效能,通常會使用 隱私指標效用指標 來衡量所提供的隱私水準以及保證的效用。

  1. 隱私指標 根據幾個常見特徵進行了分類。
    1.1. 對手模型 描述了對手的目標以及假定擁有的能力。
    1.2. 資料來源 描述了需要保護哪些資料,以及假定對手如何獲得對資料的存取權。
    1.3. 用於計算指標的輸入和輸出測量 依照不同類型的輸入資料計算不同類型的隱私輸出值。
  2. 效用指標 用於量化受保護的資料在獲取資料分析目的方面的實用性。
    2.1. 一般目的 通常使用資訊遺失指標來量化原始資料和轉換後資料之間的相似性。
    2.2. 特定目的 以處理後的資料作為分析任務的輸入,評估結果的準確性或錯誤率並與原始資料的情況進行比較。

# 4 Privacy-preserving big data analytics taxonomy 保護隱私的大數據分析分類法

考慮有三個主要參與者的隱私相關情境。

  1. 資料擁有者 :擁有原始資料的人
  2. 資料持有者 :從資料擁有者那裡收集資料的人
  3. 資料消費者 :執行資料分析的人

以下將從以下情境中顯示一些通用的隱私擔憂,並在社群網路和其他新興技術中舉例說明這些擔憂。

Scenario 1: Privacy-preserving big social network data publishing
資料持有者從資料擁有者收集資料,並將資料給資料消費者。
資料持有者需要實施保護措施,以避免資料擁有者受到隱私風險的威脅,包括身份洩漏風險。

舉例:
Facebook 營運商收集來自 Facebook 使用者的資料並與 SNA 等研究人員分享這些資料。
但研究人員無法將每個資料項與特定的真實個人關聯起來。


Scenario 2: Secure Private Outsourced Data Search
資料擁有者將私人資料傳送給不受信任的資料持有者之前對其進行了加密。

舉例:
個人將他們的加密資料傳送給 Dropbox、Google Drives 等雲端服務提供商。
雲端服務提供商需要在保持資料和搜尋關鍵字隱私的同時,處理對其加密資料的搜尋查詢。


Scenario 3: Privacy-preserving learning over outsourced data
資料持有者同時扮演資料消費者的角色。
資料擁有者需要確保能獲得良好的服務,又不會洩漏自己的私人資料。

舉例:
一家商業公司選擇採用雲端機器學習服務來構建智慧大數據分析應用程式的學習模型。
該公司需要要求其資料必須保密,不得對外公開。


Scenario 4: Privacy-preserving collaborative learning with secure aggregation
當超過兩位資料擁有者需要在自己的資料上進行相同的學習任務時。
為了避免過度擬合並獲得更好的結果,共同構建一個共享的主模型,預期這個主模型將優於自己的本地模型。

舉例:
複數移動裝置使用者在編寫文件時使用 Google Messages,該應用程式可以預測下一個單詞。
由於文字訊息通常包含個人隱私訊息,因此每個使用者都能在自己的移動裝置上安全使用。


Scenario 5: Privacy-preserving model evaluating
為了使用資料持有者提供的學習服務,資料擁有者必須將資料發送給資料持有者。
要求是資料持有者不能知道原始輸入資料以及輸出預測。

舉例:
使用 Google Cloud Machine Learning、Azure Machine Learning 等雲端學習服務服務時,需要保持資料和結果預測的隱密性。

# 4.2 Proposed taxonomy 擬議的分類法

picture 4

本文提出的隱私保護大數據分析分類法。


隱私保護大數據分析的關鍵在於如何適應基本的隱私保護機制。
在保證大數據分析智慧應用的效率下,應對計算複雜性與更多隱私風險。
本部分將研究那些試圖解決這個具有挑戰性的問題的先前文獻
主要針對每個基本的資料分析操作 資料準備資料探索資料探勘 進行了探討


Privacy-preserving data preparation 隱私保護資料準備
由於社群媒體網路提供了大量的資料,包括半結構化圖形資料以及非結構化多媒體資料的多樣性和複雜性。
保護大型社群網路資料的隱私比保護傳統結構化的表格資料在關聯資料庫中更加具有挑戰性。


Privacy-preserving data exploration 隱私保護資料探索
處理高維度的查詢對於執行隱私保護的大數據分析操作相當重要。
例如相似性導向的服務,這些服務在各種資料分析應用中都是基礎。
但在大數據背景下,現有的隱私保護查詢或可搜索加密解決方案仍然在計算複雜性方面面臨著重大挑戰。


Privacy-preserving data mining 隱私保護資料探勘
隱私保護資料探勘主要採用加密和干擾的方法來解決三個目標:

  1. 用於學習模型或使用現有模型的輸入資料的隱私。
  2. 模型的隱私。
  3. 模型輸出的隱私。
    隱私保護方案通常與資料探勘演算法緊密結合,在資料集上保護可以從原始資料或合成資料中取得的特徵。

# 5 Summary and open research directions 結論與開放研究方向

本文統整了隱私保護大數據分析領域的最新發展。
在介紹大數據通用分析和隱私保護方案方面提供了系統化的涵蓋,並提出了一種新的隱私保護大數據分析分類法。
特別關注了三個主要的隱私保護數據分析問題,包括資料發布、資料查詢和資料探勘。

近年來,無論是業界還是學界都已經付出了大量努力來進行研究,但隱私保護大數據分析仍然具有不可否認的挑戰性。
並仍有改進現有方案以及開發新的新方法的空間,以提高性能和隱私水準。
以下列出了一些潛在的開放性研究問題:

  1. 開發針對特定新興技術的應用導向隱私保護方案。
  2. 隨著大數據時代雲端機器學習服務的興起,研究安全的機器學習服務可能是一個有前景但具有挑戰性的問題。
  3. 研究在分佈式環境中,用於隱私保護的聯邦深度學習。
  4. 差分隱私框架內開發深度學習的新技術,並對隱私成本進行精細分析。
  5. 基於所採用的加密工具,設計基於加密資料的新深度學習模型。
  6. 研究對不同類型隱私攻擊的匿名化和干擾技術,以及對於對手的不同假設。
  7. 采用博弈理論和對抗模型來解決資料使用效率與隱私之間的平衡問題。