차등정보보호 소개

1. 소개

SNPLab Inc.
4 min readJun 16, 2020

환자 질병 유무 데이터에 불확실성을 추가하여 공개함으로써 개별 환자의 질병 유무 확정을 어렵게 만들 수 있습니다.

예를 들어 어떤 병원이 데이터 분석을 목적으로 10000명의 환자 데이터세트를 만들 때 무작위로 약 1000명을 선택하고 그들의 질병 유무를 반대로 바꾼다고 생각해 봅시다. 변경된 데이터세트와 함께 무작위 선택 방법도 공개하지만 어떤 환자의 질병 유무를 바꾸었는지는 공개하지 않습니다. 이로 인해 공개된 데이터세트만을 가지고서는 특정 환자의 질병 유무를 100% 확신할 수 없게 됩니다.

이러한 특성을 가지는 데이터세트를 Differentially Private Data라고 하고 이와 같은 개인정보보호를 Differential Privacy라고 합니다. 개인 데이터를 한 곳에 모은 상태에서 불확실성을 추가하면 Global Differential Privacy라고 부르고 개인 데이터를 수집하는 단계에서 불확실성을 추가하고 그 결과를 모으면 Local Differential Privacy라고 부릅니다.

개인정보보호에 대한 하나의 수학적 정의인 Differential Privacy 방식은 다음과 같은 특징을 가지고 있습니다.

개인정보보호 손실에 대한 정량화

수학적 증명이 가능한 개인정보보호 수준의 보장

2. 예시

이 단원에서는 다섯 명의 환자 질병 유무 데이터에 불확실성을 추가하고 공개 데이터로부터 원본 데이터에서 질병 보유 환자의 비율이 어떤 값을 가지는지 추정하는 과정을 보여 줍니다.

2.1. 불확실성 추가

2.1.1. 원본 데이터

위의 데이터는 원본이기 때문에 환자 D의 False가 “진짜” False일 가능성은 100%입니다.

2.1.2. 데이터 처리

전체 영역 중에서 밝은 부분의 면적이 차지하는 비율이 90%인 스피너를 사용하여 원본 데이터에 불확실성을 추가합니다.

시행 결과로 바늘이 밝은 부분에서 멈추면 질병 유무를 그대로 유지하고 어두운 부분에서 멈추면 질병 유무를 뒤집어서 기록합니다.

2.1.3. 공개 데이터

스피너를 사용하여 처리한 결과를 공개합니다.

불확실성의 추가로 인해 환자 D의 True가 “진짜” True일 가능성은 100%가 아니고 90%가 됩니다. 이것은 다른 환자들의 질병 유무에 대해서도 마찬가지로 적용됩니다.

2.2. 통계값 추정

원본 데이터에서 질병 유무가 True인 환자의 비율:

공개 데이터에서 질병 유무가 True인 환자의 비율:

공개 데이터로부터 질병 유무가 “진짜” True인 환자의 비율 추정:

“진짜” True 환자 비율과 추정 True 환자 비율의 오차 및 오차율:

참고 자료

Differential privacy, an easy case — 2019–01–03, Mark Hansen

--

--