차등정보보호 소개
1. 소개
환자 질병 유무 데이터에 불확실성을 추가하여 공개함으로써 개별 환자의 질병 유무 확정을 어렵게 만들 수 있습니다.
예를 들어 어떤 병원이 데이터 분석을 목적으로 10000명의 환자 데이터세트를 만들 때 무작위로 약 1000명을 선택하고 그들의 질병 유무를 반대로 바꾼다고 생각해 봅시다. 변경된 데이터세트와 함께 무작위 선택 방법도 공개하지만 어떤 환자의 질병 유무를 바꾸었는지는 공개하지 않습니다. 이로 인해 공개된 데이터세트만을 가지고서는 특정 환자의 질병 유무를 100% 확신할 수 없게 됩니다.
이러한 특성을 가지는 데이터세트를 Differentially Private Data라고 하고 이와 같은 개인정보보호를 Differential Privacy라고 합니다. 개인 데이터를 한 곳에 모은 상태에서 불확실성을 추가하면 Global Differential Privacy라고 부르고 개인 데이터를 수집하는 단계에서 불확실성을 추가하고 그 결과를 모으면 Local Differential Privacy라고 부릅니다.
개인정보보호에 대한 하나의 수학적 정의인 Differential Privacy 방식은 다음과 같은 특징을 가지고 있습니다.
개인정보보호 손실에 대한 정량화
수학적 증명이 가능한 개인정보보호 수준의 보장
2. 예시
이 단원에서는 다섯 명의 환자 질병 유무 데이터에 불확실성을 추가하고 공개 데이터로부터 원본 데이터에서 질병 보유 환자의 비율이 어떤 값을 가지는지 추정하는 과정을 보여 줍니다.