차등정보보호 이해: 확률의 영향

5 min readJul 2, 2020

환자 질병 유무 데이터가 주어질 때 환자별로 스피너를 시행하고 그 결과에 따라 질병 유무를 그대로 기록하거나 반대로 기록합니다.

이 문서에서는 스피너 시행으로 발생할 수 있는 모든 경우에 대하여 데이터 처리를 하고 질병 보유 환자 수가 어떻게 달라지는지 살펴봅니다. 그리고 스피너의 밝은 부분이 차지하는 비율이 50%가 아니라는 점이 질병 보유 환자 수에 어떤 영향을 미치는지에 대해서 확률을 계산하여 제시합니다.

1. 원본 데이터 준비

위의 데이터세트는 다섯명의 환자 중에서 patient-4를 제외한 나머지 네 명이 질병을 보유하고 있음을 말합니다.

2. 불확실성 추가

전체 영역 중에서 밝은 부분의 면적이 차지하는 비율이 90%인 스피너를 사용하여 원본 데이터에 불확실성을 추가합니다.

시행 결과로 바늘이 밝은 부분에서 멈추면 질병 유무를 그대로 유지하고 어두운 부분에서 멈추면 질병 유무를 뒤집어서 기록합니다.

이런 처리를 거쳐서 데이터를 공개하는 이유는 개별 환자의 질병을 특정하기 어렵게 만들어 환자의 개인정보가 침해될 가능성을 낮출 수 있기 때문입니다.

3. 모든 경우의 수

환자의 수만큼 스피너를 시행해서 나오는 모든 경우의 수를 찾고 각각 데이터 처리 결과를 구하여 표시합니다.

다섯 번의 스피너 시행에서 바늘이 밝은 부분에서 멈추는 횟수에 따라 발생할 수 있는 경우의 수는 조합 방식으로 구할 수 있습니다. 순서에 관계없이 몇 명을 뽑고자 할 때 가능한 경우의 수가 얼마인지 계산하기 위하여 조합을 사용합니다.

위의 결과로부터 모든 경우의 수가 서른두 가지임을 알 수 있습니다.

이제 각각의 경우가 일어날 확률을 계산하여 테이블에 표시합니다.

위에서 𝑛은 바늘이 밝은 부분에서 멈추는 횟수입니다. 예를 들어 환자별 스피너 시행 결과가 {True, True, False, True, False}로 나올 때 이러한 경우가 발생할 확률은 아래와 같이 구합니다.

아래의 표는 환자의 수만큼 스피너 시행시 발생할 수 있는 모든 경우와 각각의 경우가 발생할 확률을 표시한 것입니다.

스피너 시행 결과에 따라 환자 데이터를 처리하고 각각의 경우에 대하여 질병 보유 환자의 수를 구한 결과는 아래와 같습니다. 그리고 위에서 구한 확률값을 테이블의 마지막 열에 함께 표시하였습니다.

4. 질병 보유 환자 수에 따른 확률 분포

환자별로 스피너를 시행하여 데이터를 처리한 결과에서 질병 보유 환자 수가 𝑁일 확률은 3장의 데이터 처리 결과 표로부터 구할 수 있습니다. 예를 들어 질병 보유 환자 수가 2일 확률은 count(True) 값이 2인 행의 probability 값을 모두 더한 값입니다.

위의 과정을 질병 보유 환자 수가 0, 1, 2, 3, 4, 5인 경우에 적용하여 확률을 구하고 그래프를 그린 결과는 아래와 같습니다.

스피너의 밝은 부분이 차지하는 면적의 비율이 90%인 점을 고려한다면 스피너의 바늘이 밝은 부분에서 멈추는 경우가 더 자주 발생할 것이고 이는 질병 유무를 뒤집는 경우가 더 줄어든다는 것을 의미합니다. 이로 인해 데이터 처리 결과에서 질병 보유 환자 수에 대한 확률 분포가 원본 데이터의 질병 보유 환자 수인 4 근방에서 볼록한 모습으로 나타났습니다.

5. 정리

환자 질병 유무 데이터가 주어질 때 스피너를 시행하여 발생할 수 있는 모든 경우에 대하여 데이터 처리를 하고 그 결과 질병 보유 환자 수가 어떻게 달라지는지 살펴보았습니다. 그리고 스피너의 밝은 부분이 차지하는 면적의 비율이 50%가 아니라는 점이 결과에 어떤 영향을 미치는지에 대해서도 확률을 계산하여 제시하였습니다.

스피너의 확률이 데이터 처리 결과에 어떻게 영향을 미치는지 안다는 것은 역으로 결과 데이터로부터 원본 데이터의 특성을 유추할 수 있음을 의미합니다. 이에 대해서는 다른 문서에서 다루고자 합니다.