수학자, 금융공학자, 데이터 과학자라는 무시무시한 타이틀을 가진 캐시 오닐이 자본주의 부역자(?) 신세로 전락하고 있는 데이터 과학의 이면을 고발한 책. (데이터 과학자의 본격 데이터 과학 디스라 할 수 있다) ‘월가 점거 운동의 하위 조직인 대안금융그룹을 이끌고 있다’는 저자 소개가 심상치 않다. 좌파의 냄새가 솔솔….
좋은 면이 있으면 안 좋은 면도 존재하는 게 세상만사 이치. 자본주의는 수십억 인구를 절대 빈곤에서 해방시킨 우수한 사회 체제임은 분명하다. 하지만 역시나 단점은 존재한다. 유발 하라리는 ‘사피엔스’에서 자본주의의 단점을 이렇게 얘기했다.
노예무역이 아프리카인을 향한 증오의 결과가 아니었던 것처럼, 현대의 동물산업도 악의를 기반으로 출발한 것이 아니었다. 이번에도 그 연료는 무관심이다. – 486p
이 책의 저자 캐시 오닐은 ‘대량살상 수학무기(Weapons of Math Destruction)’라는 용어까지 만들어 가며 자본주의의 단점을 다시 한번 지적한다.
대리 데이터가 진실인 것처럼 행세하는 위험한 상황이 발생하는 이유는 대부분의 데이터과학자가 거래 대상이 되는 사람들을 생각하지 않기 때문 – 32p
여기 젖소의 정신건강을 연구하려는 과학자가 있다. ‘젖소의 행복 추구’와 ‘우유 생산 증가’ 중 어떤 설명이 연구비를 타내기 쉬울까?
소의 향정신성 약물에 대한 전 세계 시장의 수요는 매년 2억 5천만 달러에 이른다. – 『사피엔스』388p
데이터 과학이 흥하는 이유는 인류 행복 증진에 도움이 되어서가 아니라, 돈이 되기 때문이다. 결국 자본주의의 선택을 받은 데이터 과학이 (자본주의의 속성인)효율에 매달리면서 자본주의의 비인간화가 더 가속화되고 있다는 것이 저자의 주장이다.
데이터 경제에서 인간은 외부자이고 구닥다리이다. 반면 시스템은 자동으로 작동하도록 만들어진다. 그것이 바로 효율성이고, 그래서 수익 창출원이 된 것 – 256p
불공정한 시스템
그리고 근거로 이런 것들을 제시한다. 인과 또는 상관관계를 확신하기 어려운 대리 데이터에 의존해서 학업 성취도나 신용도는 물론, 심지어 재판 결과에까지 영향을 주는 다양한 평가 시스템들이다.
우편번호 등 직무 능력과 직접적 상관관계가 없는 대체 혹은 대리 데이터를 근거로 직무수행능력의 통계적 연관성을 도출 – 39p
‘우리가 누구인가’가 아니라 ‘우리가 무슨 행동을 하는가’에 따라 법의 심판을 받아야 한다. – 53p
외국 학생들을 거부한 입학사정 시스템 같은 모형들은 사람들을 배척한다. 그런 모형에 포함된 ‘과학’이 검증되지 않은 ‘가정’에 불과한데도 – 207p
데이터 과학은 4차 산업혁명의 핵심 동력으로까지 부상해 인기몰이 중이며, 데이터로 세상을 먹어치운다는 구글과 아마존 등이 제법 근사하게 동작하고 있다. 하지만 저자의 지적은 그리 억지스러워 보이지 않는다. ‘최소 비용, 최대 이익’도 좋지만 그 과정에서 인간을 소외시키지 말자는, 이제는 꽤 흔해진 자본주의 담론이기 때문이다.
데이터 과학이 저자의 바람처럼 공정성과 도덕성의 균형을 회복하려면 어떻게 해야 할까? 저자가 강조한 건 피드백이다.
통계 시스템에서 (데이터)양만큼 필수적인 것이 있다. 바로 피드백이다. 피드백은 시스템이 정상 항로에서 벗어날 경우, 이를 알려주는 장치 – 22p
실수는 학습의 기회가 된다. 단, 시스템이 실수에 대한 피드백을 받아들일 때만 그렇다. – 258p
저자는 시스템이 실수를 정정할 수 있는 피드백이 존재하지 않거나, 악화가 양화를 몰아내는 부정적 피드백에 의해 ‘예측이 예측 내용을 스스로 실현하는 자기충족적 예측’이 강화되고 있다고 얘기한다.
부정적인 피드백 루프가 활성화되기 시작… 대학 순위가 자기 강화적 특징을 갖는다. – 97p
경범죄가 경찰의 범죄 예측 모형에서 점점 더 많은 점을 차지하고, 이는 다시 경찰이 그 지역을 순찰하게 만든다. 이는 바로 유해한 피드백 루프가 활성화되는 전형적인 과정 – 152p
한마디로 버핏이 사면 이유가 있을 거라는, 오를 거라는 생각으로 투자자들이 버핏이 산 주식을 따라 사기 시작하면 주가가 왜곡되는 식으로 시스템이 왜곡된다는 것이다.
영향력 있는 디자이너들이 갈색이 내년을 지배할 유행 색이라고 판단해 갈색 옷을 제작하기 시작… 대중은 이 추세를 따라갈 것이다. 대중은 갈색 옷의 마케팅에 반응할 뿐, 자신의 선호에 대해 표현하지는 않는다. – 『신호와 소음』326 p
사람이 먼저
해결책은 단순하다. 사람이 먼저라는 것.
미래를 창조하려면 도덕적 상상력이 필요하다. 그런 능력은 오직 인간만이 가지고 있다. 우리는 더 나은 가치를 알고리즘에 포함시키고, 윤리적 지표를 따르는 빅데이터 모형을 창조해야 한다. 그렇게 하려면 가끔은 이익보다 공정성을 우선시해야 한다. – 337p
이상하게 컴퓨터 분야에서는 (컴퓨터를 만든) 사람이 자주 소외당하는 것 같다. 너무 잘 동작하는 컴퓨터를 만들어버린 건가? 정보보안 분야에서 밥벌이를 하는 입장에서도 별로 낯설지 않은 주장이다.
정보보호 기술은 관리자의 판단을 도와주는 제한적 전문가 시스템(Expert System)만을 제공… 정보보호는 제품이 아닌 전문가와 잘 구성된 절차에 의해 수행된다. – 『네트워크 보안 실무』 20p
그저 저자의 주장이 미국에서 흥했으면 하지만, 과연 자본주의가 가끔이라도 이익과 효율을 희생하려고 할까? 우리는 과연 그런 상황을 허용할 수 있을까? 나만 봐도 어떻게 하면 더 효율적으로 일하고, 더 효율적으로 돈 벌까만 궁리 중인데.
데이터 과학이 부상하기 전에도 자본과 결합한 과학 덕에 탄생한 (총이나 내연기관 등) 수많은 문명의 이기들이 인류 진보를 도왔다. 하지만 당연하게도 모두가 그 혜택을 누리지는 못한다. 누군가는 총에 맞아 죽고, 누군가는 자동차에 의해 목숨을 잃는다. 나름 잘 동작한다고 생각되는 알고리즘에 의해 누군가는 억울한 피해자가 된다. 그리고 우리 모두는 언제라도 그 운 나쁜 누군가가 될 수 있다. 운 나쁜 누군가가 되기 싫다면 문명을 거부하고 원시시대로 돌아가야 하는데, 할 수 있을까?
못할 것 같다. 나는 그 운 나쁜 누군가에 포함되지 않을 거라 생각하며 사는 게 최선일 듯. 아니면 긍정적인 피드백을 주고받으며 조금씩이나마 나아지는 세상을 만들어 가거나.
- 참고 글: 하버드대 수학박사는 왜 빅데이터를 고발하나
원문: 케세라세라