자료 긁어내기
자료 긁어내기(data dredging, 데이터 드레징) 또는 자료 캐고들기(data snooping, 데이터 스누핑) 또는 p-해킹(p-hacking)[1]은 통계적으로 유의미한 것으로 표시될 수 있는 데이터의 패턴을 찾기 위해 데이터 분석을 오용하여 오탐의 위험을 극적으로 증가시키고 과소평가하는 것이다. 이는 데이터에 대해 많은 통계 테스트를 수행하고 중요한 결과가 나온 데이터만 보고함으로써 수행된다.
데이터 드레징 프로세스에는 철저한 검색을 통해 단일 자료 집합을 사용하여 여러 가설을 테스트하는 작업이 포함된다. 상관 관계를 보여줄 수 있는 변수 조합, 평균의 차이 또는 다른 항목에 의한 분석을 보여주는 사례 또는 관찰 그룹에 대해 테스트할 수 있다.
통계적 유의성에 대한 기존 테스트는 우연이 작용할 경우 특정 결과가 발생할 확률에 기반을 두고 있으며 특정 유형의 잘못된 결론(귀무 가설의 잘못된 기각)이 발생할 위험을 필연적으로 받아들인다. 이 위험 수준을 유의성이라고 한다. 많은 수의 테스트가 수행되면 일부는 이러한 유형의 잘못된 결과를 생성한다. 따라서 무작위로 선택한 가설의 5%는 5% 유의 수준에서 통계적으로 유의한 것으로 (잘못) 보고될 수 있고, 1%는 1% 유의 수준에서 통계적으로 유의한 것으로 (잘못) 보고될 수 있으며, 이런 식으로 우연히만 발생한다. 충분한 가설을 테스트하면 일부 가설이 통계적으로 유의미한 것으로 보고될 것이 거의 확실하다(비록 이것이 오해의 소지가 있음에도 불구하고). 임의의 정도를 지닌 거의 모든 데이터 세트에는 (예를 들어) 일부 허위 상관 관계가 포함될 가능성이 높기 때문이다. 주의하지 않으면 데이터 마이닝 기술을 사용하는 연구자가 이러한 결과로 인해 쉽게 오해를 받을 수 있다. p-해킹(p-값과 관련하여)이라는 용어는 사회 과학 연구에서 이러한 문제를 밝히는 데 주력해 온 블로그 데이터 콜라다(Data Colada)의 연구자 3명이 2014년 논문에서 만들어낸 것이다.[2][3][4]
데이터 드레징은 다중 비교 문제를 무시한 예이다. 한 가지 형태는 독자에게 검사된 하위 그룹 비교의 총 개수를 알리지 않고 하위 그룹을 비교하는 것이다.[5]
같이 보기
각주
- ↑ Wasserstein, Ronald L.; Lazar, Nicole A. (2016년 4월 2일). “The ASA Statement on p-Values: Context, Process, and Purpose”. 《The American Statistician》 (Informa UK Limited) 70 (2): 129–133. doi:10.1080/00031305.2016.1154108. ISSN 0003-1305.
- ↑ Lewis-Kraus, Gideon (2023년 9월 30일). “They Studied Dishonesty. Was Their Work a Lie?” (미국 영어). 《The New Yorker》. ISSN 0028-792X. 2023년 10월 1일에 확인함.
- ↑ Subbaraman, Nidhi (2023년 9월 24일). “The Band of Debunkers Busting Bad Scientists” (미국 영어). 《Wall Street Journal》. 2023년 9월 24일에 원본 문서에서 보존된 문서. 2023년 10월 8일에 확인함.
- ↑ “APA PsycNet” (영어). 《psycnet.apa.org》. 2023년 10월 8일에 확인함.
- ↑ Young, S. S.; Karr, A. (2011). “Deming, data and observational studies” (PDF). 《Significance》 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x.
외부 링크
- A bibliography on data-snooping bias
- Spurious Correlations, a gallery of examples of implausible correlations
- StatQuest: P-value pitfalls and power calculations - 유튜브
- Video explaining p-hacking by "Neuroskeptic", a blogger at Discover Magazine
- Step Away From Stepwise, an article in the Journal of Big Data criticizing stepwise regression
- CS1 - 미국 영어 인용 (en)
- CS1 - 영어 인용 (en)
- CS1 관리 - 여러 이름
- 위키데이터 속성 P18을 사용하는 문서
- 위키데이터 속성 P41을 사용하는 문서
- 위키데이터 속성 P94를 사용하는 문서
- 위키데이터 속성 P117을 사용하는 문서
- 위키데이터 속성 P154를 사용하는 문서
- 위키데이터 속성 P213을 사용하는 문서
- 위키데이터 속성 P227을 사용하는 문서
- 위키데이터 속성 P242를 사용하는 문서
- 위키데이터 속성 P244를 사용하는 문서
- 위키데이터 속성 P245를 사용하는 문서
- 위키데이터 속성 P268을 사용하는 문서
- 위키데이터 속성 P269를 사용하는 문서
- 위키데이터 속성 P271을 사용하는 문서
- 위키데이터 속성 P347을 사용하는 문서
- 위키데이터 속성 P349를 사용하는 문서
- 위키데이터 속성 P350을 사용하는 문서
- 위키데이터 속성 P373을 사용하는 문서
- 위키데이터 속성 P380을 사용하는 문서
- 위키데이터 속성 P396을 사용하는 문서
- 위키데이터 속성 P409를 사용하는 문서
- 위키데이터 속성 P428을 사용하는 문서
- 위키데이터 속성 P434를 사용하는 문서
- 위키데이터 속성 P435를 사용하는 문서
- 위키데이터 속성 P436을 사용하는 문서
- 위키데이터 속성 P454를 사용하는 문서
- 위키데이터 속성 P496을 사용하는 문서
- 위키데이터 속성 P549를 사용하는 문서
- 위키데이터 속성 P650을 사용하는 문서
- 위키데이터 속성 P651을 사용하는 문서
- 위키데이터 속성 P691을 사용하는 문서
- 위키데이터 속성 P716을 사용하는 문서
- 위키데이터 속성 P781을 사용하는 문서
- 위키데이터 속성 P791을 사용하는 문서
- 위키데이터 속성 P864를 사용하는 문서
- 위키데이터 속성 P865를 사용하는 문서
- 위키데이터 속성 P886을 사용하는 문서
- 위키데이터 속성 P902를 사용하는 문서
- 위키데이터 속성 P906을 사용하는 문서
- 위키데이터 속성 P947을 사용하는 문서
- 위키데이터 속성 P950을 사용하는 문서
- 위키데이터 속성 P966을 사용하는 문서
- 위키데이터 속성 P982를 사용하는 문서
- 위키데이터 속성 P1003을 사용하는 문서
- 위키데이터 속성 P1004를 사용하는 문서
- 위키데이터 속성 P1005를 사용하는 문서
- 위키데이터 속성 P1006을 사용하는 문서
- 위키데이터 속성 P1015를 사용하는 문서
- 위키데이터 속성 P1045를 사용하는 문서
- 위키데이터 속성 P1048을 사용하는 문서
- 위키데이터 속성 P1053을 사용하는 문서
- 위키데이터 속성 P1146을 사용하는 문서
- 위키데이터 속성 P1153을 사용하는 문서
- 위키데이터 속성 P1157을 사용하는 문서
- 위키데이터 속성 P1186을 사용하는 문서
- 위키데이터 속성 P1225를 사용하는 문서
- 위키데이터 속성 P1248을 사용하는 문서
- 위키데이터 속성 P1273을 사용하는 문서
- 위키데이터 속성 P1315를 사용하는 문서
- 위키데이터 속성 P1323을 사용하는 문서
- 위키데이터 속성 P1330을 사용하는 문서
- 위키데이터 속성 P1362를 사용하는 문서
- 위키데이터 속성 P1368을 사용하는 문서
- 위키데이터 속성 P1375를 사용하는 문서
- 위키데이터 속성 P1407을 사용하는 문서
- 위키데이터 속성 P1556을 사용하는 문서
- 위키데이터 속성 P1584를 사용하는 문서
- 위키데이터 속성 P1695를 사용하는 문서
- 위키데이터 속성 P1707을 사용하는 문서
- 위키데이터 속성 P1736을 사용하는 문서
- 위키데이터 속성 P1886을 사용하는 문서
- 위키데이터 속성 P1890을 사용하는 문서
- 위키데이터 속성 P1907을 사용하는 문서
- 위키데이터 속성 P1908을 사용하는 문서
- 위키데이터 속성 P1960을 사용하는 문서
- 위키데이터 속성 P1986을 사용하는 문서
- 위키데이터 속성 P2041을 사용하는 문서
- 위키데이터 속성 P2163을 사용하는 문서
- 위키데이터 속성 P2174를 사용하는 문서
- 위키데이터 속성 P2268을 사용하는 문서
- 위키데이터 속성 P2349를 사용하는 문서
- 위키데이터 속성 P2418을 사용하는 문서
- 위키데이터 속성 P2456을 사용하는 문서
- 위키데이터 속성 P2484를 사용하는 문서
- 위키데이터 속성 P2558을 사용하는 문서
- 위키데이터 속성 P2750을 사용하는 문서
- 위키데이터 속성 P2980을 사용하는 문서
- 위키데이터 속성 P3223을 사용하는 문서
- 위키데이터 속성 P3233을 사용하는 문서
- 위키데이터 속성 P3348을 사용하는 문서
- 위키데이터 속성 P3372를 사용하는 문서
- 위키데이터 속성 P3407을 사용하는 문서
- 위키데이터 속성 P3430을 사용하는 문서
- 위키데이터 속성 P3544를 사용하는 문서
- 위키데이터 속성 P3562를 사용하는 문서
- 위키데이터 속성 P3563을 사용하는 문서
- 위키데이터 속성 P3601을 사용하는 문서
- 위키데이터 속성 P3723을 사용하는 문서
- 위키데이터 속성 P3788을 사용하는 문서
- 위키데이터 속성 P3829를 사용하는 문서
- 위키데이터 속성 P3863을 사용하는 문서
- 위키데이터 속성 P3920을 사용하는 문서
- 위키데이터 속성 P3993을 사용하는 문서
- 위키데이터 속성 P4038을 사용하는 문서
- 위키데이터 속성 P4055를 사용하는 문서
- 위키데이터 속성 P4114를 사용하는 문서
- 위키데이터 속성 P4143을 사용하는 문서
- 위키데이터 속성 P4186을 사용하는 문서
- 위키데이터 속성 P4423을 사용하는 문서
- 위키데이터 속성 P4457을 사용하는 문서
- 위키데이터 속성 P4534를 사용하는 문서
- 위키데이터 속성 P4535를 사용하는 문서
- 위키데이터 속성 P4581을 사용하는 문서
- 위키데이터 속성 P4613을 사용하는 문서
- 위키데이터 속성 P4955를 사용하는 문서
- 위키데이터 속성 P5034를 사용하는 문서
- 위키데이터 속성 P5226을 사용하는 문서
- 위키데이터 속성 P5288을 사용하는 문서
- 위키데이터 속성 P5302를 사용하는 문서
- 위키데이터 속성 P5321을 사용하는 문서
- 위키데이터 속성 P5368을 사용하는 문서
- 위키데이터 속성 P5504를 사용하는 문서
- 위키데이터 속성 P5587을 사용하는 문서
- 위키데이터 속성 P5736을 사용하는 문서
- 위키데이터 속성 P5818을 사용하는 문서
- 위키데이터 속성 P6213을 사용하는 문서
- 위키데이터 속성 P6734를 사용하는 문서
- 위키데이터 속성 P6792를 사용하는 문서
- 위키데이터 속성 P6804를 사용하는 문서
- 위키데이터 속성 P6829를 사용하는 문서
- 위키데이터 속성 P7293을 사용하는 문서
- 위키데이터 속성 P7303을 사용하는 문서
- 위키데이터 속성 P7314를 사용하는 문서
- 위키데이터 속성 P7902를 사용하는 문서
- 위키데이터 속성 P8034를 사용하는 문서
- 위키데이터 속성 P8189를 사용하는 문서
- 위키데이터 속성 P8381을 사용하는 문서
- 위키데이터 속성 P8671을 사용하는 문서
- 위키데이터 속성 P8980을 사용하는 문서
- 위키데이터 속성 P9070을 사용하는 문서
- 위키데이터 속성 P9692를 사용하는 문서
- 위키데이터 속성 P9725를 사용하는 문서
- 위키데이터 속성 P9984를 사용하는 문서
- 위키데이터 속성 P10020을 사용하는 문서
- 위키데이터 속성 P10299를 사용하는 문서
- 위키데이터 속성 P10608을 사용하는 문서
- 위키데이터 속성 P10832를 사용하는 문서
- 위키데이터 속성 P11249를 사용하는 문서
- 위키데이터 속성 P11646을 사용하는 문서
- 위키데이터 속성 P11729를 사용하는 문서
- 위키데이터 속성 P12204를 사용하는 문서
- 위키데이터 속성 P12362를 사용하는 문서
- 위키데이터 속성 P12754를 사용하는 문서
- 위키데이터 속성 P13049를 사용하는 문서
- 편향
- 인지 편향
- 연구부정행위
- 데이터 마이닝
- 실험 설계
- 가설 검정
- 통계의 오용