ChatGPT Cloudflare Turnstile 해부: React 상태까지 읽는 보안 코드 복호화

ChatGPT는 타이핑 허용 전 무엇을 확인하는가

ChatGPT에서 메시지를 입력하기 전, 눈에 보이지 않는 Cloudflare Turnstile 프로그램이 백그라운드에서 실행된다. 최근 한 보안 연구자가 ChatGPT 네트워크 트래픽에서 377개의 암호화된 Turnstile 프로그램을 수집하고 복호화하는 데 성공했다. 그 결과 드러난 것은 단순한 봇 탐지를 훨씬 초월하는 3계층 지문 수집 메커니즘이었다.

이 연구는 Hacker News에서 점수 282점을 기록하며 개발자 커뮤니티의 뜨거운 관심을 받았다. 보안 연구자들과 웹 개발자 모두 "우리가 사용하는 서비스가 이 정도까지 우리 환경을 검사하는지 몰랐다"는 반응을 보였다.

핵심은 이것이다: Cloudflare Turnstile은 당신이 실제 브라우저를 사용하는지만 확인하는 것이 아니라, ChatGPT의 React SPA가 완전히 부팅된 실제 브라우저에서 사용하는지를 확인한다. 브라우저 지문을 스푸핑하는 봇이라도 React 애플리케이션 내부 상태를 가짜로 만들지 않으면 탐지된다.

암호화 해제 과정: 어떻게 XOR 키가 페이로드 안에 숨어 있었나

Turnstile 프로그램은 암호화된 채로 전달된다. turnstile.dx 필드는 매 요청마다 변경되는 28,000자의 base64 문자열이다. 겉보기에는 강력한 보안처럼 보이지만, 연구자는 복호화 체계가 생각보다 단순하다는 것을 발견했다.

복호화 단계:

prepare 요청에서 p 토큰 추출
prepare 응답에서 turnstile.dx 추출
XOR(base64decode(dx), p) → 89개 VM 명령으로 구성된 외부 바이트코드
외부 바이트코드 내 5인수 명령의 마지막 인수가 내부 키 (예: 97.35)
XOR(base64decode(blob), str(key)) → 실제 지문 수집 프로그램 (417~580개 VM 명령)

충격적인 점은 내부 XOR 키가 서버가 전송한 바이트코드 안에 평문으로 포함되어 있다는 사실이다. 연구자는 50개의 요청에서 50번 모두 이 방법으로 복호화에 성공했다. 키는 페이로드 안에 있었던 것이다.

VM은 28개의 커스텀 opcodes(ADD, XOR, CALL, BTOA, RESOLVE, BIND_METHOD, JSON_STRINGIFY 등)를 사용하며, 요청마다 랜덤하게 변하는 float 레지스터 주소를 사용한다. 연구자는 Cloudflare SDK 소스(sdk.js, 1,411줄)를 역분석하여 opcode 매핑을 완성했다.

복호화 단계	방법	난이도
외부 바이트코드	XOR(dx, p_token)	낮음 - 두 값 모두 동일 HTTP 교환에 있음
내부 프로그램	XOR(blob, 마지막 float)	낮음 - 키가 명령 안에 포함됨
VM 명령 해석	SDK 소스 역분석	중간 - SDK.js 1,411줄 분석 필요
opcode 매핑	수동 분석	높음 - 요청별 랜덤 레지스터 주소

55가지 수집 항목: 3계층 지문의 전체 목록

복호화된 프로그램은 매번 동일하게 55가지 항목을 수집한다. 377개 샘플에서 예외 없이 동일했다. 이 55가지는 3계층으로 구성된다.

Layer 1: 브라우저 지문 (40항목)

WebGL 8항목: UNMASKED_VENDOR_WEBGL, UNMASKED_RENDERER_WEBGL 등 GPU 정보
화면 8항목: colorDepth, pixelDepth, width, height, availWidth, availHeight, availLeft, availTop
하드웨어 5항목: hardwareConcurrency(CPU 코어 수), deviceMemory, maxTouchPoints, platform, vendor
폰트 측정 4항목: 숨겨진 div를 생성하고 특정 폰트를 설정한 뒤 getBoundingClientRect로 렌더링된 텍스트 치수를 측정, 이후 요소 삭제
DOM 프로빙 8항목: createElement, appendChild 등
스토리지 5항목: 지문값을 localStorage의 키 6f376b6560133c2c 아래 영구 저장

Layer 2: Cloudflare 네트워크 데이터 (5항목)

cfIpCity, cfIpLatitude, cfIpLongitude, cfConnectingIp, userRegion
이 값들은 Cloudflare 엣지 서버에서 서버 사이드로 주입된다. Cloudflare 네트워크를 통하지 않거나 비-Cloudflare 프록시 뒤에 있는 봇은 이 값이 누락되거나 불일치한다.

Layer 3: React 애플리케이션 상태 (3항목)

__reactRouterContext: React Router v6+가 DOM에 부착하는 내부 데이터 구조
loaderData: 라우트 로더 결과값
clientBootstrap: ChatGPT SSR 하이드레이션에 특화된 값

Layer 3이 핵심이다. 이 세 값은 ChatGPT의 React SPA가 완전히 초기화된 경우에만 존재한다. 브라우저 지문을 완벽하게 스푸핑하더라도 ChatGPT 프론트엔드 코드를 실제로 실행하지 않으면 이 값들을 만들어낼 수 없다.

개발자와 프라이버시 관점에서의 시사점

이 연구가 AI/웹 개발자 커뮤니티에 던지는 시사점은 여러 층위가 있다.

자동화 개발자 관점: API가 아닌 웹 UI를 통해 ChatGPT를 자동화하려면 단순 헤드리스 브라우저로는 부족하다. 완전한 React SPA 렌더링이 필요하다. Playwright나 Puppeteer를 사용하더라도 React 초기화가 완료된 후에야 Turnstile을 통과할 수 있다.

프라이버시 관점: 사용자의 GPS 좌표 수준의 위치 정보(cfIpLatitude, cfIpLongitude), GPU 모델, 화면 정보, 하드웨어 사양이 매 메시지마다 수집된다. 이 데이터가 OpenAI 서버에서 어떻게 처리되고 저장되는지에 대한 투명성은 현재 ChatGPT 개인정보처리방침에 명확히 설명되어 있지 않다.

보안 연구 관점: Turnstile의 암호화가 실제로는 쉽게 역분석 가능했다는 점은, 보안이 "보기 어렵게 만드는 것(security through obscurity)"에 의존할 때의 한계를 보여준다. 진정한 보안은 키가 노출되어도 시스템이 안전해야 한다.

한국의 ChatGPT 사용자(2025년 기준 약 300만 명 이상 추정)도 동일한 방식으로 매 요청마다 지문이 수집된다. GDPR 역외 전송 규정과 유사하게 한국 개인정보보호법 적용 여부에 대한 법적 검토가 필요한 시점이다.

Q1: Cloudflare Turnstile은 CAPTCHA와 어떻게 다른가요?

A: 전통적인 CAPTCHA는 사용자가 문제를 풀어야 하지만, Turnstile은 백그라운드에서 자동으로 실행됩니다. 사용자 개입 없이 브라우저와 네트워크 환경을 검사하여 봇 여부를 판단합니다. 더 사용자 친화적이지만 그만큼 더 많은 데이터를 수집합니다.

Q2: 이 방식으로 ChatGPT가 수집하는 정보를 차단할 수 있나요?

A: 완전한 차단은 어렵습니다. VPN을 사용하면 위치 정보를 변경할 수 있지만, WebGL, 폰트 측정, React 상태 등 다른 지문 항목들은 일반 브라우저 환경에서 우회가 어렵습니다. Firefox의 지문방지 모드나 Tor Browser를 사용하면 일부 항목을 제한할 수 있습니다.

Q3: Cloudflare는 이 복호화 연구에 대해 어떤 입장인가요?

A: 이 기사 작성 시점(2026-03-30)까지 Cloudflare의 공식 입장은 발표되지 않았습니다. 연구자는 취약점이 아닌 동작 방식을 공개한 것으로, 법적 문제보다는 투명성 논의가 주를 이루고 있습니다.

Q4: React 상태 검증이 봇 탐지에서 왜 중요한가요?

A: 봇이 브라우저 환경을 스푸핑하더라도 실제 웹 애플리케이션 코드를 실행하지 않으면 React Router나 SSR 하이드레이션 결과물이 DOM에 존재하지 않습니다. 애플리케이션 레이어 검증은 OS/하드웨어 레이어 스푸핑만으로는 우회할 수 없는 추가 방어선입니다.

Q5: 이런 방식의 데이터 수집이 한국 법에서 적법한가요?

A: 한국 개인정보보호법 제15조는 개인정보 수집 시 정보주체의 동의를 원칙으로 합니다. 브라우저 지문이 '개인정보'에 해당하는지는 법적으로 명확하지 않으나, 위치 정보(cfIpLatitude 등)는 위치정보의 보호 및 이용 등에 관한 법률의 적용을 받을 수 있습니다. 현재 명확한 판례나 규제 해석은 없는 상태입니다.

이 연구는 현대 웹 서비스의 보안과 프라이버시가 얼마나 복잡하게 얽혀 있는지 보여준다. Cloudflare Turnstile이 React 내부 상태까지 검증하는 것은 기술적으로 인상적인 봇 방지 솔루션이지만, 동시에 매 요청마다 이루어지는 광범위한 환경 정보 수집에 대한 사용자 동의와 투명성이 부족하다는 문제도 제기된다. 보안과 프라이버시의 균형은 앞으로도 AI 서비스 업계가 계속 씨름해야 할 과제다.

관련 기사:

외부 참고 자료:

ChatGPT Cloudflare Turnstile 해부: React 상태까지 읽는 보안 코드 복호화

AI 뉴스를 놓치지 마세요

ChatGPT는 타이핑 허용 전 무엇을 확인하는가

암호화 해제 과정: 어떻게 XOR 키가 페이로드 안에 숨어 있었나

55가지 수집 항목: 3계층 지문의 전체 목록

개발자와 프라이버시 관점에서의 시사점

Q1: Cloudflare Turnstile은 CAPTCHA와 어떻게 다른가요?

Q2: 이 방식으로 ChatGPT가 수집하는 정보를 차단할 수 있나요?

Q3: Cloudflare는 이 복호화 연구에 대해 어떤 입장인가요?

Q4: React 상태 검증이 봇 탐지에서 왜 중요한가요?

Q5: 이런 방식의 데이터 수집이 한국 법에서 적법한가요?

관련 토픽 더 보기

관련 기사

ChatGPT 보안키 옵션, 프롬프트가 계정 자산이 된 신호

GPT-5.4-Cyber 공개, 보안 AI는 이제 허가제로 간다

ChatGPT로 보조금 자른 DOGE, 법원이 제동을 걸었다

Mythos와 Firefox, AI 보안 감사의 속도를 바꾸다

마이크로소프트, AI를 SDL에 투입, 보안 개발이 달라진다