LLM 냄새, AI가 만든 글과 UI의 동질화 신호

냄새는 오류보다 먼저 보인다

Various LLM Smells는 거창한 연구가 아니라 관찰 기록이다. 저자는 수학 블로그 글을 다듬는 데 LLM을 쓰다가, 몇 달 뒤 자신이 좋다고 느꼈던 문장 구조가 인터넷 전반에 반복되는 것을 보았다고 말한다. 글에서는 "너무 많은 punchline", 짧은 문장 연속, "X is the Y of Z" 같은 구성, 그리고 AI 생성 웹사이트에서 반복되는 JetBrains Mono, 단계형 목록, 특정 버튼과 카드, 깜박이는 점 배지를 예로 든다.

이 글이 중요한 이유는 AI 품질 문제를 오탈자나 환각이 아니라 취향의 수렴으로 본다는 데 있다. 생성물이 틀리지 않아도, 모두가 비슷해지면 브랜드와 제품의 신호가 약해진다. Tailwind를 떠나는 글이 AI 코딩에 중요한 이유에서 다룬 문제도 비슷하다. 도구가 쉬운 패턴을 빠르게 제공할수록 팀은 더 명확한 설계 기준을 가져야 한다.

AI 글쓰기의 문제는 유창함의 과잉이다

LLM이 글을 망치는 방식은 대개 문법 오류가 아니다. 오히려 너무 매끈하고, 너무 단정하며, 모든 문단이 작은 결론처럼 닫힌다. 이 구조는 데모와 소개글에는 효과적이지만 분석 글, 기술 문서, 장애 보고서에는 위험하다. 불확실한 부분, 판단을 보류해야 하는 부분, 근거가 약한 부분까지 "좋은 문장"으로 덮어버리기 때문이다.

LLM Code Smells 논문은 LLM 통합 코드의 나쁜 관행을 아홉 가지 냄새로 분류하고, 692개 오픈소스 프로젝트의 171,194개 소스 파일을 분석해 73.5% 시스템에서 LLM 코드 냄새가 나타났다고 보고했다. 글쓰기와 코드는 다르지만 문제의 구조는 같다. 품질 저하는 갑자기 터지는 버그보다 반복되는 습관으로 먼저 나타난다.

영역	자주 보이는 AI 냄새	실제 위험
글쓰기	짧은 결론문 반복, 과장된 대비	근거보다 문체가 앞선다
랜딩 페이지	비슷한 카드, 배지, 단계형 섹션	브랜드 구분이 약해진다
개발 문서	모든 항목을 같은 깊이로 설명	중요한 예외가 묻힌다
코드	범용 래퍼와 과도한 추상화	유지보수자가 의도를 잃는다

디자인 시스템이 있어도 충분하지 않다

AI 웹 생성기는 대체로 안전한 선택을 한다. 모노스페이스 폰트, 라운드 카드, 두꺼운 CTA, 작은 상태 배지는 실패 확률이 낮다. 그러나 실패 확률이 낮은 선택이 문제 해결에 맞는 선택은 아니다. 업무용 SaaS 화면이 마케팅 히어로처럼 보이고, 데이터 도구가 장식 카드로 가득 차고, 개발자 문서가 감성 문구로 끝나는 순간 사용자는 실제 작업 흐름을 잃는다.

Project Hail Mary 별지도, 데이터 UI가 AI 제품에 주는 힌트는 정보 구조가 제품 경험을 만든다는 점을 보여줬다. 반대로 LLM 냄새가 강한 UI는 정보 구조보다 생성기 기본값이 먼저 보인다. 팀은 "그럴듯한 화면"을 승인 기준으로 삼지 말고, 사용자가 무엇을 비교하고, 어떤 상태를 반복적으로 확인하며, 어떤 조작을 빠르게 해야 하는지부터 점검해야 한다.

검토 기준을 결과물 밖에 둬야 한다

AI 결과물만 보고 판단하면 쉽게 속는다. 문장이 좋고 화면이 깔끔하면 통과시키고 싶어진다. 그래서 기준은 결과물 밖에 있어야 한다. 글이라면 주장, 근거, 반례, 독자 수준, 문체 금지어 목록이 필요하다. UI라면 정보 밀도, 조작 빈도, 접근성, 반응형 동작, 기존 디자인 시스템과의 차이를 봐야 한다. 코드라면 테스트, 타입, 변경 범위, 기존 패턴 위반 여부가 먼저다.

AI 사용률 KPI가 만들 수 있는 가짜 생산성이 경고한 것처럼 사용량은 성과가 아니다. AI로 만든 글과 화면이 많아질수록 조직은 산출량보다 식별 가능한 품질 기준을 가져야 한다. 냄새는 금지 목록이 아니라 리뷰의 출발점이다. "이 문장과 화면이 왜 이렇게 생겼는가"라는 질문을 되살리는 장치다.

자주 묻는 질문

Q1: LLM 냄새가 보이면 AI 사용을 금지해야 하나요?

A: 아니다. 저자도 AI 사용 자체에 반대하지 않는다고 밝힌다. 문제는 무검토 수용이다.

Q2: 특정 폰트나 카드 UI가 나쁜가요?

A: 그 자체로 나쁘지 않다. 다만 문제 맥락과 무관하게 반복될 때 브랜드와 사용성이 약해진다.

Q3: 글쓰기에서 가장 위험한 패턴은 무엇인가요?

A: 근거가 약한데도 결론문처럼 단정하는 패턴이다. 문체가 판단을 위장한다.

Q4: 팀에서 바로 할 수 있는 대응은 무엇인가요?

A: 리뷰 체크리스트에 금지 문체, UI 패턴 중복, 기존 제품 톤과의 차이를 추가하는 것이다.

Q5: 개발자에게도 관련이 있나요?

A: 매우 관련 있다. 코드 냄새처럼 AI 생성물도 반복 패턴을 통해 유지보수 비용을 만든다.

LLM 냄새, AI가 만든 글과 UI의 동질화 신호

AI 뉴스를 놓치지 마세요

냄새는 오류보다 먼저 보인다

AI 글쓰기의 문제는 유창함의 과잉이다

디자인 시스템이 있어도 충분하지 않다

검토 기준을 결과물 밖에 둬야 한다

자주 묻는 질문

Q1: LLM 냄새가 보이면 AI 사용을 금지해야 하나요?

Q2: 특정 폰트나 카드 UI가 나쁜가요?

Q3: 글쓰기에서 가장 위험한 패턴은 무엇인가요?

Q4: 팀에서 바로 할 수 있는 대응은 무엇인가요?

Q5: 개발자에게도 관련이 있나요?

관련 토픽 더 보기

관련 기사

AI가 나를 멍청하게 만든다는 개발자의 고백

AI가 작업 마비를 풀어줄 때, 생산성은 의존성 관리 문제가 된다

Airbnb 코드 60%가 AI 작성, 개발 조직의 기준이 바뀐다

OpenAI 100달러 Pro 신설, 코덱스 과금의 기준이 바뀐다

Coalton, 타입 있는 Lisp가 AI 코딩에 주는 교훈