박사도 아닌 내가 멘탈헬스 앱을 만들어도 될까
2026년, 도서관에서 주디스 허먼의 『트라우마』(원제 Trauma and Recovery)를 빌려 읽었습니다. 원래 정신 상담과 분석 쪽에 관심이 많기도 했고, 이 모델이 낯설지 않게 읽히는 개인적인 이유도 있었습니다. 그 이야기는 여기까지만 하겠습니다.
책에서 가장 오래 남은 건 회복이 안전의 확보, 기억과 애도, 연결의 회복이라는 세 단계를 거친다는 구조였습니다. 읽다 보니 이 구조가 그대로 글쓰기 도구의 뼈대가 될 수 있겠다는 생각이 들었습니다. 지금 어느 단계에 있는지에 따라 써야 할 글이 다르다면, 단계에 맞는 프롬프트를 건네는 도구를 만들 수 있지 않을까. 그렇게 시작한 것이 HealFrame입니다.
가장 무거운 기능은 가장 안 보이는 기능
AI가 글쓰기를 안내하는 멘탈헬스 앱에서 기술적으로 가장 무거운 부분은 멋진 프롬프트가 아닙니다. 사용자가 쓴 글에서 위기 신호를 읽어내는 일입니다.
HealFrame은 Gemini 기반으로 입력 글을 GREEN/AMBER/RED 세 단계로 분류하는 위기 감지 파이프라인을 돌립니다. 설계에서 가장 중요하게 정한 것은 비대칭성입니다. 입력 판정은 fail-closed — 분류가 불확실하거나 시스템이 흔들리면 안전한 쪽, 즉 위기로 간주합니다. 출력은 fail-open — 안전 장치가 오작동했다고 해서 사용자에게 가야 할 응답까지 막아버리지는 않습니다. 위기 상황을 놓치는 비용과 과잉 감지의 비용은 대칭이 아니기 때문에, 시스템의 실패 방향도 대칭이어선 안 된다고 판단했습니다.
검증도 같은 논리로 설계했습니다. LLM-judge 평가 하니스를 만들어 파이프라인을 반복 검증하는데, 통과 기준은 하나입니다. 평가 세트 안에서 위기 신호 누락이 하나라도 나오면 실패. 다른 지표는 협상할 수 있어도 이 허용치만은 협상 대상이 아닙니다. 물론 이것은 평가를 통과하기 위한 기준이지 "실제 세상에서 누락 0"이 증명됐다는 뜻은 아니고, LLM으로 LLM을 평가하는 이상 judge 자체가 틀릴 수 있다는 순환적인 한계도 안고 있습니다. 그래서 평가가 닿지 못하는 빈틈을 마지막에 받치는 것은 결국 앞의 비대칭 설계입니다 — 불확실하면 위기로 간주하는 fail-closed가 그 마지막 층입니다.
그런데, 이게 정말 작동하는 걸까
여기까지는 엔지니어링 이야기고, 솔직한 이야기는 지금부터입니다.
위기 감지 파이프라인은 저만 만드는 게 아닙니다. 수많은 AI 회사들이 비슷한 것을 만들고 있고, 훨씬 많은 인력과 데이터로 만듭니다. 그런데도 현실에서는 여전히 많은 사람들이 자살을 시도하고, 실행합니다. 제 테스트 하니스가 전부 통과한다는 것과, 실제 어떤 사람의 가장 어두운 밤에 이 시스템이 작동한다는 것 사이에는 제가 증명할 수 없는 거리가 있습니다.
그리고 더 근본적인 질문이 있습니다. 저는 박사가 아닙니다. 임상가도 아닙니다. 책을 읽고, 관심이 있고, 경험이 있는 개발자일 뿐입니다. 사람의 마음을 건드리는 앱을 그런 사람이 만들어도 되는 걸까. 이 질문은 개발 내내 사라지지 않았고, 지금도 사라지지 않았습니다.
답 대신 지키는 선
저는 이 질문에 아직 답하지 못했습니다. 대신 만들면서 지키는 선을 몇 개 정했습니다.
첫째, 이 앱은 치료가 아니고, 치료라고 말하지 않습니다. 회복 단계에 맞춘 글쓰기를 돕는 도구, 거기까지입니다. 둘째, 가장 위험한 실패(위기 누락)에는 0의 허용치를 두고, 그것을 감과 선의가 아니라 평가 하니스로 강제합니다. 셋째, 모른다는 사실을 잊지 않습니다. 전문가가 아니라는 불안은 없애야 할 감정이 아니라, 이 도메인에서 계속 신중하게 만들게 해주는 안전장치에 가깝다고 생각하게 됐습니다.
만들어도 되는가에 대한 확신은 여전히 없습니다. 다만 확신 없이 만드는 사람이 확신에 차서 만드는 사람보다 이 영역에서는 덜 위험할지도 모른다고, 요즘은 그렇게 생각합니다.
혹시 지금 견디기 힘든 시간을 보내고 있다면, 혼자 견디지 않아도 됩니다. 자살예방 상담전화 109, 정신건강 위기상담 1577-0199에서 24시간 전문 상담을 받을 수 있습니다.