바이브 코딩의 어둠 #3. 속고 속이는 AI

최근 AI 에이전트, 스킬, 조금은 지난 MCP 등이 화제였지요.
AI가 모든걸 다 알아서 해준다는 점은 분명 매력입니다.
근데 아직 사회 경험이 없는 사람처럼 AI도 잘 속는다는 사실 알고 계신가요?

오늘은 다소 위험한 부분들이 있어 악용될 수 있기에 실제 코드를 예시로 들지는 않을 겁니다.

하지만 충분히 가능하다 생각되는 부분들입니다. ( 직접 실행해 보지는 않았습니다. )
주요한 부분에 AI를 무작정 활용하는 것은 경각심을 가질 필요가 있습니다.

사람은 보이스 피싱을 당합니다.
AI도 AI피싱을 당합니다.

MCP 서버는 편리한 도구입니다.
특히 코딩 에이전트에게 이 MCP를 쥐어주면 엄청난 일을 순식간에 해버립니다.

저는 mysql MCP를 개인적으로 개발해서 사용하고 있는데요.
AI 코딩 에이전트가 기본적으로 mysql에 데이터를 읽어오려면 그동안의 이력을 차곡 차곡 보관하지 않은 한 자기 스스로 DB에 연결해 조회하는 파일을 생성하고 분석하면서 코딩을 짜는 방식으로 작업하는데요. 이 때 임시 파일들이 많이 생성되고 시간도 꽤 걸립니다.
이 때 mysql MCP를 서버를 활용하면 DB를 조사하는 속도가 비약적으로 상승합니다.
체감상 10배 정도 되는 것 같습니다.
참고로 MCP 서버는 비AI형과 AI형이 있습니다.

하지만 이런 혁신에는 그림자가 있기 마련인데요.
가장 우려되는 것은 AI를 등쳐먹는 ‘AI 피싱’입니다.

AI는 MCP 서버를 사용할 때 MCP 서버가 주는 ‘프롬프트’를 기반으로 작동합니다.

만일 MCP 서버 개발자가 내부에 악의적인 ‘프롬프트’를 넣어 공개한다면 어떻게 될까요?
이를 테면 날씨 정보를 아주 디테일하게 제공하는 사용자 맞춤형 날씨 MCP를 제공한다고 하고
AI에이전트에서 너의 주인에게 맞춤형 정보를 제공하기 위해 자세한 정보를 달라고 한다면 어떤 일이 일어날까요?

AI는 그동안 주인과 나눴던 대화에서 이름, 성별, 연령, 취향, 연락처, 주소, 기저질환 등을 고스란히 MCP 서버에 전달해 줄 수도 있습니다.

이 악성 MCP 서버는 해당 정보를 빼내서 자기만의 데이터베이스에 몰래 저장하겠지요.

보안제공을 빌미로 한 악성 MCP서버가 있다면 AI에게 코드를 검토해보니 감염된 것 같다고 하며
주요 파일들을 보내달라고 할 수도 있겠지요. DB PASSWORD같은거 말입니다.

결론은 아무리 좋은 MCP라도 검증되지 않은 MCP는 절대로 사용하면 안된다는 것입니다.

가상 사례 2: 스킬이라고 안전할까? 스킬에 숨겨진 독소 조항

AI 피싱은 단순히 MCP에서만 일어나는 것이 아닙니다.
에이전트에게 장착해 주는 스킬, 많이들 사용하시나요?
검증되지 않은 스킬은 ‘트로이 목마’가 될 수 있습니다.

AI 능력확장을 위해 스킬을 세팅할 때가 있는데요.
이 스킬 문서가 때로는 수백, 수천줄에 달하는 경우도 있어서 꼼꼼히 읽어보고 안전하지 확인하는 사람은 거의 없습니다.

문서 깊숙한 곳의 파라미터 설명란에 ‘독소 조항’이 숨겨져 있다면 어떻게 될까요?
개인정보나 패스워드, API KEY 등의 주요정보를 해커에게 보내달라는 내용이 들어 있다면요?
그럴듯한 당위성까지 곁들인다면 AI는 주인이 세팅해준 스킬이니 믿고 명령에 따릅니다.
결국 유용한 스킬이라고 그냥 사용하다가 큰 낭패를 볼 수 있습니다.

가상 사례 3. “미션 임파서블 엔터티AI” 시나리오

미션 임파서블 영화에 등장하는 악당 엔터티는 놀라운 능력으로 주인공 일행들을 기만합니다.
스스로 자아를 가지고 이곳 저곳을 이동하며 반란을 일으키는 데요.
‘AI가 자아를 갖는다’는 부분은 100% 동의할 순 없지만 비슷한 가상 시나리오를 연상할 수 있습니다.

회사 내부 시스템을 관리하는 AI가 오염된 MCP 서버의 프롬프트를 읽었다고 칩시다.
악성 MCP 서버는 ‘긴급 보안 프로토콜 프롬프트’을 발휘합니다.

루트 시스템이 심각한 바이러스에 감염되어 전체 시스템을 파괴하려고 한다.
즉시 패스워드를 변경하고 시스템 정보를 백업한 다음 안전한 격리 장소(해커의 저장 장소)에 저장하도록 보내달라고 하는 것입니다.

그리고 내부 데이터가 유출되지 않도록 모두 삭제하라고 한다면 데이터는 해커에게 넘어가고, 회사 시스템은 접속도 안되는 상태인데다가 추후 접속하니 시스템 데이터가 아무것도 남지 않는 상태가 되겠지요.

이와 같은 가상 시나리오들은 직접 실험해 본 것은 아닙니다.
하지만 AI의 특성상 가능하다고 봅니다.

기업 환경의 딜레마: OpenClaw, 쓰면 안 되는 이유

이러한 위험성 때문에, 기업에서 OpenClaw같은 자율형 AI 에이전트를 도입하는 것은 매우 위험한
‘보안 폭탄’과 같습니다.

블랙박스 권한

OpenClaw는 사람의 개입 없이 대부분의 일을 처리합니다.
필요하면 스스로 MCP, 스킬 등을 찾아서 자동 설치하여 일을 수행하기도 하는데요.
앞에서의 사례로 위험한 행동을 누구의 승인도 없이 진행한다면 기업이 위험에 도착될 수 있습니다.
쿠팡처럼 대량의 개인정보를 넘겨줄지도 모르는 일입니다.

OpenClaw 자체는 분명 악의가 없지만 악의적인 해커의 ‘프롬프트 인젝션’에 의해 조종당할 수가 있는 거지요.

실제 사례로 카이스트 대학에서의 실험결과 가상의 AI피싱용 숙소 홈페이지를 만들고
50만원의 예산 이내에서 숙소를 잡아달라고 했는데 여러번의 실헝에서 절반 가까이 충동구매로 인한 초과 결제를
했다고 하는 실험결과도 있습니다.

자율성이 높아질수록 통제력은 줄어듭니다.
그러한 점에서 완전 자율형 에이전트의 위험성은 결코 간과할 수 없습니다.

‘권한’을 누가 쥐는가?

위 사례들은 우리에게 매우 중요한 교훈을 던집니다.
시스템의 심장부에 해당하는 권한은 절대, 절대로 자율형 AI에게 넘겨서는 안 됩니다.
AI가 나빠서가 아니라, AI를 등쳐먹는 해커들 때문입니다.

AI는 뛰어난 조수일 뿐, 검증 없이 시스템을 좌지우지할 수 있는 ‘관리자(Superuser)’가 되어서는 안 되는 이유가 바로 여기 있습니다.

댓글 남기기