AI/LLM 관련 기술 면접 단골 질문 유형 및 답변 요령 정리

최근 소프트웨어 엔지니어(특히 백엔드, 풀스택, 시스템 아키텍트) 채용 과정에서 AI 및 LLM(대형 언어 모델) 애플리케이션 도입 경험과 설계 역량을 묻는 질문이 필수적인 요소로 자리 잡았습니다. 이제 AI 관련 질문은 머신러닝 엔지니어만의 영역이 아닙니다. 일반 애플리케이션 개발자 역시 비즈니스에 AI API를 안전하고 효율적으로 녹여낼 수 있는지 평가받는 시대가 되었습니다.

이 글에서는 실제 기술 면접에서 자주 출제되는 AI 관련 단골 질문들을 4개의 카테고리로 나누어 정리하고, 면접관이 듣고 싶어 하는 합격 기준의 답변 요령을 상세히 소개합니다.

1. 기초 및 핵심 개념 (Core Concepts)

가장 먼저 지원자가 LLM의 기본 동작 원리를 이해하고 있는지, 아니면 단순히 API 포장(Wrapper)만 해본 수준인지 파악하기 위한 질문이 주어집니다.

Q. 전통적인 규칙 기반/머신러닝 시스템과 LLM 기반 시스템의 가장 큰 차이점은 무엇인가요?

면접관의 질문 의도: 기술적 성격의 변화를 이해하고 있으며, LLM 도입 시 발생할 수 있는 비결정론적(Non-deterministic) 특성을 인지하고 있는가?
답변 요령: LLM의 확률적/비결정적 성격과 자연어 인터페이스를 언급하세요. 기존 시스템은 규칙이나 정형 데이터를 기반으로 100% 동일한 출력을 보장하지만, LLM은 입력 프롬프트에 따라 유동적이고 창의적인 결과를 내므로 테스트와 예외 처리가 훨씬 까다롭다는 점을 짚어주는 것이 중요합니다.

💡 모범 답변 스케치 "가장 큰 차이는 비결정론적(Non-deterministic) 성격과 유연성에 있습니다. 전통적인 시스템은 사전에 정의된 알고리즘이나 라벨링된 정형 데이터 학습을 바탕으로 예측 가능하고 일관된 정답을 반환합니다. 반면, LLM은 문맥에 따른 확률적 토큰 생성을 기반으로 하므로 동일한 입력에도 다른 답변이 나올 수 있습니다. 개발 관점에서는 입력 검증(Input Guardrail)과 출력 파싱/평가(Evaluation)의 중요성이 훨씬 커지며, 비정형 데이터를 유연하게 처리할 수 있는 대신 시스템의 안정성을 유지하기 위한 엄격한 엔지니어링 장치가 필요합니다."

2. 응용 아키텍처 및 RAG (RAG & Architecture)

현업에서 가장 많이 다루는 구조인 RAG(검색 증강 생성)에 관한 질문은 십중팔구 출제됩니다.

Q. RAG(Retrieval-Augmented Generation) 시스템의 파이프라인을 설명하고, 검색 품질을 높이기 위한 방안을 말해주세요.

면접관의 질문 의도: 단순 튜토리얼 수준을 넘어 데이터 전처리(Chunking), 임베딩, 검색(Retrieval) 전반의 실무적 최적화 고민을 해보았는가?
답변 요령: 단순 흐름(문서 분할 -> 임베딩 -> 벡터DB 저장 -> 사용자 질문 검색 -> 프롬프트 합성)을 넘어 청크(Chunking) 전략, 하이브리드 검색, 리랭킹(Reranking) 등의 최적화 기법을 구체적으로 언급하세요.

[RAG 파이프라인 최적화 요소]

사용자 질문 ──▶ 하이브리드 검색 (BM25 + Dense) ──▶ 리랭커 (Re-ranker) ──▶ LLM 생성
                    │
           [ 문서 Chunk + Metadata ]

💡 모범 답변 스케치 "RAG는 외부 지식 소스를 파싱 및 임베딩하여 벡터 데이터베이스에 저장한 후, 사용자 질문과 유사한 문서를 찾아 LLM의 컨텍스트로 함께 전달하는 기술입니다. 검색 품질을 높이기 위해 다음 3가지를 적용했습니다.
의미적 청킹(Semantic Chunking): 단순히 글자 수 단위가 아니라 마크다운 구조나 의미 단위로 텍스트를 나누어 문맥 유실을 방지합니다.
하이브리드 검색(Hybrid Search): 키워드 기반의 BM25 검색과 의미 기반의 Dense 임베딩 검색을 조합하여 검색의 정확도를 상호 보완합니다.
리랭킹(Reranking): 1차로 검색된 다수의 청크를 Cohere 등 리랭킹 모델을 통해 재정렬하여 관련성이 가장 높은 Top-K 문서만 LLM에 주입함으로써 'Lost in the Middle' 현상을 극복합니다."

Q. 환각 현상(Hallucination)을 줄이기 위해 백엔드 엔지니어링 관점에서 적용할 수 있는 기법은 무엇인가요?

면접관의 질문 의도: LLM의 태생적 한계를 소프트웨어적으로 제어하고 예방할 수 있는가?
답변 요령: 프롬프트 튜닝(System Prompt에 제약조건 부여), RAG 기반 컨텍스트 제공, 결과 포맷 지정(JSON Schema), Guardrails 라이브러리(LlamaGuard 등) 사용을 언급하세요.

3. 보안, 비용 및 운영 (Security & Operations)

상용화 단계에서 가장 큰 걸림돌이 되는 비용 제어와 보안에 대해 아키텍처 수준의 대책을 요구하는 질문입니다.

Q. LLM API 비용을 최소화하고 레이턴시(속도)를 개선하기 위한 최적화 기법을 말해보세요.

면접관의 질문 의도: 비즈니스 비용 효율성 및 상용 서비스 수준의 성능 개선 역량을 갖췄는가?
답변 요령: 프롬프트 캐싱(Prompt Caching), 모델 라우팅(Model Routing), **시맨틱 캐시(Semantic Cache)**를 전략적으로 묶어서 설명하는 것이 베스트입니다.

기법	세부 내용 및 효과
프롬프트 캐싱	중복되는 긴 System Prompt나 고정 문맥에 대한 API 비용을 최대 50~90% 절감
모델 라우팅	질문의 난이도에 따라 모델 분류 (단순 분류 -> 소형 모델 mini, 심층 분석 -> 대형 모델 Pro)
시맨틱 캐싱	사용자 질문의 임베딩 유사도를 계산하여 이미 답변된 질문은 백엔드 캐시(Redis 등)에서 즉시 응답

💡 모범 답변 스케치 "운영 비용과 레이턴시는 상용화의 핵심 지표입니다. 이를 위해 세 가지 계층의 최적화를 적용합니다. 첫째, 백엔드단에 시맨틱 캐싱(Semantic Caching) 레이어를 둡니다. 사용자의 질문이 들어오면 Redis 벡터 데이터베이스에서 이전 질의들과의 유사도를 판단하고, 임계치 이상의 유사도를 가지면 LLM API를 타지 않고 저장된 답변을 반환합니다. 둘째, **모델 라우팅(Model Routing)**을 구현합니다. 가벼운 분류 작업이나 정형 파싱은 GPT-4o mini나 Gemini Flash 같은 소형 모델로 라우팅하고, 깊은 추론이 필요한 영역만 고급 모델로 요청을 분기하여 토큰당 비용 단가를 낮춥니다. 셋째, 시스템 프롬프트가 길거나 RAG 문서가 반복될 경우 Anthropic이나 OpenAI의 프롬프트 캐싱 기능을 적극 활성화하여 비용과 TTFT(첫 토큰 응답 속도)를 크게 단축시킵니다."

Q. 프롬프트 인젝션(Prompt Injection) 공격은 무엇이며, 이를 방어하기 위한 백엔드 구조는 어떻게 설계해야 하나요?

면접관의 질문 의도: 사용자 입력을 신뢰하지 않는 백엔드 보안의 기본 원칙을 LLM 영역에도 적용하고 있는가?
답변 요령: 프롬프트 인젝션이 "사용자 입력이 시스템 명령어로 둔갑하여 시스템 지침을 무력화하는 공격"임을 정의하고, 방어책으로 시스템 지침과 사용자 입력의 물리적 격리, 입력 필터링, **LLM 응답 후처리를 통한 2차 검증(Guardrail)**을 제시하세요.

4. 에이전트 및 벡터 데이터베이스 (Agent & Vector DB)

비교적 고급 아키텍처에 속하는 개념으로, 자율적인 AI 시스템 구축 경험을 가늠하는 질문입니다.

Q. 벡터 데이터베이스(Vector DB)의 인덱싱 알고리즘 중 HNSW(Hierarchical Navigable Small World)와 IVF(Inverted File)의 차이점은 무엇인가요?

면접관의 질문 의도: 벡터 데이터베이스를 단순 API 라이브러리처럼 쓴 것을 넘어 내부 검색 효율성과 메커니즘을 파악하고 있는가?
답변 요령: 두 인덱스 알고리즘의 속도, 정확도(Recall), 메모리 사용량 간의 트레이드오프 관계를 명확히 설명하세요.
HNSW (Hierarchical Navigable Small World):
- 다층 그래프(Multi-layer graph) 구조를 이용해 초고속 근사 근접(ANN) 검색을 수행합니다.
- 검색 속도가 매우 빠르고 재현율(Recall)이 높지만, 그래프 데이터를 모두 RAM에 유지해야 하므로 메모리 소모량이 매우 큽니다.
IVF (Inverted File Index):
- 벡터 공간을 Voronoi 셀(클러스터)로 파티셔닝하고, 역색인 구조를 만들어 탐색 범위를 좁힙니다.
- HNSW에 비해 메모리 효율이 뛰어나지만, 정확도(Recall)가 다소 떨어질 수 있고 클러스터 재정비(Training)가 수시로 필요합니다.

Q. AI 에이전트(Agent)의 ReAct(Reasoning + Acting) 프레임워크가 무엇인지 설명하고, 에이전트 루프의 무한 루프를 방지하기 위해 소프트웨어적으로 어떻게 설계해야 하는지 설명하세요.

면접관의 질문 의도: 자율적인 루프를 도는 에이전트의 위험성(비용 폭증, 리소스 무한 점유)을 인지하고 대처할 수 있는 소프트웨어 공학적 설계 능력이 있는가?
답변 요령: ReAct는 LLM이 스스로 생각(Thought)하고 행동(Action/Tool 호출)한 뒤 관찰(Observation)하여 다음 단계를 결정하는 흐름임을 설명하고, 방어책으로 Max Iteration 제한, Timeout 설정, **도구 호출 스키마 검증(Pydantic 등)**을 명시적으로 답변하세요.

🔑 면접관을 사로잡는 답변 핵심 요약 (Cheat Sheet)

"무엇이든 LLM으로 해결하겠다"는 환상 버리기
- 면접관은 모든 로직을 LLM에 맡기는 무책임한 답변을 싫어합니다. "정규식이나 간단한 데이터베이스 쿼리로 해결할 수 있는 부분은 기존 백엔드 로직으로 가볍게 처리하고, 인간의 상식적인 판단이나 비정형 데이터 처리에만 LLM을 활용한다"는 하이브리드 설계 철학을 보여주세요.
트레이드오프(Trade-off) 강조하기
- 어떤 모델이나 기술이든 완벽한 것은 없습니다. "자체 호스팅 Llama 모델은 보안성이 뛰어나지만 인프라 운영 리소스가 필요하고, 클라우드 API는 초기 구현이 빠르지만 트래픽이 몰리면 비용이 비선형적으로 증가한다"와 같이 상황별 장단점을 비교해 대안을 제시할 수 있어야 합니다.
숫자로 증명하기
- 프로젝트 경험을 말할 때 구체적인 지표를 곁들이세요. (예: "RAG 시스템에서 하이브리드 검색과 리랭커를 추가 도입하여 기존 키워드 검색 대비 정답 정확도를 25% 향상시켰고, 프롬프트 캐싱을 적용해 API 비용을 35% 절감했습니다.")

AI 시대로 접어들면서, 백엔드 및 일반 소프트웨어 개발자에게 요구되는 역량도 진화하고 있습니다. 핵심 원리와 현실적인 운영 최적화 지점을 탄탄히 다져 놓는다면 기술 면접관에게 남다른 인상을 심어줄 수 있을 것입니다.

참고할 만한 리소스