Analyzed Date : 2026.04.13 - 2026.04.17

Keywords : Security Maturity Model / ISO/IEC 27002 / COBIT / Assessment Capability / Dunning-Kruger Effect

Source : Computers & Security, 2021, Vol. 108, Article 102306 | DOI: 10.1016/j.cose.2021.102306


Why This Paper?

선정 배경

도메인 탐색 결과 :

8개 도메인 논문 탐색을 통해 보안 컨설팅을 전문화 방향으로 확정. 이후 12편의 논문을 통해 컴플라이언스 전술(Foorthuis & Bos), 리스크 분석(Santos-Olmo et al.), 보안 정책 준수 행동(Bulgurcu et al.), 거버넌스(Gashgari et al.), 감사 효과성(Slapničar et al.), 공급망 리스크(Ghadge et al.), 보안 투자 경제학(Gordon & Loeb), 보안 문화(Da Veiga & Eloff), 인식 제고 캠페인(Bada et al.), 제3자 리스크(Keskin et al.), 사고대응-정보보안관리 통합(Ahmad et al.), 최고경영진 주의와 위험평가(Shaikh & Siponen)를 학습. 이번 논문은 보안 성숙도 모델이라는 미탐색 영역을 다룬다.

이 논문을 선택한 이유 :

- Slapničar et al.(감사 효과성)과 Foorthuis & Bos(컴플라이언스 전술)가 통제 체계 설계에 집중했다면, 이 논문은 그 통제 체계를 실제로 평가하는 사람의 역량 문제를 정면으로 다룬다. 진단 설계에서 진단 수행 품질로 관심의 축을 이동시킨다.
- 보안 컨설팅의 핵심 업무인 현황 진단에서 평가자의 인지적 한계와 편향이 어떻게 작동하는지를 실증적으로 분석한다.
- 성숙도 진단 역량이 자격증 보유 여부, 경력 연수 등 어떤 전문성 요인과 연관되는지를 제시함으로써 컨설턴트 자기 개발 방향에 직접적 시사점을 준다.
- ISO/IEC 27001/27002, COBIT, ISMS-P 등 현장에서 실제로 사용되는 표준 체계를 평가 도구로 채택한 연구다.

학습 목표 :

1. 성숙도 수준 평가(maturity level assessment)가 왜 어려운지, 그 인지적·방법론적 근거를 이해한다.
2. 평가 품질에 영향을 미치는 전문성 요인(자격증, 경력, 친숙도)의 실증 결과를 파악하고 컨설팅 팀 구성과 품질관리에 적용한다.
3. 평가 지원 수단(팀 토론, 사례집, 훈련 과정 등)의 근거를 확보하여 현장 진단 프로세스 설계에 활용한다.

Day 1 – Research Context & Motivation

(측정하기 어려운 것을 측정하는 사람의 역량을 측정한다)

1. 연구 배경: 성숙도 평가의 품질 문제

보안 성숙도 모델의 중요성

정보보안 수준을 객관적으로 파악하고 개선 우선순위를 도출하기 위해 성숙도 모델은 산업 전반에 걸쳐 광범위하게 활용된다. COBIT, CMMI, C2M2, ISO/IEC 27001 기반 모델 등 다양한 체계가 존재하며, 독일 자동차 산업에서는 VDA-ISA 기반 성숙도 자가진단이 사실상 표준(de facto standard)으로 자리 잡았을 정도다. 규제 관점에서도 GDPR은 기술적·조직적 보안 조치의 효과성을 정기적으로 시험·평가·점검하는 프로세스를 조직에 명시적으로 요구한다. 결국 성숙도 평가는 컴플라이언스 이행의 증거이자 보안 투자 의사결정의 근거가 된다.

현실의 한계

성숙도 모델 연구의 대부분은 어떤 모델을 설계하고 어떤 통제 항목을 포함시킬 것인가에 집중되어 있다. 반면 그 모델을 실제로 적용해 평가하는 사람이 얼마나 정확하게 수행하는지, 즉 평가 품질 자체는 거의 검토되지 않았다. DeMarco의 명제처럼 측정할 수 없으면 통제할 수 없다는 전제 하에 성숙도 평가가 이루어지지만, 정작 그 측정 행위의 신뢰성과 타당성은 검증되지 않은 채로 남아 있다. 기존 SPICE 평가 신뢰성 연구(El Emam et al., Lee et al.)도 평가자 간 일치도(reliability)만을 분석했을 뿐, 사전에 정의된 정답과의 타당성(validity) 비교는 수행하지 않았다.

연구 문제의식

이 논문이 답하려는 핵심 질문은 다음과 같다: 보안 전문가들은 ISO/IEC 27002 통제 항목에 대해 COBIT 성숙도 수준을 얼마나 정확하게 평가할 수 있는가? 그리고 어떤 전문성 요인이 평가 정확도에 유의미한 영향을 미치는가? 나아가 평가자들은 자신의 평가 품질을 스스로 얼마나 정확하게 인식하는가?


2. 핵심 개념

개념 정의 컨설팅 맥락에서의 의미
보안 성숙도 모델 조직의 보안 관련 프로세스·통제의 구현 수준을 단계별로 평가하는 체계. 보통 0~5 수준으로 구분 현황 진단의 핵심 도구. 고객사의 현재 수준을 객관적으로 측정하고 개선 경로를 제시하는 기준선 역할
COBIT 성숙도 수준 ISACA가 제시한 6단계(0~5) 성숙도 척도. 0(미구현)부터 5(지속 개선)까지 각 수준에 대한 기준 기술(description)을 제공 ISMS 진단 시 통제 이행 수준을 수치화하는 기준으로 활용. GRC 도구와 VDA-ISA 등 산업 표준과 연계됨
시나리오 성숙도 수준(SML) 이 연구에서 연구자가 사전에 정의한 각 통제 항목의 정답 성숙도 값. 참가자 평가의 타당성 비교 기준 컨설팅 진단 설계 시 평가 기준의 명확화 필요성을 시사. 내부 기준선 없이 진행되는 평가는 주관적 편차가 클 수 있음
던닝-크루거 효과 능력이 낮은 사람이 자신의 능력을 과대평가하고, 경험이 많은 사람이 더 확신을 가질수록 오히려 성과가 낮아지는 인지 편향 장기 경력 보안 전문가가 자신의 진단 능력을 과신할 수 있음을 시사. 팀 기반 검증과 외부 교차 확인의 근거
평가자 내·외부 편향 자사 환경을 평가할 때(내부 평가)는 관대해지고, 외부 조직을 평가할 때는 더 엄격해지는 경향 자가진단(self-assessment) 기반 ISMS 인증 준비의 구조적 취약점. 컨설턴트 외부 검토의 가치를 뒷받침

3. 이론적 기반: 평가 신뢰성·타당성 프레임워크

[ 연구 설계 구조 ]

- 사전 정의된 시나리오 성숙도 수준(SML)

[ 가상 기업 시나리오 (CloudSec) ]

- ISO/IEC 27002 통제 10개 항목
- BSI IT-Grundschutz 조치 기술 기반
- 각 통제별 상위·하위 수준 경계 명시

[ 보안 전문가 56명 온라인 설문 평가 ]

- COBIT 5 성숙도(0~5) 직접 평가
- 다음 수준 달성을 위한 조치 서술
- 자기 평가 불확실성 보고

↕ (분기)

[ 정량 분석 ]

- 편차, t검정, 상관분석

[ 정성 분석 ]

- 코딩: 오해석, 과도한 조치, 의존성

[ 사후 심층 인터뷰 (6명) ]

- 어려움의 원인
- 필요한 지원 형태

핵심 아이디어 :

성숙도 평가의 품질 검증을 위해 연구자들은 정답이 사전에 정의된 가상 시나리오를 설계하고, 실무 전문가들의 평가 결과를 그 정답과 직접 비교했다. 기존 연구들이 평가자 간 일치도만 분석한 것과 달리, 이 연구는 타당성(정답 대비 편차)까지 측정함으로써 평가 품질 문제를 입체적으로 드러낸다.


4. 연구의 핵심 기여

학술적 기여 :

- 보안 성숙도 평가의 신뢰성이 아닌 타당성을 최초로 실증 검증. 정답이 사전 정의된 시나리오 기반 실험 설계로 기존 연구의 방법론적 공백을 메웠다.
- 던닝-크루거 효과가 보안 성숙도 평가 맥락에서도 발현됨을 통계적으로 확인. 장기 경력자 집단(10년 이상)에서 자기 확신과 실제 성과 간 약한 역상관이 관찰됐다.
- 평가 품질 향상에 유의미한 영향을 미치는 전문성 요인(자격증 종류별 효과)을 t검정으로 분리하여 제시.

실무 기여 :

- ISMS 및 ISO/IEC 27001 자격증 보유자가 그렇지 않은 집단 대비 통계적으로 유의미하게(1% 수준) 높은 평가 정확도를 보임. 진단 팀 구성의 실무 기준을 제공한다.
- 평가 지원 수단으로 팀 토론, 사례 중심 성숙도 설명, 조치 목록 카탈로그, 전문 훈련 과정의 필요성을 구체적으로 제시.
- 대기업 출신 전문가가 소규모 기업 시나리오에서 과도한 조치를 제안하는 경향을 확인. 고객사 맥락(규모, 산업, 예산)에 맞춘 평가 기준 적용의 중요성을 실증했다.

5. 컨설팅 관점 인사이트

적용 가능성 :

이 연구는 보안 컨설팅 현장에서 수행되는 ISMS 현황 진단의 품질 문제를 직접적으로 다룬다. 컨설턴트가 성숙도 평가를 수행할 때 발생하는 오류 유형(시나리오 오해석, 통제 항목 혼동, 과도한 조치 제안)은 실제 고객사 진단 보고서의 신뢰성과 직결된다. 연구 결과를 바탕으로 진단 프로세스에 팀 기반 검토, 참조 사례 제공, 규모별 맥락 정규화를 구조적으로 내재화하는 방향을 검토할 수 있다.

기존 학습과의 연결 :

- Slapničar et al.(2022)의 사이버보안 감사 효과성 연구와 직접 연결된다. 감사 효과성은 감사인의 역량과 절차적 엄밀성에 달려 있는데, 이 논문은 그 역량의 실증적 한계를 보여준다.
- Foorthuis & Bos(2011)의 컴플라이언스 전술 연구에서 통제 체계의 설계가 이행 결과에 영향을 준다고 봤다면, 이 논문은 통제 체계를 평가하는 행위 자체의 편차를 분석한다. 설계와 평가는 보안 관리의 두 축이다.
- Bulgurcu et al.(2010)의 개인 행동 모델은 규범적 신념과 자기효능감이 준수 행동에 영향을 준다고 봤는데, 이 논문의 던닝-크루거 결과는 자기효능감 과잉이 평가 행동의 품질 저하로 이어질 수 있음을 보완한다.

현실적 고려사항 :

연구 참가자 56명 중 독일 소재 전문가가 대부분이며, VDA-ISA와 BSI IT-Grundschutz 기반의 독일 특유 맥락이 반영되어 있다. 한국 ISMS-P 환경에서의 직접 적용 시에는 표준 체계의 차이(COBIT vs. 국내 기준)와 진단 관행의 문화적 차이를 고려해야 한다. 또한 56명의 표본은 세부 집단 분석에서 통계적 검정력이 제한적일 수 있다는 점도 염두에 둬야 한다.


Day 2 Preview :


Day 2 – Research Model, Hypotheses, and Methodology

(정답이 있는 시험을 설계하다: 타당성 중심 실험 설계)


1. 연구 모델 개요

[ 사전 설계 단계 (연구자) ]

- ISO/IEC 27002 통제 선별 (정책 A.5 / 물리보안 A.11 / 취약점 A.12)
- BSI IT-Grundschutz 조치 매핑
- 각 통제별 시나리오 성숙도 수준(SML) 정의 (상위·하위 경계 명시)
- 가상 기업 시나리오 구성 (CloudSec) + 전문가 2라운드 사전 검증

[ 데이터 수집 단계 ]

- 온라인 설문 (N=76 → 유효 56명)
- COBIT 5 성숙도(0~5) 직접 평가
- 다음 수준 달성 조치 서술 (3개 통제)
- 자기 불확실성 보고
- 사후 심층 인터뷰 (N=6, 평균 20~30분)

↕ (분기)

[ 정량 분석 ]

- 선형 편차 측정
- Shapiro-Wilk 정규성 검정
- t검정 (집단간)
- Spearman 상관

[ 정성 분석 ]

- 개방형 응답 코딩 (시나리오 오해석, 통제 오해석, 과도한 조치 제안)
- 인터뷰 전사 코딩

설계 철학 :

기존 성숙도 평가 신뢰성 연구들은 평가자 간 일치도(inter-rater reliability)만 측정했다. 평가자들이 서로 비슷하게 틀려도 신뢰도는 높게 나올 수 있다는 구조적 한계가 있다. 이 연구는 정답이 사전에 정의된 시나리오를 설계함으로써, 일치도가 아닌 타당성(validity) - 즉 실제 정답과의 편차 - 를 측정할 수 있는 구조를 만들었다.


2. 연구 가설 (핵심 가정)

이 논문은 명시적 가설 검증 구조보다는 탐색적 분석에 가깝지만, 연구 설계에 내재된 핵심 가정과 검증 방향은 다음과 같다.

가정 내용 예상 방향
A1 보안 전문가들의 성숙도 평가 결과는 사전 정의된 정답 수준과 상당한 편차를 보일 것이다 많은 참가자가 정답과 1 이상 편차를 보일 것으로 예상
A2 자격증 보유 여부가 평가 정확도에 유의미한 차이를 만들 것이다 ISMS·ISO/IEC 27001 자격증 보유자가 더 정확할 것
A3 실무 경력 연수(10년 이상)는 평가 정확도 향상과 관련이 있을 것이다 경력이 길수록 더 정확할 것으로 일반적으로 기대
A4 참가자들은 자신의 평가 품질을 실제보다 높게 인식할 것이다(과신) 자기 보고 불확실성이 실제 오류 수보다 낮을 것
A5 대기업 출신 전문가는 소규모 기업 시나리오에서 맥락 부적합한(과도한) 조치를 제안하는 경향이 있을 것이다 규모 맥락 불일치가 평가 오류의 한 유형을 구성할 것

참고 : A3은 실제 분석 결과 유의미하지 않았고, 오히려 장기 경력자에서 던닝-크루거 패턴이 발견되었다(Day 3에서 상세 분석).


3. 연구 방법론

A. 데이터 수집

데이터 소스 :

소스 수집 정보 용도
온라인 설문 (LimeSurvey) COBIT 5 성숙도 평가 결과, 개방형 조치 서술, 자기 불확실성 보고, 인구통계 정보 정량·정성 분석 기반 데이터
사후 심층 인터뷰 (6명) 평가 어려움의 원인, 필요한 지원 유형에 대한 반구조화 진술 정량 결과 보완 및 가설 검증

데이터 규모 :

- 설문 배포 기간: 2019년 4월 15일 ~ 9월 23일
- 총 응답자: 76명 → 품질 기준 통과: 56명
- 제외 기준: 통제 질문 오답, 불완전 응답, 비성실 응답 자진 신고
- 인터뷰: 6명, 1인당 20~30분, 2020년 5월 14일 ~ 6월 8일 진행
- 참가자 특성: 55%가 IT보안 경력 10년 이상, 86%가 성숙도 모델 기본 개념 인지, 46%가 ISO/IEC 27002 자격증 보유

데이터 특성 및 제약 :

독일 소재 전문가 집중(직능 단체·포럼 배포), 대기업 종사자 비율 높음(64%가 1,000인 이상). 자발적 참여 특성상 관심 있는 전문가 집단으로의 자기 선택 편향 가능성 존재.


B. 시나리오 설계: 정답 기반 타당성 평가의 핵심

이 연구의 방법론적 독창성은 시나리오 설계 방식에 있다.

설계 과정 :

[ 1단계 : ISO/IEC 27002에서 통제 영역 선별 ]

- 정책 (A.5.1): 정보보안 정책 수립 및 검토
- 물리보안 (A.11.1): 보안 구역, 출입통제, 서버룸 등
- 취약점 관리 (A.12.6): 기술적 취약점 식별·처리

[ 2단계 : BSI IT-Grundschutz - ISO/IEC 27002 조치 매핑 ]

- ISACA 독일 챕터 + BSI가 공동 개발한 실무 중심 매핑 활용
- 각 통제별로 해당 성숙도 수준을 구현하는 구체 조치 기술

[ 3단계 : 각 통제별 시나리오 성숙도 수준(SML) 정의 ]

- 상위 경계: 해당 수준의 어떤 요건이 충족되지 않아 다음 단계로 못 가는가
- 하위 경계: 해당 수준이 이전 수준을 초과한다는 근거는 무엇인가
- 수준 5는 실질적으로 달성하기 극히 어렵다는 점을 반영하여 제외

[ 4단계 : 가상 기업 CloudSec 텍스트 시나리오 작성 ]

- 소규모 클라우드 서비스 제공업체 (IaaS/PaaS/SaaS)
- 물리보안, 정책, 취약점 관리가 핵심 관리 대상인 업종 특성 활용
- 각 단락이 특정 통제와 조치에 대응되도록 구조화

10개 통제 항목과 정답 성숙도 수준 :

통제 항목 내용 정답 수준
C 5.1.1 정보보안 정책 수립 2 (관리됨)
C 5.1.2 정보보안 정책 검토 0 (미구현)
C 11.1.1 물리적 보안 경계 2 (관리됨)
C 11.1.2 물리적 출입통제 3 (정의됨)
C 11.1.3 사무실·공간·시설 보안 2 (관리됨)
C 11.1.4 외부·환경적 위협 대응 3 (정의됨)
C 11.1.5 보안 구역 내 작업 절차 0 (미구현)
C 11.1.6 납품·하역 구역 통제 3 (정의됨)
C 12.6.1 기술적 취약점 관리 4 (예측 가능)
C 12.6.2 소프트웨어 설치 제한 0 (미구현)

수준 0이 3개(5.1.2, 11.1.5, 12.6.2)나 포함된 것은 현실적인 기업에서 인식 부재로 아예 구현되지 않은 통제가 존재한다는 점을 반영한다. 수준 4 항목(12.6.1)은 KPI 기반 모니터링과 외부 침투테스트가 수반된 성숙한 취약점 관리 프로세스를 묘사한다.


C. 설문지 구조

설문은 5개 섹션으로 구성되었다.

[ A/B : 인구통계 ]

- 소속 산업, 조직 규모, KRITIS(핵심인프라) 여부
- IT 보안 경력 연수, ISO/IEC 27002 경험, 자격증 종류
- 성숙도 모델 친숙도(COBIT, CMM/CMMI/SSE-CMM)

[ C : 개념 안내 ]

- 보안 통제 정의 설명
- COBIT 5 성숙도 6단계(0~5) 기준표 제시
- 시나리오 그림 및 텍스트 제공

[ D : 시나리오 제시 ]

- CloudSec 기업 상황 전문 텍스트 열람

[ E/G/I : 성숙도 평가 ]

- 각 통제 항목별 0~5 성숙도 직접 선택
- 통제 질문(12.6.0을 5로 평가하도록 지시) 포함

[ F/H/J : 개방형 피드백 (3개 통제만) ]

- 다음 수준 달성을 위한 추가 조치 서술
- 5.1.1, 11.1.1, 12.6.1 대상

[ K/L/M : 자기 인식 ]

- 10개 항목 중 불확실했던 수: 자기 보고
- 전반적 어려움의 원인 선택 (시나리오/통제/COBIT 불명확)

D. 정성 코딩 체계

개방형 응답은 두 코더가 독립 코딩 후 합의하는 방식으로 분석되었다.

조치 서술 코딩 (다음 수준 달성 방안 응답) :

코드 설명
시나리오 오해석 시나리오에 이미 기술된 조치를 추가 필요한 것으로 제안
통제 오해석 해당 통제가 아닌 다른 통제의 조치를 제안
과도한 조치 제안 소규모 기업 맥락에 비해 비현실적으로 수준 높은 조치 제안

인터뷰 코딩 (어려움의 원인) :

코드 범주 세부 코드
평가 어려움의 원인 내외부 평가 차이, 성숙도 수준 구분 어려움, 평가자 차이, 프로세스 지향 통제 한계
과도한 조치의 원인 개인 배경 영향, 경제적 고려 배제
평가 지원 유형 팀 토론, 성숙도별 사례 제공, 조치 카탈로그, 전문 교육, 표준 연계

E. 통계 분석 방법

분석 방법 목적
정규성 검정 Shapiro-Wilk 검정 편차 변수의 분포 확인 - t검정 적용 가능성 판단
집단 간 비교 독립 표본 t검정 자격증 보유 여부·경력 등 전문성 집단 간 평가 정확도 차이 검증
자기 인식 분석 대응 표본 t검정 실제 오류 수 vs. 인식된 오류 수 차이 검증
순위 상관 Spearman ρ 자기 인식과 실제 성과의 방향성 관계 분석 (집단별)
성과 지표 평균 선형 편차 + 정답 일치 건수 두 지표 간 강한 역상관(ρ = -0.79) 확인 - 선형 편차를 주 지표로 채택

4. 컨설팅 관점 인사이트

방법론의 실무 적용성 :

장점 :

- 가상 시나리오 기반 실험 설계는 컨설팅 교육 훈련에 직접 전용 가능하다. 신규 진단 인력이 표준화된 가상 기업 시나리오를 평가하고 정답과 비교하는 방식으로 역량을 점검할 수 있다.
- BSI IT-Grundschutz - ISO/IEC 27002 매핑을 조치 기술에 활용한 방식은, ISMS-P 통제 항목을 구체 조치 수준으로 풀어내야 하는 국내 컨설팅 실무와 구조가 유사하다.
- 정성 코딩의 세 가지 오류 유형(시나리오 오해석, 통제 오해석, 과도한 조치)은 현장 진단 보고서 품질 검토 기준으로 즉시 활용할 수 있다.

한계 :

- 56명이라는 표본은 세부 집단(자격증 유형별, 산업별) 분석에서 통계적 검정력이 제한적이다. 자격증 집단 중 일부는 10명 내외로 결과를 일반화하기 어렵다.
- 가상 시나리오는 자사 환경 평가와 다르다. El Emam et al.의 선행 연구에서도 자사 평가 시 정확도가 높아지는 경향이 확인된 바 있어, 이 연구의 결과가 실제 현장 진단을 그대로 반영하지 않을 수 있다.

기존 보안 솔루션·방법론과의 차별점 :

접근 방식 평가 대상 강점 약점
기존 성숙도 연구 (SPICE 신뢰도 분석) 평가자 간 일치도 다수 평가자 확보 시 적용 용이 집단이 같은 방향으로 틀려도 신뢰도는 높게 측정됨
이 논문 (정답 기반 타당성 분석) 정답 대비 편차 평가의 실질 품질을 측정 정답 정의 자체에 연구자 주관 개입 가능성
GRC 도구 기반 자가진단 통제 구현 현황 구조화·자동화 용이 평가자 역량 편차를 보정하는 메커니즘 부재

Day 3 Preview :


Day 3 – Empirical Results and Hypothesis Testing

(전문가도 틀린다: 평가 편차의 실증 해부)


1. 평가 환경

실험 설정 :

- 기간: 2019년 4월 15일 ~ 9월 23일 (설문), 2020년 5월 ~ 6월 (인터뷰)
- 데이터: 유효 응답 56명, 사후 인터뷰 6명
- 환경: 온라인 설문(LimeSurvey), 가상 기업 CloudSec 시나리오, 10개 ISO/IEC 27002 통제 항목

실험 전략 :

사전 정의된 시나리오 성숙도 수준(SML)을 정답으로 삼아 참가자 평가 결과와 직접 비교. 정량 분석(편차, t검정, 상관분석)과 정성 분석(코딩, 인터뷰)을 혼합하여 수치적 결과와 그 원인을 동시에 탐색했다.


2. 주요 발견

전체 결과 요약 :

지표 결과 의미
평균 선형 편차 범위 0.3 ~ 1.9 (개인별) 참가자 간 편차가 매우 넓음
전체 평균 선형 편차 1.07 평균적으로 정답에서 1단계 이상 벗어남
중앙값 기준 정답 일치 통제 수 10개 중 7개 중앙값은 비교적 양호하나 분포가 넓음
최고 성과 참가자 10개 중 7~8개 일치 상위 그룹도 완전 정답은 없음
자기 인식 오류 실제 6.5개 오답 vs. 인식 4개 오답 평균 2.5개 과신 (통계적 유의)
Spearman ρ (편차-일치 수) -0.79 (p < 4.2×10⁻¹³) 두 지표 간 강한 역상관 확인

통제별 상세 결과 :

평균 편차 기준으로 세 통제(5.1.2, 11.1.4, 11.1.5)가 1 초과 편차를 보였다. 특히 5.1.2(정보보안 정책 검토, SML=0)와 11.1.5(보안 구역 내 작업 절차, SML=0)는 실제로 미구현 상태임에도 참가자들이 유의미한 구현 수준으로 과대 평가하는 경향이 강했다. 반면 12.6.1(기술적 취약점 관리, SML=4)과 12.6.2(소프트웨어 설치 제한, SML=0)는 중앙값이 정답과 일치했다.


3. 가설 검증 결과

가정 검증 결과 통계 해석
A1: 전문가도 상당한 편차를 보일 것 확인 평균 편차 1.07, 다수가 정답과 1 이상 차이 성숙도 평가가 전문가에게도 비자명(non-trivial)한 과업임을 실증
A2: 자격증 보유자가 더 정확할 것 확인 (일부) ISMS·ISO 27001 (p<0.01), IT-Grundschutz·CISM/CISA (p<0.05) 자격증 종류에 따라 효과 크기가 다름
A3: 장기 경력자가 더 정확할 것 기각 n.s. (유의미하지 않음) 경력 연수 자체는 정확도와 무관
A4: 참가자들이 자신을 과신할 것 확인 t = -2.57, p < 0.001 실제보다 평균 2.5개 덜 틀렸다고 인식
A5: 대기업 출신이 과도한 조치를 제안할 것 확인 정성 코딩 결과, 과도한 조치 코드의 대부분이 대기업(5,000인 이상) 참가자 집중 조직 규모 맥락이 평가 기준에 영향

4. 상세 분석

A. 자격증 유형별 평가 정확도 차이

t검정 결과, 특정 자격증 보유가 평가 정확도에 유의미한 영향을 미쳤다. 효과 크기 순으로 정리하면 다음과 같다.

자격증 집단 크기 (보유/미보유) t값 유의 수준
ISMS 자격증 14 / 42 3.48 1% (강한 효과)
ISO/IEC 27001 26 / 30 2.68 1% (강한 효과)
IT-Grundschutz 10 / 46 2.15 5%
CISM/CISA 20 / 36 2.11 5%
자격증 없음 12 / 44 n.s.
장기 경력 (10년+) 18 / 38 n.s.
장기 ISO 27002 경험 16 / 40 n.s.
CMM/CMMI/SSE-CMM 경험 26 / 30 n.s.

특히 ISMS와 ISO/IEC 27001 자격증이 가장 강한 효과를 보인 것은, 이 두 자격증이 통제 구현 수준의 체계적 평가를 명시적으로 훈련시키는 내용을 포함하기 때문으로 해석된다. 반면 경력 연수는 단독으로는 정확도와 무관했다. 단순히 오래 일했다는 것이 성숙도 평가 능력을 보장하지 않는다.

B. 던닝-크루거 효과: 과신과 역상관

전체 참가자를 대상으로 한 Spearman 상관 분석에서는 자기 인식(불확실하다고 느낀 항목 수)과 실제 오류 수 간의 유의미한 상관이 없었다. 그러나 특정 집단에서는 약한 역상관이 확인되었다.

집단 Spearman ρ 해석
장기 경력자 (10년+) -0.39 (p<0.05) 더 자신 있을수록 실제로 더 많이 틀리는 경향
장기 ISO 27002 경험자 -0.57 (p<0.05) 가장 강한 역상관. 전문 경험이 오히려 과신을 유발
CMM/CMMI/SSE-CMM 경험자 -0.50 (p<0.05) 다른 성숙도 모델 경험이 COBIT 평가에서 혼선 유발 가능
자격증 보유 집단 (전체) n.s. 자격증 보유자는 자기 인식이 실제 성과와 무관하지 않음

이 결과는 성숙도 모델에 대한 친숙함이 특정 모델(COBIT)에 대한 맹목적 자신감으로 전환될 수 있음을 시사한다. 특히 ISO 27002를 오래 다뤄온 전문가일수록, 자신의 판단이 틀릴 수 있다는 인식이 약해지는 경향이 통계적으로 확인됐다.


5. 오류 유형 분석 (정성 코딩 결과)

개방형 응답 66건을 코딩한 결과, 오류 유형은 통제 항목별로 다른 양상을 보였다.

오류 유형 통제 5.1.1 통제 11.1.1 통제 12.6.1 주요 원인
시나리오 오해석 19건 5건 시나리오 텍스트를 꼼꼼히 읽지 않거나, 이미 기술된 조치를 부재로 인식
통제 오해석 9건 2건 13건 인접 통제 항목(5.1.2, 12.6.2)과 혼동
과도한 조치 제안 13건 5건 대기업 맥락에서 습득된 높은 기준을 소규모 기업에 적용

전체 66건 중 49건(74%)이 시나리오 또는 통제 오해석이었다. 이는 평가 오류의 주요 원인이 성숙도 기준 자체의 이해 부족보다, 평가 대상(시나리오·통제)에 대한 맥락 파악 실패임을 보여준다.


6. 컨설팅 관점 인사이트

성공 사례 (이 방법이 잘 작동한 상황) :

ISMS 또는 ISO/IEC 27001 자격증 보유자로 구성된 집단은 유의미하게 높은 정확도를 보였다. 이는 진단팀을 구성할 때 관련 자격증 보유 여부를 실질적인 역량 기준으로 삼는 것이 통계적 근거가 있음을 의미한다.

한계 사례 (기대만큼 작동하지 않은 상황) :

경력 10년 이상의 숙련 전문가가 오히려 자기 과신으로 인해 평가 정확도가 낮아지는 경향이 확인됐다. 경험이 많다는 것이 자동으로 진단 품질을 보장하지 않으며, 특히 익숙한 모델이 아닌 다른 체계(예: COBIT을 처음 적용하는 경우)에서는 기존 경험이 오히려 간섭 효과를 낼 수 있다.

고객 환경 적용 시 고려사항 :

참가자의 56%가 COBIT 기준이 불명확하다고 응답하고, 44%가 시나리오 이해에 어려움을 보고했다. 이는 실제 고객사 ISMS 진단 시, 평가 기준과 평가 대상에 대한 공유된 이해 구축이 진단 품질의 전제 조건임을 시사한다. 기준 설명 없이 체크리스트만 배포하는 방식은 이 연구에서 실증된 오류 유형들을 그대로 재현할 가능성이 높다.


7. 개인 인사이트

경력이 아닌 자격증이 갈랐다

직관적으로는 경험 많은 전문가가 더 정확할 것이라고 기대하지만, 이 연구는 그 기대를 정면으로 반박한다. 10년 이상 경력은 평가 정확도와 통계적으로 무관했고, 오히려 역상관 패턴까지 나타났다. 반면 ISMS·ISO 27001 자격증은 1% 유의 수준에서 정확도 향상과 연관됐다. 컨설팅 현장에서 팀 구성 기준을 경력 연수 중심에서 관련 자격증 보유 여부로 일부 전환하는 것이 실증적으로 정당화된다.

오류의 74%는 맥락 파악 실패였다

전체 오류 코딩 결과, 성숙도 기준 자체를 몰라서 틀린 것보다 시나리오나 통제 항목을 제대로 읽지 않아서 틀린 경우가 압도적으로 많았다. 이는 진단 역량 교육이 성숙도 기준 암기보다 맥락 독해와 통제 항목 간 경계 구분 훈련에 더 집중해야 함을 시사한다.

자신감은 검증의 대체물이 아니다

던닝-크루거 패턴은 보안 성숙도 평가라는 고도로 전문화된 영역에서도 동일하게 작동했다. 특히 ISO 27002 장기 경험자 집단의 ρ = -0.57은 무시하기 어려운 수치다. 진단 결과의 내부 검토나 외부 교차 확인(peer review)이 경험자 집단에서도 필수적인 이유가 여기 있다.


Day 4 Preview :


Day 4 – Research Limitations and Scholarly Impact

(측정의 한계를 측정하다: 연구의 경계와 실무적 파급)


1. 연구의 한계점

A. 가상 시나리오와 실제 환경의 괴리

문제 :

이 연구의 모든 참가자는 자신이 속한 실제 조직이 아닌 가상 기업 CloudSec을 평가했다. 연구자들이 직접 인용한 El Emam et al.의 선행 연구에서도 평가자가 자사 환경을 평가할 때 정확도가 높아지는 경향이 확인된 바 있다.

영향 :

이 연구의 결과가 실제 현장 진단 상황을 그대로 반영하지 않을 수 있다. 특히 자사 환경에 대한 암묵적 지식(informal information channel)이 평가 정확도를 높이거나, 반대로 내부 편향을 강화하는 방향으로 작용할 수 있다. 결과적으로 이 연구는 현장 진단 정확도를 과소 혹은 과대 추정할 가능성을 모두 내포한다.

보완 방향 :

동일 전문가를 대상으로 가상 시나리오와 자사 환경 평가를 병행하는 비교 실험이 필요하다. 또한 내부 평가자와 외부 컨설턴트의 정확도를 동일 조직 대상으로 비교하는 연구도 의미 있는 후속 방향이다.

B. 표본 크기와 자기 선택 편향

문제 :

유효 표본 56명은 전체 분석에서는 충분하지만, 세부 집단 분석(예: IT-Grundschutz 자격증 보유자 10명, ISMS 자격증 보유자 14명)에서는 통계적 검정력이 제한적이다. 또한 직능 단체 메일링 리스트와 전문가 포럼을 통해 배포된 특성상, 성숙도 평가에 관심이 있거나 해당 주제에 친숙한 전문가들이 더 많이 참여했을 가능성이 있다.

영향 :

자기 선택 편향이 있다면 실제 모집단보다 평균 역량이 높은 표본이 분석된 것이므로, 이 연구의 결과는 현실의 평가 품질 문제를 오히려 축소하여 보여주고 있을 수 있다.

보완 방향 :

다양한 국가, 산업, 규모의 조직에서 무작위 표집으로 대규모 복제 연구를 수행하는 것이 필요하다. 특히 독일 맥락(BSI IT-Grundschutz, VDA-ISA)에 특화된 결과가 다른 국가의 표준 환경(NIST CSF, ISMS-P 등)에서도 동일하게 재현되는지 검증이 요구된다.

C. 통제 항목 선정의 대표성

문제 :

10개 통제 항목은 정책(A.5), 물리보안(A.11), 취약점 관리(A.12) 세 영역에 집중되어 있다. ISO/IEC 27002 전체 통제 항목(구버전 기준 114개)을 대표하기에는 범위가 협소하다. El Emam et al.의 연구에서도 프로세스에 따라 신뢰도가 크게 달라진다는 점이 확인된 바 있어, 다른 통제 영역에서는 다른 패턴이 나타날 가능성이 있다.

영향 :

인적 보안, 접근통제, 암호화, 사고 관리 등 다른 통제 영역에서의 평가 정확도와 오류 유형이 이 연구의 결과와 다를 수 있다. 특히 참가자 시간 제약으로 전체 통제 목록을 다루지 못했는데, 전체를 평가하는 상황에서는 통제 간 혼동이 더 줄어들 가능성도 있다(각 통제의 차별점이 더 명확히 드러나므로).

보완 방향 :

통제 영역 전반을 포괄하는 확장 연구, 또는 영역별로 정확도 패턴을 비교하는 세분화 연구가 필요하다.

D. 독일 맥락 특수성

문제 :

참가자 대부분이 독일 소재 전문가이며, 시나리오 설계에 BSI IT-Grundschutz가 활용되었다. BSI와 VDA-ISA는 독일 특유의 표준 생태계로, 다른 국가 전문가들의 친숙도와는 차이가 있다.

영향 :

COBIT 성숙도 모델 친숙도, ISO/IEC 27002 통제 체계 이해 수준, 그리고 성숙도 평가 관행이 국가별·문화별로 다를 수 있어 결과의 범용적 일반화에 주의가 필요하다.


2. 후속 연구 동향

A. 인용 수와 영향력

학술적 임팩트 :

- 발표: 2021년 (Computers & Security, Vol. 108)
- CORE 저널 랭킹: B등급 / ABDC 랭킹: A등급
- Computers & Security는 정보보안 분야 주요 실증 연구 저널로, 실무 연관성이 높은 논문들이 집중적으로 출판됨

위치 :

성숙도 모델 설계 연구가 주류를 이루던 흐름에서, 평가 수행 품질이라는 새로운 연구 질문을 제기한 논문이다. 성숙도 모델의 운용 현실을 검토하는 후속 연구들의 참조점으로 기능하고 있다.

B. 연구 트렌드의 변화

[ 이 논문 이전 : 성숙도 모델 설계 중심 ]

- 어떤 통제를 포함할 것인가
- 몇 단계로 구성할 것인가
- 어떤 표준과 연계할 것인가

[ 이 논문 : 평가 수행 품질 중심 ]

- 사람이 성숙도를 얼마나 정확하게 평가하는가
- 어떤 전문성 요인이 정확도에 영향을 미치는가
- 평가 지원 수단으로 무엇이 효과적인가

[ 현재 방향 : 평가 자동화·보조 도구 연구 ]

- AI/ML 기반 성숙도 평가 지원
- 조직별 맞춤형 경량 성숙도 모델
- SME(중소기업) 특화 평가 체계

C. 주요 후속 연구 방향

평가 품질 보완 방향

연구 방향 핵심 내용
팀 기반 평가 효과 검증 단독 평가 vs. 복수 평가자 토론 방식의 정확도 비교
평가자 내부 신뢰도 분석 동일 평가자가 시간 간격을 두고 재평가 시 일관성 측정
자격증별 훈련 내용 분석 어떤 훈련 요소가 정확도 향상에 기여하는지 세분화
경량 평가 도구 개발 SME 환경에 적합한 단순화된 성숙도 평가 체계

산업별 확장 방향

이 연구의 독일 자동차 산업(VDA-ISA) 맥락은 의료, 금융, 에너지 등 다른 산업 특화 표준 환경으로 확장될 여지가 있다. 특히 산업별로 사용하는 성숙도 평가 도구가 다른 만큼, 도구별 평가 품질 비교 연구가 의미 있는 방향이다.


3. 실무 영향

A. 산업 표준화 논의에 미친 영향

이 논문 이전 :

성숙도 자가진단은 대부분 체크리스트 배포와 담당자 작성으로 마무리되었다. 평가자 역량 편차에 대한 체계적 인식이 부족했으며, 평가 결과의 신뢰성을 검증하는 절차가 표준화되어 있지 않았다.

이 논문 이후 :

성숙도 평가 프로세스에 평가자 훈련, 참조 사례 제공, 팀 기반 검토 등의 품질 보증 요소를 포함해야 한다는 실증적 근거가 생겼다. 또한 자격증 보유 여부를 평가팀 구성의 역량 기준으로 삼는 것이 통계적으로 정당화되었다.

핵심 개념 :

평가의 신뢰성(reliability)과 타당성(validity)을 구분하고, 후자를 측정하기 위한 기준선(baseline) 설계가 성숙도 평가 연구의 방법론적 표준으로 자리잡는 데 기여했다.

B. 보안 실무에의 적용

팀 기반 평가의 근거화 :

인터뷰 참가자들이 일관되게 팀 토론 방식을 지지했다. 애자일 소프트웨어 개발의 페어 프로그래밍 개념을 성숙도 평가에 적용하는 것이 품질 향상에 효과적일 수 있다는 방향이 제시되었다.

훈련 과정 부재 인식 :

인터뷰 참가자 중 COBIT 성숙도 평가를 위한 전용 훈련 과정이 존재한다는 것을 아는 사람이 없었다. 한 참가자는 이 연구의 설문 자체를 훈련 도구로 사용하고 싶다고 요청했다. 이는 평가자 역량 개발 분야의 상업적·교육적 공백을 드러낸다.

GRC 도구의 한계 인식 :

risk2value 등 상용 GRC 도구가 성숙도 평가를 지원하고 있지만, 이 연구는 도구 자체보다 도구를 사용하는 사람의 역량이 결과 품질의 핵심 변수임을 보여준다. 도구 도입만으로는 평가 품질 문제가 해결되지 않는다.


4. 컨설팅 관점 인사이트

한계를 이해한 컨설팅 전략 :

이 연구가 가상 시나리오 기반이라는 한계는 역으로 컨설팅 훈련 도구로서의 활용 가능성을 열어준다. 정답이 사전 정의된 표준화 시나리오로 신규 진단 인력의 역량을 평가하고, 오류 유형을 피드백으로 제공하는 구조화된 온보딩 프로그램을 설계할 수 있다.

적용 가능 시나리오 :

- ISMS 인증 컨설팅 팀 구성 시: ISMS 또는 ISO/IEC 27001 자격증 보유자를 평가 책임자로 배치하는 것이 실증적 근거를 가짐
- 자가진단 지원 컨설팅 시: 고객사 담당자에게 체크리스트만 전달하는 방식 대신, 기준 설명·사례 제공·결과 검토 세션을 포함하는 3단계 프로세스 설계
- 진단 보고서 품질 검토 시: 시나리오 오해석·통제 오해석·과도한 조치 제안 세 가지 오류 유형을 내부 리뷰 체크리스트로 활용

적용 불가 시나리오 :

- 국내 ISMS-P 환경에서 독일 특화 결과(BSI IT-Grundschutz 기반)를 그대로 적용하는 것은 무리가 있다. 통제 항목 구조와 성숙도 척도가 다를 수 있으므로, 동일한 실험 설계를 ISMS-P 통제 체계로 복제한 국내 연구가 필요하다.
- 10명 미만의 소규모 진단팀에서 자격증 보유자 배치 기준을 엄격하게 적용하기 어려운 경우, 팀 토론 및 외부 검토로 보완하는 대안이 현실적이다.

5. 개인 인사이트

한계가 오히려 연구의 가치를 높인다

가상 시나리오라는 한계는 동시에 이 연구의 통제된 실험 설계를 가능하게 한 조건이기도 하다. 정답을 사전에 정의할 수 있었던 것은 시나리오가 연구자의 통제 하에 있었기 때문이다. 실제 환경에서는 정답 자체가 논쟁의 대상이 된다는 점을 감안하면, 이 연구는 가능한 범위 내에서 최선의 타당성 검증 구조를 선택한 것이다.

표본 56명의 무게

56명이라는 숫자는 작아 보이지만, 이 연구가 측정한 것은 보안 전문가 집단 내에서도 성숙도 평가 품질이 균질하지 않다는 사실이다. 상위 25%와 하위 25%의 전문성 프로필이 이토록 뚜렷하게 갈린다는 것 자체가 이미 충분한 메시지를 담고 있다.

교육과 검증의 공백

가장 인상적인 부분은 전용 훈련 과정의 부재다. COBIT, ISO/IEC 27002, ISMS 관련 자격증은 존재하지만, 성숙도 평가 행위 자체를 훈련하는 프로그램은 사실상 없다는 인터뷰 결과는 이 분야의 실질적인 공백을 드러낸다. 보안 컨설팅 서비스 품질의 미검증 영역이 여기에 있다.

다음 읽을 논문 방향 :

성숙도 평가 품질 문제를 보완하는 방향으로 자동화·반자동화 평가 지원 도구 연구, 또는 ISMS-P 맥락에서의 성숙도 평가 실무를 다룬 국내외 연구가 자연스러운 후속 탐색 방향이다.


Day 5 Preview :


References

[1] Schmitz, C. (2021). Maturity level assessments of information security controls: An empirical analysis of practitioners’ assessment capabilities. Computers & Security, 108, Article 102306. https://doi.org/10.1016/j.cose.2021.102306

[2] DeMarco, T. (1982). Controlling Software Projects: Management, Measurement, and Estimation. Yourdon Press.

[3] Slapničar, S., Vuko, T., Čular, M., & Drašček, M. (2022). Effectiveness of cybersecurity audit. International Journal of Accounting Information Systems, 44, Article 100548.

[4] Foorthuis, R., & Bos, R. (2011). A framework for organizational compliance management tactics. EDOCW 2011 Proceedings.

[5] Bulgurcu, B., Cavusoglu, H., & Benbasat, I. (2010). Information security policy compliance: An empirical study of rationality-based beliefs and information security awareness. MIS Quarterly, 34(3), 523-548.


Tags

보안컨설팅 / SecurityConsulting / SecurityMaturityModel / ISO27002 / COBIT / AssessmentCapability / DunningKruger / PaperReview / SKShieldusRookies