참고한 논문 : https://arxiv.org/pdf/2310.10661
프로젝트 계획서 : https://eunmastudio.tistory.com/44
프로젝트 초안
프로젝트 계획서프로젝트 명: Smart Data Pipeline & Intelligent Recommendation System (임시)1. 프로젝트 개요1.1. 배경 및 필요성데이터 중심 시대: 다양한 소스에서 발생하는 데이터를 효과적으로 수집, 정제,
eunmastudio.tistory.com
깃허브 : https://github.com/EunmaCorp/SDP
논문 요약본 : https://eunmastudio.tistory.com/49
TII-SSRC-23 데이터셋: 침입 탐지를 위한 다양한 네트워크 트래픽 유형의 분류적 탐색
Dania Herzalla, Willian T. Lunardi, Martin Andreoni Lopez
초록
네트워크 침입 탐지 시스템(IDS)의 효과는 주로 머신러닝에 기반하며, 이들이 학습하는 데이터셋의 품질에 크게 영향을 받습니다. IDS 모델이 다양한 침입 패턴을 인식하고 대응할 수 있도록 하기 위해서는, 데이터셋이 정상(benign) 및 악성(malicious) 트래픽의 다양한 측면을 정확히 반영해야 합니다. 하지만 기존 데이터셋은 이 점에서 부족한 경우가 많으며, 특히 현대 네트워크 환경을 반영하는 데 한계를 가지므로 침입 탐지의 효과를 저해할 수 있습니다.
이 논문에서는 이러한 문제를 해결하기 위해 TII-SSRC-23이라는 새로운 포괄적 데이터셋을 소개합니다. 이 데이터셋은 다양한 트래픽 유형과 하위 유형을 포함하며, 연구 커뮤니티에서 IDS 모델의 성능 향상을 위한 강력하고 다목적적인 도구로 활용될 수 있습니다. 또한, 주요 특징(feature) 중요도 분석을 수행하여 침입 탐지 작업에서 핵심적인 요소를 도출하고자 합니다. 나아가, 다양한 실험을 통해 IDS 모델의 성능을 평가하고, 감독(supervised) 및 비감독(unsupervised) 학습 방식의 침입 탐지 기준선(baseline)을 수립함으로써 IDS 모델이 변화하는 네트워크 보안 환경에 적응할 수 있도록 기여합니다. 본 데이터셋은 Kaggle 링크에서 제공됩니다.
키워드: 네트워크 트래픽 데이터셋, 침입 탐지, 네트워크 보안, 이상 탐지, 머신러닝
I. 서론
디지털 세계가 점점 더 상호 연결됨에 따라, 강력한 네트워크 보안의 필요성이 더욱 강조되고 있습니다. 모바일 컴퓨팅과 사물인터넷(IoT) 기술이 발전하면서, 네트워크의 공격 가능 범위(attack surface)는 기하급수적으로 확장되었고, 이에 따라 네트워크 보안은 단순한 추가 보호 계층이 아니라 필수 요소가 되었습니다.
이러한 방어 전략의 중심에는 **침입 탐지 시스템(IDS)**이 존재합니다. IDS는 통계적 이상 탐지(statistical anomaly detection), 서명 기반 탐지(signature-based methods), 그리고 점점 더 머신러닝(ML) 기술을 활용하는 방식 등을 포함하여 네트워크에서 발생하는 이상 행위나 악의적인 활동을 탐지하고 차단하는 역할을 합니다.
IDS에서 머신러닝의 역할을 논의할 때, 데이터 다양성(data diversity) 개념이 중요합니다. 데이터 다양성은 데이터 증강(data augmentation) 기법을 통해 학습 데이터에 변화를 추가하는 방식으로 구현되며, 특히 딥러닝(Deep Learning, DL) 모델에서는 모델이 특정 패턴에 과적합(overfitting)하는 것을 방지하고, 새로운 사례에 대한 일반화 능력을 높이는 데 중요한 역할을 합니다.
네트워크 트래픽 데이터셋의 다양성은 IDS 모델의 성능을 향상시키는 데 중요한 요소입니다. 네트워크 침입 탐지 모델이 보다 넓은 범위의 침입 시나리오를 인식하고 탐지할 수 있도록 하기 위해, 다양한 정상 및 악성 트래픽 유형을 포함하는 데이터셋이 필요합니다. 하지만 기존 네트워크 트래픽 데이터셋은 여러 한계를 가지고 있습니다.
기존 데이터셋이 가진 주요 한계는 다음과 같습니다:
- 악성 데이터 샘플의 다양성 부족: 기존 데이터셋은 정상 트래픽은 다양하게 포함하지만, 악성 트래픽은 제한적인 유형만 포함하는 경우가 많습니다.
- 구식 패턴 사용: 많은 데이터셋이 과거의 네트워크 환경을 기반으로 구축되어 현대의 네트워크 트래픽을 충분히 반영하지 못합니다.
- 바이어스(bias) 문제: 일부 데이터셋은 특정 유형의 공격에 대한 편향을 포함하고 있으며, 이는 모델의 일반화 능력을 제한할 수 있습니다.
IoT 환경에서는 네트워크 트래픽의 다양성이 더욱 중요합니다. IoT 네트워크는 다양한 성능과 보안 취약점을 가진 장치들이 연결된 형태로 구성되므로, 단순한 트래픽 패턴만으로는 실세계 환경을 제대로 반영하기 어렵습니다. 많은 IoT 관련 데이터셋이 개발되었지만, 대부분은 다양한 장치 간의 상호작용을 완벽하게 포착하지 못하고 있으며, IoT 환경에서 발생할 수 있는 다양한 침입 시나리오를 충분히 반영하지 못하고 있습니다.
이러한 문제를 해결하기 위해, 본 논문에서는 TII-SSRC-23이라는 새로운 데이터셋을 제안합니다. 이 데이터셋은 총 27.5GB의 용량을 가지며, 두 가지 주요 범주(정상 및 악성 트래픽)로 나누어집니다. 또한, 이들 데이터는 다시 8가지 주요 트래픽 유형과 32가지 하위 유형으로 세분화됩니다.
이 데이터셋에는 다음과 같은 요소가 포함됩니다:
- 네트워크 트래픽 원본 데이터 (PCAP 파일)
- 추출된 특징 데이터 (CSV 파일)
데이터셋 생성 방법론은 다음과 같은 절차를 따릅니다:
- 네트워크 토폴로지 정의: IDS 모델 학습을 위한 네트워크 환경 구성
- 정상 트래픽 생성: 동영상, 오디오, 텍스트, 일반적인 백그라운드 트래픽 등 다양한 유형의 정상 데이터 수집
- 악성 트래픽 생성: 4가지 주요 공격 유형(DoS, 브루트포스, 정보 수집, 봇넷)을 포함하여 다양한 공격 유형 모의 실험 수행
- 특징 추출 및 분석: 네트워크 트래픽 데이터에서 핵심적인 특징을 추출하고, 침입 탐지 모델을 위한 특징 중요도 분석 수행
- 기준 성능 수립: 다양한 지도학습 및 비지도학습 기법을 활용한 침입 탐지 성능 평가 및 기준선 설정
본 연구의 주요 기여는 다음과 같습니다:
- TII-SSRC-23 데이터셋 공개: 8가지 트래픽 유형과 32가지 하위 유형을 포함하는 새로운 IDS 연구용 데이터셋 제공
- 기존 데이터셋 비교 분석: 18개의 기존 네트워크 트래픽 데이터셋을 분석하여 연구자들이 IDS 연구에 적합한 데이터셋을 선택할 수 있도록 가이드 제공
- 특징 중요도 분석: 네트워크 트래픽에서 중요한 특징을 도출하여 IDS 모델 최적화를 지원
- 침입 탐지 기준선 설정: 지도학습 및 비지도학습을 활용한 IDS 모델의 성능 평가 및 기준 성능 제공
논문의 구성은 다음과 같습니다:
- II장에서는 기존 연구와 IDS 데이터셋의 한계를 분석합니다.
- III장에서는 TII-SSRC-23 데이터셋의 생성 과정과 특징을 설명합니다.
- IV장에서는 데이터 전처리, 특징 추출, 특징 중요도 분석을 다룹니다.
- V장에서는 지도학습 및 비지도학습 기반 침입 탐지 실험을 수행하고, 기준 성능을 설정합니다.
- VI장에서는 연구 결론과 향후 연구 방향을 제시합니다.
II. 관련 연구 (RELATED WORKS)
이 장에서는 IDS(침입 탐지 시스템) 데이터셋의 변천사를 다룹니다. 1998년에 발표된 초기 데이터셋부터 2023년 최근 데이터셋까지 25년 동안의 발전 과정을 포괄적으로 검토합니다.
특히, 전통적인 테스트베드 기반 데이터셋, 실제 네트워크 환경에서 수집된 데이터셋, 그리고 IoT(사물인터넷) 관련 데이터셋을 포함한 다양한 유형의 IDS 데이터셋을 살펴봅니다. 표 I에서는 IDS 연구자들이 데이터셋을 선택할 때 고려해야 할 주요 특성을 정리하여 제공합니다.
2.1 IDS 데이터셋의 주요 특성 분석
각 데이터셋의 특성을 분석하기 위해, 다음 요소들을 비교하였습니다:
- 데이터셋 생성 연도
- 트래픽 객체의 수 (Traffic Objects)
- 공개된 데이터 형식 (Raw Packet Data vs. 통계 정보)
- 데이터셋 크기 (GB 단위)
- 추출된 특징(feature)의 개수
- 트래픽 소스 유형 (실제 트래픽, 시뮬레이션, 또는 합성 데이터)
- 테스트베드 규모 (소규모 <20 노드, 중간 20~50 노드, 대규모 >50 노드)
표 I에 나타난 주요 IDS 데이터셋들을 분석하면, IDS 모델 훈련을 위한 다양한 데이터 특성이 반영되지 못하는 한계점이 발견됩니다. 특히 기존 데이터셋들은 악성 트래픽의 종류가 제한적이며, 현대 네트워크 환경을 충분히 반영하지 못하는 경우가 많습니다.
2.2 IDS 데이터셋의 발전 과정
IDS 데이터셋은 시간이 지나면서 점점 더 현실적인 네트워크 트래픽을 반영하는 방향으로 발전해 왔습니다.
- DARPA98 데이터셋 (1998)
- 미군 네트워크 환경을 기반으로 구축된 IDS 성능 평가를 위한 초기 데이터셋
- 다양한 공격 유형 포함: DoS, 스캐닝(Scanning), 권한 상승 공격(Privilege Escalation) 등
- 한계점: 군사 네트워크 기반으로, 일반적인 상용 네트워크 환경과 차이가 큼
- KDD99 데이터셋 (1999)
- DARPA98 데이터셋에서 파생된 데이터셋으로, IDS 연구의 표준 벤치마크로 사용됨
- 문제점: 중복 데이터가 많고, 공격 패턴이 단순하여 실전 네트워크 환경과 차이가 큼
- 이 문제를 해결하기 위해 NSL-KDD (2009) 데이터셋이 등장
- ISCX 2012 데이터셋
- 실제 네트워크 트래픽을 모방한 실험 환경에서 수집된 데이터
- HTTP, 이메일, SSH, FTP 등 다양한 정상 트래픽 포함
- 한계점: 현대 IoT 환경의 트래픽을 반영하지 못함
- CICIDS 2017 데이터셋
- 보다 정교한 공격 패턴을 포함 (브루트포스 공격, DoS, 웹 기반 공격 등)
- IoT 환경을 일부 반영하지만, 트래픽 다양성이 부족함
- UNSW-NB15 데이터셋 (2015)
- 현실적인 네트워크 트래픽을 기반으로 생성된 최신 IDS 데이터셋 중 하나
- 9가지 악성 트래픽 유형 포함 (DoS, 백도어, 스팸, 스캐닝 등)
- 하지만 IoT 보안 위협을 충분히 반영하지 못하는 한계 존재
- IoT 기반 데이터셋의 등장 (2018~2023)
- N-BaIoT (2018), BoT-IoT (2019), TON-IoT (2019) 등 IoT 환경을 반영한 IDS 데이터셋 등장
- DDoS, 랜섬웨어, 봇넷 공격 등의 최신 위협 요소 포함
- 하지만 일반적인 네트워크 트래픽과 IoT 트래픽 간의 차이를 반영하는 방식이 미흡함
2.3 기존 IDS 데이터셋의 한계
위에서 분석한 데이터셋들은 IDS 연구에 중요한 역할을 했지만, 다음과 같은 핵심적인 한계점이 존재합니다.
- 악성 트래픽의 다양성 부족
- 대부분의 데이터셋은 제한된 유형의 악성 트래픽만 포함하여, 새로운 공격 유형에 대한 일반화 능력이 떨어짐
- 현대 네트워크 환경을 반영하지 못함
- IoT 트래픽과 클라우드 환경에서 발생하는 공격을 포함하는 데이터셋이 부족함
- 데이터 레이블링 문제
- 일부 데이터셋은 수작업 레이블링 오류가 포함되어 있으며, IDS 모델 훈련 시 신뢰성이 떨어질 수 있음
- 비현실적인 데이터 수집 방식
- 일부 데이터셋은 인위적인 환경에서 생성된 합성 데이터이며, 실제 네트워크 환경을 충분히 반영하지 못함
2.4 TII-SSRC-23 데이터셋의 필요성
이러한 문제를 해결하기 위해, 본 논문에서는 TII-SSRC-23 데이터셋을 새롭게 제안합니다.
TII-SSRC-23 데이터셋의 특징:
- 악성 트래픽의 다양성 확대: 8가지 트래픽 유형 및 32개 하위 유형을 포함
- 실제 네트워크 환경 반영: IoT, 클라우드, 기업 네트워크 환경을 포함한 다양한 트래픽 패턴 제공
- 자동화된 특징 추출 및 분석: 네트워크 IDS 연구를 위한 머신러닝 기반 탐지 모델에 최적화
- 공개 데이터셋 제공: 연구자들이 자유롭게 활용할 수 있도록 공개됨 (Kaggle 링크)
2.5 결론
현재까지 개발된 IDS 데이터셋들은 다양한 한계를 가지고 있으며, IDS 모델의 일반화 성능을 제한하는 요소로 작용하고 있습니다. TII-SSRC-23 데이터셋은 이러한 문제를 해결하기 위해 설계되었으며, 현대 네트워크 환경을 반영하는 새로운 IDS 연구용 데이터셋으로 활용될 수 있습니다.
다음 장에서는 TII-SSRC-23 데이터셋의 생성 과정과 특징을 자세히 설명합니다.
III. TII-SSRC-23 데이터셋 생성 방법론
본 장에서는 TII-SSRC-23 데이터셋의 생성 과정과 방법론을 설명합니다. 이 데이터셋은 현대 네트워크 환경에서 발생할 수 있는 다양한 정상(benign) 및 악성(malicious) 트래픽을 포괄적으로 포함하도록 설계되었습니다.
3.1 IDS의 성능 향상을 위한 트래픽 다양성
머신러닝 및 딥러닝 기반 IDS 모델의 성능은 **데이터 다양성(data diversity)**에 크게 의존합니다.
즉, IDS 모델이 새로운 유형의 공격을 효과적으로 탐지하려면, 학습 데이터가 다양한 패턴을 포함해야 합니다.
하지만 기존 IDS 데이터셋은 다음과 같은 한계를 가집니다:
- 악성 데이터가 부족하거나 유형이 제한적임
- 많은 IDS 데이터셋이 정상 트래픽과 일부 특정 공격 유형(예: DoS, 스캔 공격)만 포함하고 있음
- 새로운 형태의 침입(예: 최신 IoT 악성코드, 신종 DDoS 공격 등)을 탐지하기 어려움
- 네트워크 트래픽이 현실적인 환경을 반영하지 못함
- 실제 네트워크에서는 다양한 서비스(HTTP, FTP, VoIP, P2P 등)와 혼합된 트래픽이 발생하지만, 기존 데이터셋에서는 이런 요소가 부족함
- IoT 및 클라우드 환경을 반영하는 데이터가 부족함
- 현대 네트워크 환경에서는 IoT 장치가 증가하고 있지만, 기존 데이터셋은 IoT 관련 트래픽을 충분히 포함하지 못함
- 클라우드 환경에서 발생하는 네트워크 공격(예: 컨테이너 공격, 서버리스 보안 위협 등)을 반영하지 못함
이에 따라, TII-SSRC-23 데이터셋은 다음과 같은 목표를 가지고 설계되었습니다:
- 다양한 트래픽 유형 및 하위 유형을 포함 (정상 및 악성 트래픽 모두)
- 현대 네트워크 환경을 반영 (IoT, 클라우드, 일반 기업 네트워크 등)
- 자동화된 특징 분석 및 이상 탐지 연구를 지원
3.2 네트워크 구성 개요
TII-SSRC-23 데이터셋은 실제 네트워크 환경을 모방한 테스트베드에서 수집되었습니다.
이 실험 환경은 **5개의 주요 노드(nodes)**로 구성되었으며, 다양한 유형의 네트워크 트래픽을 생성하는 데 사용되었습니다.
- ① 노트북 2대 (Ubuntu 20.04)
- 일반적인 네트워크 사용자 역할 (정상 트래픽 생성)
- 악성 트래픽 공격 대상 (침입 탐지 실험)
- ② 임베디드 장치 3대 (Compute Module 4, CM4)
- IoT 기기 역할 (IoT 트래픽 및 악성 트래픽 생성)
- 네트워크 내 분산된 다양한 트래픽 유형을 모니터링
- ③ 모바일 장치 1대 (Wi-Fi 기반 네트워크 트래픽 수집)
- 실제 환경에서 발생하는 네트워크 간섭(interference) 및 이동성을 반영
네트워크 내에서 정상(benign) 및 악성(malicious) 트래픽이 혼합되어 있으며, 이를 통해 IDS 모델이 실제 네트워크 환경에서도 동작할 수 있도록 학습할 수 있도록 구성되었습니다.
3.3 정상 트래픽 데이터 생성
정상 트래픽(benign traffic)은 실제 네트워크에서 발생하는 다양한 서비스 및 프로토콜을 포함하도록 설계되었습니다.
다음과 같은 네트워크 트래픽 유형이 포함되었습니다:
① 오디오 및 텍스트 트래픽
- 사용한 프로토콜: VoIP (Voice over IP), SIP(Session Initiation Protocol), Mumble
- 트래픽 유형: 음성 통화, 채팅 메시지
- 네트워크 환경: Wi-Fi 및 유선 네트워크
- 특징: 다양한 길이의 메시지를 포함, 랜덤한 연결 및 해제 패턴 포함
② 백그라운드 트래픽
- 사용한 환경: 실제 사무실 네트워크 환경
- 트래픽 유형: 네트워크 프로토콜(HTTP, DNS, SSH, FTP 등)
- 특징: IoT 장치와 일반 노트북이 동시에 연결된 환경에서 발생하는 트래픽
③ 비디오 스트리밍 트래픽
- 사용한 프로그램: VLC (Video LAN Client)
- 스트리밍 유형: HTTP, UDP, RTP(Real-time Transport Protocol) 기반 비디오 트래픽
- 변수 조정:
- 해상도: 240p, 360p, 480p, 720p, 1080p
- 비트레이트: 800kbps ~ 3500kbps
- 코덱: MPEG-4, H-264, H-265, VP8 등
- 프레임 속도: 15~60fps
이러한 변수를 다양하게 조합하여 보다 현실적인 비디오 스트리밍 트래픽을 생성하였습니다.
3.4 악성 트래픽 데이터 생성
악성 트래픽(malicious traffic)은 다양한 유형의 침입 공격을 포함하도록 설계되었습니다.
특히 기존 IDS 데이터셋에서 부족했던 최신 공격 유형을 포함하는 것이 목표였습니다.
① DoS (Denial of Service) 공격
- 사용한 도구: Hping3, GoldenEye
- 공격 유형:
- TCP SYN Flood, ACK Flood, RST Flood, FIN Flood
- HTTP DoS (GoldenEye)
- ICMP Flood, UDP Flood
② 브루트포스 (Bruteforce) 공격
- 사용한 도구: Patator
- 공격 대상: FTP, SSH, Telnet, HTTP 인증 시스템
- 사용한 크리덴셜 리스트: 공개된 암호 데이터셋(2백만 개의 유출된 비밀번호 포함)
③ 정보 수집 (Information Gathering) 공격
- 사용한 도구: Nmap, Hping3
- 공격 유형:
- TCP/UDP 포트 스캔
- 운영체제(OS) 탐지
- 버전 탐지 및 취약점 스캐닝
④ 봇넷 (Botnet) 공격
- 사용한 봇넷: Mirai
- 공격 유형:
- Mirai DDoS (DNS Flood, ACK Flood, SYN Flood 등)
- IoT 디바이스 감염 및 C&C(Command & Control) 서버와의 통신
- 테스트베드 구성:
- C&C 서버: Ubuntu 20.04 기반
- 봇: Compute Module 4 장치에 직접 Mirai 악성코드 실행
- 네트워크 환경: 무선(Wi-Fi) 및 유선(Ethernet) 혼합
이러한 공격들을 조합하여 총 26개의 고유한 악성 트래픽 패턴을 생성하였습니다.
3.5 결론
TII-SSRC-23 데이터셋은 현실적인 네트워크 환경을 반영하면서도, IDS 모델의 성능을 평가할 수 있도록 설계된 최신 데이터셋입니다.
다음 장에서는 네트워크 트래픽에서 특징(feature)을 추출하고, 침입 탐지 모델을 학습하기 위한 데이터 전처리 과정을 설명합니다.
IV. 네트워크 트래픽 특징 추출 및 중요도 분석
본 장에서는 **네트워크 트래픽에서 특징(feature)을 추출하는 과정과 중요도 분석(feature importance analysis)**을 설명합니다.
IDS(침입 탐지 시스템) 모델의 성능을 향상시키기 위해서는 네트워크 트래픽 데이터의 중요한 특징을 식별하는 것이 필수적입니다.
4.1 데이터 필터링 및 전처리
TII-SSRC-23 데이터셋에서 정확한 특징(feature) 추출을 수행하기 위해, 데이터 전처리 단계를 거쳤습니다.
① 데이터 필터링 과정
- Wireshark를 사용하여 네트워크 패킷 캡처 파일(PCAP)을 필터링
- 악성 데이터가 포함된 파일에서 비정상적인 패킷 제거
- 정상 트래픽(benign traffic)과 악성 트래픽(malicious traffic)을 명확하게 구분
- 배경 트래픽(background traffic) 제거
- 백그라운드 트래픽이 악성 데이터에 포함될 경우, 모델이 잘못 학습할 가능성이 높아짐
② 전처리 과정
- 중복 데이터 제거: 동일한 네트워크 이벤트가 반복적으로 저장되지 않도록 함
- 누락된 값 처리: 특정 네트워크 패킷에서 누락된 데이터를 보완
- 정상화(Normalization) 및 표준화(Standardization): 머신러닝 모델의 최적 성능을 위해 데이터 분포 조정
4.2 특징 추출 (Feature Extraction)
네트워크 패킷에서 유의미한 정보를 추출하기 위해, CICFlowMeter 도구를 활용하였습니다.
CICFlowMeter는 네트워크 트래픽을 분석하고, 세션(session) 단위의 특징을 추출하는데 널리 사용되는 도구입니다.
① 특징 추출 방법
- PCAP 파일 → CSV 파일 변환
- 네트워크 패킷 데이터를 CSV 형식으로 변환하여 머신러닝 모델에서 사용 가능하도록 처리
- 양방향 흐름(Bidirectional Flow) 기반 특징 생성
- 네트워크 트래픽을 단순한 패킷 수준이 아니라 세션(session) 단위로 분석
- 75개의 특징(feature) 추출
- 송신 패킷(Forward Packet) 및 수신 패킷(Backward Packet)에 대한 다양한 네트워크 속성 포함
- 특징 예시:
- 패킷 크기 (Packet Size): 최대/최소/평균 패킷 크기
- 초당 전송량 (Flow Byte Rate): 일정 시간 동안의 데이터 흐름 속도
- TCP 윈도우 크기 (TCP Window Size): 송/수신 패킷의 윈도우 크기
② 특징 데이터셋 라벨링 (Labeling)
TII-SSRC-23 데이터셋의 특징 데이터는 3단계 라벨(labeling)을 포함합니다.
이러한 구조는 IDS 모델의 학습을 위한 다중 분류(multiclass classification) 실험을 가능하게 합니다.
라벨(Label)설명
Level 1 (Binary Classification) | 정상(Benign) vs. 악성(Malicious) |
Level 2 (Traffic Type Classification) | 오디오(Audio), 비디오(Video), DoS, 브루트포스(Bruteforce), 정보 수집(Information Gathering) 등 8개 유형 |
Level 3 (Traffic Subtype Classification) | TCP SYN Flood, Mirai Botnet, DNS BruteForce 등 32개 세부 유형 |
4.3 특징 중요도 분석 (Feature Importance Analysis)
IDS 모델의 성능을 최적화하기 위해 각 특징이 네트워크 트래픽을 구분하는 데 얼마나 중요한지 분석하였습니다.
이를 위해 Permutation Feature Importance(PFI) 기법을 사용하였습니다.
① 특징 중요도 분석 방법
PFI(Permutation Feature Importance)는 각 특징을 랜덤하게 변경(shuffling)한 후, 모델 성능 변화량을 측정하는 방식입니다.
즉, 특정 특징을 무작위로 변형했을 때 모델의 정확도가 크게 감소한다면, 해당 특징이 중요한 역할을 한다는 것을 의미합니다.
- 실험에 사용된 분류 모델:
- 랜덤 포레스트 (Random Forest, RF)
- 익스트라 트리 (Extra Trees, ET)
- XGBoost (eXtreme Gradient Boosting)
- 각 모델을 3회씩 실행하여 평균값 계산
② 가장 중요한 특징 5가지
아래는 악성/정상 트래픽을 구별하는 데 가장 중요한 5가지 특징입니다.
특징 (Feature)설명
FWD Max Packet Length | 송신 방향 최대 패킷 크기 |
BWD Initial Window Byte Size | 수신 방향 초기 윈도우 크기 |
Flow Byte Rate | 초당 흐름 바이트 수 |
FWD Initial Window Byte Size | 송신 방향 초기 윈도우 크기 |
FWD Min Segment Size | 송신 방향 최소 세그먼트 크기 |
이러한 결과는 송신 및 수신 패킷 크기, 초당 전송 속도 등이 IDS 모델에서 중요한 역할을 한다는 것을 보여줍니다.
③ 다중 분류(Multiclass Classification) 실험 결과
다음으로, 네트워크 트래픽 유형(오디오, 비디오, DoS, 브루트포스 등)을 분류하는 데 중요한 특징 5가지를 분석하였습니다.
특징 (Feature)설명
FWD Initial Window Byte Size | 송신 방향 초기 윈도우 크기 |
FWD Max Packet Length | 송신 방향 최대 패킷 크기 |
FWD Header Length | 송신 방향 헤더 길이 |
Std. Idle Time | 평균 대기 시간 표준편차 |
Max Packet Length | 최대 패킷 크기 |
이 실험에서 FWD Initial Window Byte Size가 가장 중요한 특징으로 나타났으며,
이는 네트워크 트래픽의 패턴을 분석하는 데 TCP 윈도우 크기가 핵심적인 역할을 한다는 것을 의미합니다.
4.4 특징 분석 결과 요약
- 송신/수신 패킷 크기(FWD/BWD Max Packet Length)는 악성 트래픽 탐지에서 중요한 요소
- 초당 전송량(Flow Byte Rate)은 네트워크 이상 탐지에서 활용 가능
- FWD Initial Window Byte Size는 모든 유형의 분류에서 가장 중요한 특징
- 머신러닝 모델에서 네트워크 흐름을 분석할 때, 트래픽 세션(session) 단위의 분석이 효과적
4.5 결론
본 장에서는 네트워크 트래픽에서 중요한 특징을 식별하는 과정과, 특징 중요도 분석 결과를 제시하였습니다.
다음 장에서는 TII-SSRC-23 데이터셋을 활용한 머신러닝 기반 IDS 모델 성능 평가를 진행합니다.
V. 실험 평가 및 기준 성능 (Experimental Evaluation and Baseline Results)
본 장에서는 TII-SSRC-23 데이터셋을 활용하여 IDS(침입 탐지 시스템) 모델의 성능을 평가합니다.
지도 학습(Supervised Learning) 및 비지도 학습(Unsupervised Learning) 접근 방식을 적용하여 IDS 모델의 탐지 성능을 분석하고,
이러한 실험을 통해 IDS 연구자들이 활용할 수 있는 기준 성능(Baseline Performance)을 설정합니다.
5.1 데이터 처리 및 실험 설계
실험을 수행하기 전에 IDS 모델 학습을 위한 데이터 전처리 과정을 거쳤습니다.
① 데이터 전처리 과정
- 불필요한 열(Column) 제거
- 출발지 IP, 목적지 IP, 포트 번호 등 IDS 모델 학습에 불필요한 정보 삭제
- 누락된 값(Missing Values) 처리
- 수치형 데이터는 평균값(mean)으로 보완, 범주형 데이터는 최빈값(most frequent value)으로 대체
- 데이터 정규화(Normalization) 및 표준화(Standardization)
- 모든 수치형 특징(feature)을 동일한 범위로 변환하여 학습 안정성 향상
- One-hot Encoding 적용
- 프로토콜 정보(Protocol)와 같은 범주형(Categorical) 데이터는 One-hot Encoding 방식으로 변환
- 차원 축소(Dimensionality Reduction) 미적용
- 특징(feature) 정보를 최대한 유지하여 학습 모델의 성능을 평가
② 데이터셋 균형 조정(Balancing)
- SMOTE(Synthetic Minority Over-sampling Technique) 적용 여부 실험
- 소수 클래스(데이터 비율이 낮은 트래픽 유형)에 대해 SMOTE를 적용하여 데이터 균형을 맞출지 여부를 평가
- 하지만, 성능 개선 효과가 미미하여 최종 실험에서는 원본 데이터셋을 유지
③ 평가 지표 (Evaluation Metrics)
IDS 모델 성능을 평가하기 위해 다양한 성능 지표를 활용하였습니다.
성능 지표설명
F1 Score | Precision(정밀도)과 Recall(재현율)의 조화 평균 (모델의 균형적 성능 평가) |
AUROC (Area Under ROC Curve) | 모델이 정상/악성 트래픽을 얼마나 잘 구분하는지 평가 |
AUC-PR (Area Under Precision-Recall Curve) | Precision과 Recall의 관계를 측정하는 지표 (불균형 데이터 환경에서 유용) |
5.2 지도 학습(Supervised Learning) 기반 IDS 탐지 실험
본 실험에서는 지도 학습 모델을 활용하여 IDS 성능을 평가하였습니다.
① 실험 목표
- 이진 분류(Binary Classification): 정상(Benign) vs. 악성(Malicious) 트래픽 분류
- 다중 클래스 분류(Multiclass Classification):
- 트래픽 유형(Traffic Type) 분류: DoS, 브루트포스, 정보 수집 등 8개 유형
- 트래픽 하위 유형(Traffic Subtype) 분류: TCP SYN Flood, Mirai Botnet 등 32개 세부 유형
② 실험에 사용된 머신러닝 모델
- 랜덤 포레스트(Random Forest, RF)
- 결정 트리(Decision Tree, DT)
- 익스트라 트리(Extra Trees, ET)
- XGBoost
- 멀티레이어 퍼셉트론(MLP, Multilayer Perceptron)
- 서포트 벡터 머신(SVM, Support Vector Machine)
K-최근접 이웃(KNN) 모델도 고려하였으나, 성능이 상대적으로 낮아 최종 실험에서 제외하였습니다.
③ 하이퍼파라미터 튜닝 (Hyperparameter Tuning)
각 모델에 대해 Grid Search 기법을 사용하여 최적의 하이퍼파라미터를 탐색하였습니다.
- 랜덤 포레스트(Random Forest): 트리 개수(n_estimators) = 100, 최대 깊이(max_depth) = None
- XGBoost: 학습률(learning rate) = 0.1, 최대 깊이(max_depth) = 6, 트리 개수(n_estimators) = 200
- SVM: 커널(kernel) = 'linear', 규제 파라미터(C) = 1
- MLP: 은닉층(hidden layers) = (64, 64), 활성화 함수(activation) = 'tanh'
④ 지도 학습 결과
아래 표 3은 **지도 학습 모델의 성능 평가 결과(%)**를 나타냅니다.
모델정확도(Accuracy)F1 ScoreAUROCAUC-PR
이진 분류 (정상 vs. 악성 트래픽) | ||||
SVM | 99.84 | 57.87 | 97.61 | 100 |
MLP | 99.99 | 89.48 | 99.83 | 100 |
결정 트리 | 100 | 96.87 | 97.24 | 100 |
랜덤 포레스트 | 100 | 98.01 | 98.62 | 100 |
익스트라 트리 | 100 | 98.60 | 98.62 | 100 |
XGBoost | 100 | 98.79 | 100 | 100 |
다중 클래스 분류 (트래픽 유형 분류) | ||||
SVM | 97.73 | 61.66 | 96.45 | 72.44 |
MLP | 99.94 | 75.60 | 97.81 | 82.62 |
결정 트리 | 99.98 | 94.84 | 97.12 | 93.21 |
랜덤 포레스트 | 99.98 | 97.28 | 99.53 | 97.66 |
익스트라 트리 | 99.98 | 96.71 | 99.49 | 97.46 |
XGBoost | 99.99 | 97.31 | 99.80 | 98.34 |
⑤ 결과 분석
- XGBoost와 익스트라 트리(ET) 모델이 가장 높은 성능을 보임
- 트래픽 하위 유형 분류(32개 클래스)는 난이도가 높아 F1 Score가 다소 감소
- SVM과 MLP 모델은 상대적으로 낮은 성능을 보임
5.3 비지도 학습(Unsupervised Learning) 기반 IDS 탐지 실험
비지도 학습 접근 방식은 정상 트래픽만 학습한 후, 이상 탐지(Anomaly Detection) 방식으로 악성 트래픽을 식별하는 방식입니다.
① 실험에 사용된 비지도 학습 모델
- Isolation Forest (IF)
- Kernel Density Estimation (KDE)
- Local Outlier Factor (LOF)
- One-Class SVM (OC-SVM)
- Deep Support Vector Data Description (Deep SVDD)
② 실험 결과
- Deep SVDD 모델이 가장 높은 탐지 성능을 기록 (AUROC = 97.84, F1 Score = 99.76)
- Isolation Forest, KDE 모델은 상대적으로 낮은 성능을 보임
5.4 결론
- XGBoost, 익스트라 트리(ET) 모델이 지도 학습에서 가장 좋은 성능을 보임
- 비지도 학습에서는 Deep SVDD 모델이 우수한 탐지 성능을 기록
- IDS 연구자들은 TII-SSRC-23 데이터셋을 활용하여 다양한 침입 탐지 알고리즘을 평가할 수 있음
VI. 결론 (Conclusion)
현대 네트워크 환경에서 **침입 탐지 시스템(IDS, Intrusion Detection System)**의 성능을 향상시키기 위해서는 다양하고 현실적인 네트워크 트래픽 데이터셋이 필요합니다.
기존의 IDS 데이터셋들은 특정 유형의 트래픽만 포함하거나, 악성 트래픽의 다양성이 부족하여 IDS 모델의 일반화 성능을 저하시킬 가능성이 큽니다.
이에 대응하기 위해, 본 논문에서는 TII-SSRC-23 데이터셋을 소개하였습니다.
이 데이터셋은 다양한 유형의 정상 및 악성 네트워크 트래픽을 포함하며, 최신 IDS 연구에 적합하도록 설계되었습니다.
6.1 연구 기여 (Key Contributions)
본 연구의 주요 기여는 다음과 같습니다:
- TII-SSRC-23 데이터셋 공개
- 정상 및 악성 트래픽 유형을 포괄하는 27.5GB 규모의 데이터셋
- 8개 주요 트래픽 유형과 32개 세부 트래픽 하위 유형 포함
- 네트워크 트래픽 데이터(PCAP 파일) 및 특징 데이터(CSV 파일) 제공
- 기존 IDS 데이터셋 분석 및 비교
- 기존에 발표된 18개의 네트워크 트래픽 데이터셋을 분석하여 각 데이터셋의 한계와 특징을 비교
- IDS 연구자들이 적절한 데이터셋을 선택할 수 있도록 데이터셋 특성 분석 결과 제공
- 머신러닝 및 비지도 학습 기반 침입 탐지 실험 수행
- 지도 학습(Supervised Learning): XGBoost, 랜덤 포레스트, SVM, MLP 등의 알고리즘을 활용한 IDS 탐지 성능 분석
- 비지도 학습(Unsupervised Learning): Isolation Forest, Deep SVDD 등을 이용한 이상 탐지(Anomaly Detection) 평가
- 지도 학습에서는 XGBoost와 익스트라 트리(ET)가 가장 높은 성능을 기록
- 비지도 학습에서는 Deep SVDD 모델이 가장 높은 이상 탐지 성능을 보임
- 네트워크 트래픽 특징 분석 및 중요도 평가
- 75개의 네트워크 특징(feature)을 분석하여, IDS 모델에서 중요한 특징들을 도출
- 패킷 크기(FWD Max Packet Length), 초당 트래픽 속도(Flow Byte Rate) 등이 중요한 요소로 확인됨
6.2 향후 연구 방향 (Future Work)
TII-SSRC-23 데이터셋은 IDS 연구를 위한 강력한 도구를 제공하지만, 여전히 몇 가지 개선 가능성이 존재합니다.
앞으로 연구자들은 다음과 같은 방향에서 추가적인 연구를 진행할 수 있습니다:
- 정상 트래픽(Benign Traffic) 데이터의 다양성 확대
- 현재 데이터셋에는 다양한 유형의 정상 트래픽이 포함되어 있지만, 이를 더욱 풍부하게 하기 위해 다른 공개 데이터셋(KDD99, CICIDS2017 등)과 병합 가능
- IoT 네트워크 트래픽을 추가하여, 보다 현실적인 IoT 환경을 반영할 필요
- IDS 모델의 실전 배포 및 성능 검증
- 본 연구에서는 머신러닝 모델을 기반으로 IDS 탐지 성능을 평가하였으나, 실제 운영 환경에서의 IDS 성능 평가가 필요
- 클라우드 및 엣지 컴퓨팅 환경에서 IDS 모델을 배포하고, 실시간 네트워크 트래픽을 활용한 성능 평가 가능
- LLM(대형 언어 모델) 기반 IDS 탐지 연구
- 최근 LLM(Large Language Model, GPT 등)을 활용한 IDS 탐지 연구가 주목받고 있음
- 네트워크 로그 분석 및 침입 탐지 모델에 LLM을 적용하여 보안 이벤트 자동 탐지 및 대응 가능성 탐색
- IDS 탐지 모델의 설명 가능성(Explainability) 연구
- 머신러닝 기반 IDS 모델은 강력한 탐지 성능을 제공하지만, 모델의 의사결정 과정을 설명하기 어려운 단점이 있음
- SHAP(Shapley Additive Explanations) 또는 LIME(Local Interpretable Model-agnostic Explanations) 기법을 활용하여 IDS 모델의 예측 결과를 설명하는 연구 필요
6.3 결론 (Final Remarks)
본 연구에서는 다양한 IDS 데이터셋의 한계를 분석하고, TII-SSRC-23이라는 새로운 데이터셋을 소개하였습니다.
또한, 머신러닝 및 비지도 학습 방법을 활용하여 IDS 탐지 성능을 평가하고, 주요 특징(feature)들을 분석하였습니다.
본 연구 결과는 IDS 연구자들에게 다음과 같은 도움을 줄 수 있습니다:
- IDS 탐지 모델 성능 평가를 위한 벤치마크 데이터셋 제공
- 머신러닝 및 비지도 학습 기반 IDS 탐지 성능 비교 연구 지원
- IDS 탐지 모델의 최적화 및 실전 적용 가능성 탐색
향후 연구자들은 TII-SSRC-23 데이터셋을 활용하여 IDS 모델을 개선하고, 보다 현실적인 네트워크 보안 환경에 적용하는 연구를 수행할 수 있습니다.
본 데이터셋은 연구 커뮤니티에서 자유롭게 활용할 수 있도록 Kaggle에서 제공됩니다.
'[STUDY] > [논문]' 카테고리의 다른 글
TII-SSRC-23 데이터셋 논문 요약 (0) | 2025.02.08 |
---|