광고
광고
광고
광고

구급활동일지 평가소견 텍스트 마이닝 분석- Ⅰ

광고
경남 진주소방서 반명준 | 기사입력 2024/10/02 [10:00]

구급활동일지 평가소견 텍스트 마이닝 분석- Ⅰ

경남 진주소방서 반명준 | 입력 : 2024/10/02 [10:00]

얼마 전 (사)한국산학기술학회 2024년 5월호에 ‘진주소방서 구급활동일지 평가소견 텍스트 마이닝 분석 연구’라는 논문 한 편을 발표했다.

 

이를 바탕으로 이번 호에서는 우리 구급대원들이 현장 활동 후 기록하는 구급활동일지의 수많은 항목 중 주관식(?)으로 작성하는 ‘구급대원 평가소견’에 관해 이야기해 보고자 한다. 

 

구급활동일지는 구급대원과 응급실 의료진, 구급업무(구급 품질) 담당자, 구급지도의사 등 다양한 이해관계자가 얽히고설킨 가운데 작성한다. 구급활동일지 작성에 관한 보다 자세한 내용은 <119플러스> 2022년 12월호 ‘슬기로운 구급활동일지 작성법’(www.fpn119.co.kr/189049)을 참고하기 바란다.

 

우리나라에는 여러 곳의 논문검색 사이트가 있지만 필자는 주로 ‘학술연구정보서비스(Research Information Sharing Service, www.riss.kr)’1)를 이용한다. 2024년 8월 기준 해당 사이트 검색창에 ‘구급활동일지’를 검색하면 총 178건, ‘텍스트 마이닝’을 검색하면 6482건의 연구 결과가 나온다. 

 

 


이처럼 구급활동일지 로우 데이터(Raw Data)를 이용해 작성한 논문과 텍스트 마이닝 기법을 활용한 논문은 많았다. 하지만 구급활동일지 구급대원 평가소견을 텍스트 마이닝한 연구는 ‘진주소방서 구급활동일지 평가소견 텍스트 마이닝 분석 연구’가 최초라고 할 수 있다.


텍스트 마이닝(Text Mining)이란?


문서(Text)+채굴(mining)의 합성어다. 자연어 처리 기술(Natural Language Processing)을 바탕으로 유용한 정보를 텍스트 데이터들로부터 추출ㆍ가공하는 걸 목적으로 하는 관련 기술이다. 

 

이는 대규모 텍스트 데이터에서 유의미한 정보를 추출하고 분석하는 과정이다. 자연어 처리와 통계학, 기계학습 등의 기술을 활용해 데이터로부터 특정한 패턴이나 트렌드, 상관관계 등을 이해하는 데 활용된다.

다시 설명하면 텍스트 마이닝의 네 가지 기능은 문서 요약과 문서 분류, 문서 군집, 특성추출이다.

 

마케팅ㆍ고객 분석 분야에서는 고객 리뷰나 소셜 미디어 댓글 등을 분석해 소비자의 행동과 선호도를 이해한다. 의료ㆍ생명과학 분야에서는 연구 논문이나 임상 기록 등을 분석해 질병 패턴 또는 연구 트렌드를 파악한다.

 

금융 분야에서는 뉴스 기사나 금융 보고서를 분석해 시장 동향 또는 투자 위험을 예측하는 등 다양한 분야에서 활용되고 있다.

 

▲ 텍스트 마이닝 분석 절차

 

구급활동일지의 학술 가치는 첫째, 응급의료 현장의 실제 사례 작성을 통해 현장 상황의 문제점을 파악할 수 있다는 데 있다. 그로 인해 발생한 문제점의 개선 방향을 제시하고 대처 방법에 대한 프로토콜을 개선할 수 있다고 본다.

 

둘째, 응급환자의 특성ㆍ처치 내용을 바탕으로 응급의료에 관한 교육과 연구, 통계를 분석할 수 있다는 데 있다. 셋째, 민원ㆍ법적 문제 발생 시 중요한 증거로 활용될 수 있다. 이는 구급대원의 활동 안전성 확보에도 큰 역할을 해나갈 수 있으리라고 생각한다.

 

덧붙이자면 미국 외과학회지에 Laudermilch, D.J.가 발표한 ‘Lack of Emergency Medical Services Documentation Is Associated with Poor Patient Outcomes: A Validation of Audit Filters for Prehospital Trauma Care(응급의료서비스에서의 문서화 부족이 환자 결과에 미치는 영향: 병원 전 외상치료를 위한 검증)’는 응급의료서비스에서 적절한 문서화의 중요성을 강조한 연구다.

 

연구 결과에 따르면 외상 환자의 문서화가 불충분하면 사망률이 증가할 수 있다. 이는 우리 구급대원들이 구급활동일지를 정확하게 작성하는 게 얼마나 중요한지를 다시 한번 상기시켜 준다. 단순 기록의 차원을 넘어 병원 전 단계에서 외상 환자의 사망률 증가를 시사하는 중요한 연구 결과다.

 

연구 자료 수집 방법

이번 연구 시 자료는 진주소방서 구급활동 정보공개 청구를 통해 받았다. 공개 요청 자료는 연구 대상 해당 기간인 2018년부터 2023년까지 총 6년간 구급활동일지 자료 중 개인정보가 포함되지 않도록 추출된 2차 자료다. 

 

2018년부터 2022년까지 5년간 자료는 2023년 9월 15일 청구(접수번호 11261590)해 정보공개 결정통지서 공문에 의거(진주소방서 119재난대응과-3514(2023.9.25.)), 제공된 자료다.

 

2023년 자료는 2024년 1월 4일 청구(접수번호 11694315)해 정보공개 결정통지서(진주소방서 119재난대응과-325(2024.1.5.))에 따라 제공된 자료를 활용했다.

 

총 출동 건수는 11만6285건, 이송 인원은 6만2549명으로 이송률은 53.79%다. 1일 평균 출동 건수는 53.1건, 이송 인원은 28.56명이다.

 

연도별로 살펴보면 2018년도는 1만 7566건 출동 9902명(56.37%) 이송, 2019년 1만7595건 출동 1만61명(57.18%) 이송, 2020년 1만7702건 출동 9671명(54.63%), 2021년 1만8986건 출동 1만507명(55.34%) 이송으로 앞선 3년에 비해 증가세를 보였다. 

 

2022년 2만2663건 출동 1만1200명(49.41%) 이송으로 전년 대비 4천건 이상 출동 건수가 증가했다. 2023년에는 전년 대비 소폭 감소해 2만1773건 출동 1만1208명(51.47%)을 이송했다.

 

구분 출동 건수

이송환자(명)

이송률(%)

1일 평균
출동(건) 환자(명)
Normal 2018 17,566

9,902

56.37

48.13 27.13
2019 17,595

10,061

57.18

48.21 27.56
Pandemic 2020 17,702

9,671

54.63

48.50 26.50
2021 18,986

10,507

55.34

52.02 28.79
Endemic 2022 22,663

11,200

49.41

62.09 30.68
2023 21,773

11,200

49.41

59.65 30.71

 

▲ 출동 건수ㆍ이송 인원

 

자료처리 방법

시기별 평가소견에 대한 텍스트 수 산출을 위해 MS Excel 프로그램을 활용했다. 텍스트 수 증감에 대한 집단 간 비교 분석을 위해 IBM SPSS(Win ver 23)를 사용했다. 

 

시기별 텍스트 특성을 분석하기 위해선 텍스트 마이닝 기법을 이용했다. 비정형의 텍스트 데이터를 자연어 처리와 형태소 분석기술로 수집어를 정제했다. 이후 단어를 추출해 빈도수를 제시하면서 순위나 인식의 유사성, 일반성을 찾아내고자 했다.

 

구급활동일지 구급대원 평가소견에 작성된 텍스트 속에서 추출된 단어 중 구급활동과 무관한 단어, 숫자는 삭제했다. 반면 같은 의미로 사용한 단어는 통합했다. 띄어쓰기가 잘못됐거나 불완전한 단어, 의미가 같은 의학용어ㆍ약어는 관련이 있는 경우 통합하는 등 정제작업을 했다.

 

텍스트 정제작업 중 어떠한 키워드에 의해 텍스트 수가 늘었는지 확인하기 위해 동사와 명사만을 단어로 추출했다. 관습적인 표현으로 사용된 단어는 삭제했다. 이를 위해 형태소 분석기인 RHINO를 사용했다.

 

정제작업 중 연구자의 주관성을 배제하고 신뢰성을 확보하기 위해 전문가 집단 3인(교수, 대학원생, 119구급대원이 아닌 소방관)과 함께 작업했다(여기까지 수많은 시간과 노력, 땀과 예산이 투입됐다).

 

▲ 형태소 정제 데이터(Data Cleaned by Morpheme)

 

평가소견 자료 검정

시기에 따른 집단 간(Normal, Pandemic, Endemic) 구급활동일지 평가소견 텍스트 수 차이가 통계학적으로 유의미한 차이가 있는지 검증하기 위해 세 집단 간 정규성 검정을 시행했다.

 

그 결과 평균 텍스트 수가 정규성을 따르지 않는 것처럼 보여 분산분석(ANOVA)이 아닌 비모수 검정인 크러스컬-월리스 검정(Kruskal-Wallis Test)2)을 진행했다. 

 

▲ 세 집단의 중위수(텍스트 수)


검정 결과 세 집단 간 텍스트 수의 중앙값에 유의미한 차이가 있었다. 각 기간의 텍스트 수를 비교하니 모든 기간에서 텍스트의 수가 유의미한 차이(α=0.000, p-value=0.05)를 보였다.

 

표본 1- 표본 2

검정 통계량 표준오차 표준검정 통계량 유의수준 조정된 유의 수준

nomal-pendemic

-20,668.764 252.478 -81.864 .000 .000
nomal-endemic 33,744.958 241.667 139.634 .000 .000
pendemic-endemic 13,076.194 238.817 54.754 .000 .000

 

구급활동일지 평가소견에 입력된 텍스트 양을 분석한 결과 Normal 시기의 중앙값이 가장 작았다. 그러나 Pandemic, Endemic의 시기를 거치면서 중앙값이 점차 증가하는 경향을 보였다. 구체적으로 시기별 중위수는 Normal 67, Pandemic 140, Endemic 199자로 나타났다.

 

구급활동일지 평가소견 텍스트 분석결과

 

구급활동일지 평가소견에 작성한 텍스트를 추출해 평균 글자 수와 시기별 특징 단어를 분석했다. 코로나-19 Normal 시기인 2018년 이송한 출동에 대한 구급활동일지 평가소견 전체 텍스트 수는 9748자였고 평균 텍스트 수는 87.22자였다. 2019년도는 9675자, 평균 138.39자로 분석됐다.

 

코로나-19 Pandemic 시기인 2020년에는 9409자, 평균 198.06자였고 2021년에는 1만237자, 평균 215.18자였다. 코로나-19 Endemic 시기인 2022년에는 1만1003자, 평균 291.49자, 2023년에는 1만1081자, 평균 286.58자로 분석됐다. 참고로 애국가 1절의 단어 수는 28, 글자 수는 101자다.

 

텍스트 수 증가에 대한 분석은 다음과 같다. 코로나-19 Pandemic 시기 이후 구급대가 현장으로 출동하는 과정에서 레벨-D급 보호복을 착용함에 따라 출동 시간이 지연되면서 지연 사유에 관한 내용을 작성했다.

 

코로나-19 Endemic 시기에는 이송하고자 하는 의료기관에 환자 수용 여부를 사전에 연락하고 환자 불수용 사유 등에 관한 내용이 작성됐다. 환자 수용 불가 시 인근 응급의료기관 등에 연락을 취하고 그 결과를 작성하면서 텍스트 수가 증가한 것으로 분석됐다.

 

 

 


 

1) 국가 연구 경쟁력 강화ㆍ미래인재 양성을 위한 국가 차원의 학술연구정보 공유 플랫폼으로 한국교육학술정보원(KERIS)에서 운영하고 있다. 연구 활동의 효율성 증진, 고등교육 경쟁력 향상, 국가 연구 경쟁력 강화를 위해 1998년 개통했다. 전국 4년제 대학이 100% 참여하는 학술 공동 활용체제를 기반으로 대학이 생산/보유/구독하는 모든 학술자원을 공통으로 이용할 수 있도록 개방된 서비스를 제공한다. 통합 검색을 통한 국내 학위논문/학술논문/단행본 등 유형별 검색이 가능하다(출처 나무위키).

2) 서로 독립된 n개의 모집단위 중위수 차이에 관한 검정 방법. n개의 독립된 모집단들 사이의 변화를 알 수 있다.

 

경남 진주소방서_ 반명준 :  emtbmj@korea.kr

 

<본 내용은 소방 조직의 소통과 발전을 위해 베테랑 소방관 등 분야 전문가들이 함께 2019년 5월 창간한 신개념 소방전문 월간 매거진 ‘119플러스’ 2024년 10월 호에서도 만나볼 수 있습니다.>

구급활동일지 평가소견 텍스트 마이닝 분석 관련기사목록
광고
119talktalk
[119talktalk] 취임 6개월 맞은 허석곤 소방청장 “질적 성장으로 국민 안전 지킬 것”
1/3
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고