Journal of the Korean Institute of Landscape Architecture
The Korean Institute of Landscape Architecture
Article

소셜미디어 사진 게시물의 딥러닝을 활용한 도시공원 이용자 활동 이미지 분류모델 개발

이주경*, 손용훈**,***
Ju-Kyung Lee*, Yong-Hoon Son**,***
*서울대학교 협동과정 조경학 박사수료
**서울대학교 환경대학원 환경조경학과 부교수
***환경계획연구소 겸무연구원
*Ph.D. Candidate, Interdisciplinary Program in Landscape Architecture, Seoul National University
**Associate Professor, Graduate School of Environment Studies, Seoul National University
***Environmental Planning Institute Adjunct Researcher
Corresponding author : Yong-Hoon Son, Associate Professor, Graduate, School of Environment Studies, Seoul National University, Seoul, 08826, Korea, Tel.: +82-2-880-8107, E-mail: sonyh@snu.ac.kr

이 논문은 서울대 환경계획연구소의 지원을 받았습니다. This work was supported by SNU Environmental Planning Institute.

© Copyright 2022 The Korean Institute of Landscape Architecture. This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Received: Oct 13, 2022; Revised: Nov 16, 2022; Accepted: Nov 16, 2022

Published Online: Dec 31, 2022

국문초록

본 연구의 목적은 인공지능의 딥러닝을 활용하여 소셜미디어에서 공유되는 도시공원 이용자 활동사진을 분류하는 기초 모델을 만드는 것이다. 소셜미디어 데이터는 네이버 검색을 통해 수집된 도시공원 관련 사진들을 수집하여 분류모델에 활용하였다. 도시공원 특성 평가에 활용할 수 있는 지표인 자연성(naturalness), 잠재적 매력성(potential attraction), 활동(activity)을 기반으로 최종 21개의 분류 항목체계를 만들고, 항목별로 네이버에서 공유되는 실제 도시공원 사진을 수집하여 주석이 달린 데이터 세트를 구축했다. 수집한 사진 데이터 세트에 대해 커스텀(cuntom) CNN 모델과 사전 훈련된 CNN의 전이학습 모델을 설계하고 분석하였다. 연구결과, 가장 우수한 성능을 보였던 Xception 전이학습 모델이 최종적으로 도시공원 이용자 활동 이미지 분류모델로 선정되었으며, 그 외 다양한 평가 지표를 통해 모델을 평가했다. 본 연구는 소셜미디어에 공유되는 이용자 사진을 활용하여 도시공원 특성을 평가할 수 있는 지표로서 AI를 구축한 것에 의의가 있다. 딥러닝을 활용한 분류모델은 수동분류에 대한 한계를 보완하고, 대량의 도시공원 사진을 효율적으로 분류할 수 있어서 향후 도시공원의 모니터링 및 관리에 활용할 수 있는 유용한 방법이라고 할 수 있다.

ABSTRACT

This study aims to create a basic model for classifying the activity photos that urban park users shared on social media using Deep Learning through Artificial Intelligence. Regarding the social media data, photos related to urban parks were collected through a Naver search, were collected, and used for the classification model. Based on the indicators of Naturalness, Potential Attraction, and Activity, which can be used to evaluate the characteristics of urban parks, 21 classification categories were created. Urban park photos shared on Naver were collected by category, and annotated datasets were created. A custom CNN model and a transfer learning model utilizing a CNN pre-trained on the collected photo datasets were designed and subsequently analyzed. As a result of the study, the Xception transfer learning model, which demonstrated the best performance, was selected as the urban park user activity image classification model and evaluated through several evaluation indicators. This study is meaningful in that it has built AI as an index that can evaluate the characteristics of urban parks by using user-shared photos on social media. The classification model using Deep Learning mitigates the limitations of manual classification, and it can efficiently classify large amounts of urban park photos. So, it can be said to be a useful method that can be used for the monitoring and management of city parks in the future.

Keywords: 합성곱신경망(CNN); 컴퓨터 비전; 도시공원 평가; 도시공원 이용패턴
Keywords: Convolutional Neural Network (CNN); Computer Vision; Urban Park Evaluation; Patterns of Urban Park Use

1. 서론

도시공원은 다양한 생태적, 사회적, 경제적, 건강상의 이점을 제공함으로써 인간의 삶의 질에 기여하고 있다(Chiesura, 2004; Kaczynski and Henderson, 2007; Millward and Sabir, 2011; Schipperijn et al., 2013; Cetin, 2015; Chiang and Li, 2019; Schnell et al., 2019). 2020년 COVID-19로 인한 팬데믹(pandemic) 상황에서도 도시공원에 대한 이용 욕구가 증가했음을 확인했고, 새로운 공원의 기능과 이용 패턴을 발견했다(Alizadehtazi et al., 2020; Larson et al., 2021; Geng et al., 2021; Jeong, 2021). 현대에는 사회환경과 생활방식이 급격하게 변화하고 있으며, 이에 따라 도시공원에 대한 인식과 이용방식도 변화하고 있다. 하지만 변화하는 도시공원의 이용을 효율적으로 평가하는 의사결정 및 모니터링 도구는 아직 부족하다고 할 수 있다. 도시공원 이용은 거주자의 삶에서 도시공원의 실제 방문을 의미하며(Lyu and Zhang, 2019), 실제 방문에 대한 수요 데이터를 수집하고 분석하는 것이 중요하다. 이와 관련하여 현장 경험이 드러나는 이용자 참여 데이터인 소셜미디어는 인간과 환경 상호작용의 패턴을 평가하는 도구라고 할 수 있다(Sinclair et al., 2018).

소셜미디어의 사용이 일상화됨으로써 사람들은 글 및 사진, 동영상 등을 통해 본인의 활동이나 의견을 표출 및 교류하고 있으며, 이로 인해서 방대한 양의 데이터가 생산되고 있다. 사진은 이용자가 어떠한 주제를 바라보는 개인적인 경험의 표현이기 때문에, 이용자 수요를 파악하는 독립적인 데이터 소스로 활용할 수 있다(Stedman et al. 2014). 특히, 소셜미디어에 게시된 사진은 사람들이 환경을 인식하는 방식, 환경과 상호 작용하는 방식, 특정 장소에 대한 느끼는 감정에 대한 데이터를 제공한다(Goodchild, 2007; Egorova, 2021). 따라서 소셜미디어에 게시되는 도시공원 사진은 사진 촬영이라는 활동을 통해 도시공원을 향유하는 여러 방식을 표현하는 것으로, 사진 게시물에 대한 주제를 파악하고 분류함으로써 도시공원 이용자의 활동을 다각적으로 파악할 수 있다.

조경 및 생태학 분야에서 이루어진 사진 분석방법으로는 연구자가 수동으로 사진을 분류하거나 사진 속의 객체를 구분하여 의미와 내용을 분석하는 방법(Martínez Pastur et al., 2015; Angradi et al., 2018; Oteros-Rozas et al., 2018), 사진의 위치정보를 활용하여 이용패턴을 분석하는 방법(Wood et al., 2013; Dunkel, 2015; García-Palomares et al., 2015), 사진에 태그된 텍스트를 이용하여 인식 및 감성을 분석하는 방법(Chae, 2017; Lee and Son, 2021), 뷰쉐드(viewshade)와 같이 지리 데이터를 반영하여 계산된 경관 인자와 사진을 결합하는 방법이 있다(Tenerelli et al., 2017; Yoshimura and Hiura, 2017).

최근 인공지능의 발달에 따라 생태계서비스 평가 분야에서 인공지능 및 기계학습 기반의 분석이 시도되고 있다. 대표적으로 기계학습을 통해 사진을 설명하는 키워드를 자동 레이블링하는 방법을 통해 생태계서비스 기능 중 생태계로부터 사람들이 얻는 편익을 나타내는(MA, 2005) 문화생태계서비스(Curtal Ecosystem Services, CES)를 평가하는 연구들이 있다(Gosal and Ziv, 2020; Kim and Son, 2021). 사진 내용분석에 대한 관심이 높아지고 있으며, 시각적 데이터를 처리하는 인공지능 기술인 컴퓨터 비전(computer vision)의 향상으로 여러 분야에서 이미지를 처리해 유의미한 정보를 추출하고 있다. 조경 및 생태학 분야에서도 인공지능을 도입하여 자연과 인간의 관계와 패턴을 연구하는 시도가 있지만, 도시민의 일상과 밀접하게 연관된 도시공원의 이용 및 관리에 효율적인 모델 연구는 부족하다. 특히, 소셜미디어를 통해 게시되는 풍부한 양의 도시공원 이용 사진을 체계적이고 정량적으로 활용하기 위한 연구가 필요하다.

도시공원은「국토의 계획 및 이용에 관한 법률」에 따라 도시계획시설로 지정된 곳으로, 공원 내 시설 및 활동이 큰 맥락에서 정형화되어 있으므로, 가시적인 특성에서도 어느 정도 공통점이 존재한다. 사진에서 나타나는 도시공원의 공통적인 특성을 훈련한다면, 도시공원은 인공지능을 활용한 사진 분류가 가능한 공간이라고 가정할 수 있다. 도시공원에서 공유되는 이용자 활동을 식별하기 위해서는 우선 신뢰할 수 있는 이미지 분류가 수행되어야 한다. 인공지능을 활용한 모델은 객관적이고 정략적인 분석이 바탕이 되므로, 대량의 사진을 분류하는 데에 있어서 사람이 수동으로 분류하거나 여러 사람이 작업하는 데에서 발생할 수 있는 오차와 편차를 줄여주기 때문에 작업의 효율성을 향상시킨다(Huang and Rust, 2018; Wang et al., 2020). 소셜미디어 사진 게시물에서 여러 도시공원에 공통으로 나타나는 주요 활동을 파악할 수 있는 분류체계를 만들고, 분류체계에 따라 인공지능을 통해 대량의 이용자 사진을 자동으로 분류하는 모델은 도시공원 이용 모니터링을 도모하고, 효율적인 도시공원의 관리까지 이어질 수 있다.

따라서 본 연구는 인공지능을 활용하여 국내 도시공원 평가 지표에 활용할 수 있는 도시공원 이용자 활동 이미지 분류를 위한 기초 모델을 만들고자 한다. 이를 위해 첫째, 소셜미디어의 사진 게시물에서 공원의 이용 및 상태를 분류할 수 있는 속성을 파악하고, 도시공원 이용자 활동 이미지 분류체계를 설정한다. 둘째, 분류 항목에 따라 소셜미디어에서 국내 공원과 관련된 대량의 사진을 수집하여 주석이 달린 데이터 세트를 구성한다. 셋째, 딥러닝 분류모델을 만들고, 모델을 평가한다. 궁극적으로 국내 도시공원에 적용가능하고, 도시공원 이용을 평가할 수 있는 기초 분류모델을 개발하고, 도시공원 이용자 활동 이미지 분류모델의 활용성을 탐색한다.

2. 관련 연구

소셜미디어 기반 도시공원 연구가 지속적으로 증가하면서 기존에는 텍스트 및 사진의 위치정보를 활용한 연구가 많았지만, 최근에는 시각적 정보인 사진을 대상으로 연구하여 도시공원 이용에 대한 깊은 정보를 도출하는 연구가 시도되고 있다. 본 연구는 최근 소셜미디어 사진 게시물과 같이 이용자 참여 데이터를 활용하여 도시공원의 평가 항목 또는 평가를 위한 분류 항목, 시각적 내용분석 방법론이라는 두 가지 측면에서 선행연구를 검토했다.

Zhang et al.(2022)은 공원 방문자의 현장 사진과 설문지, 인터뷰를 통해 도시공원 이용에 대한 인식을 파악했다. 특히, 현장 사진에 대한 내용분석은 사진의 위치정보, 참가자가 지정한 사진 제목, 사진에서 경관적 요소가 차지하는 면적의 비율을 계산했다. 경관적 요소는 ‘지형’, ‘수경관’, ‘식물’, ‘동물’, ‘공원시설’, ‘건물 및 구조’, ‘도로 및 광장’과 같이 크게 7개의 대분류와 21개의 세분류로 설정했고, 4명의 연구원의 판단하에 면적이 20% 이상인 요소를 추출했다. 연구 결과 자연풍경, 나무와 숲, 꽃과 잔디, 호수와 습지, 정자와 갤러리가 모든 그룹의 이용자에게 높은 선호를 보였다. Oteros-Rozas et al.(2018)은 소셜미디어 플랫폼인 Flickr 및 Panoramio에서 수집한 사진에 대한 내용분석을 수행하여 CES와 경관특성 간의 관계를 탐색했다. 사진 내용분석에 사용된 변수는 크게 ‘경관적 특징’과 ‘CES’, ‘활동’이다. ‘경관적 특징’에는 식생유형(나무, 관목, 초원, 잔디), 농업, 목장, 수경관(강, 호수, 연못, 바다, 해변), 바위, 산, 인공시설, 야생동물 등이 해당되었으며, ‘CES’에는 문화유산, 휴양, 레크리에이션, 사회적 기능, 영적인 기능이 포함되었고, ‘활동’은 사람이 있는 사진을 대상으로 낚시, 수영, 산책, 자전거 타기 등이 포함되었다. 사진의 내용분석은 전문 연구원들의 판단 및 교차 확인으로 이루어졌다. Martínez Pastur et al.(2016)은 Panoramio 소셜미디어 플랫폼의 사진을 활용하여 ‘수경관’, ‘식생유형’, ‘보호구역의 존재’, ‘인공시설’, ‘레크리에이션 활동’에 따라 라벨링하고, CES 지표와 관련하여 ‘경관미’, ‘생물종 가치’, ‘레크리에이션 활동’으로 연구원들이 수동으로 분류했다. 이를 통해 사회적 인식에 기반한 CES의 공간적 분포를 분석했다. Chen et al.(2018)은 휴대폰의 GPS를 통한 이용자 빅데이터를 활용하여 도시공원의 이용을 분석했다. 분석에 활용한 공원 특성을 측정하는 변수로 ‘공원크기’, ‘공원유형’, ‘공원시설(운동장, 놀이터, 화장실, 산책로, 서비스 시설, 주차장)’, ‘자연적 요소(산림경관, 수경관)’로 분류했다. 이외의 많은 연구에서도 사진 내용분석을 공원 및 자연경관 특성에 따라 사진에서의 면적이나 개수를 연구자들이 수동으로 계산하여 분류했다(Tveit. 2009; Van Zanten et al., 2016; Clemente et al., 2019; Retka et al., 2019; Muñoz et al., 2020). 연구자가 수동으로 사진을 분류하거나 내용을 분석하는 것은 시간과 인력 면에서 고비용을 요구하고, 개인별 시각 및 이해도의 차이 등으로 정확성에 대한 한계점이 언급되었다. 특히 소셜미디어와 같이 빅데이터는 수동작업에 대한 위험부담이 더 크므로, 자동화 및 정량적인 방법이 요구된다.

소수의 연구에서 수동으로 사진의 콘텐츠를 분석하지 않고, 컴퓨턴 비전 알고리즘을 통해 자동화하는 방법론이 시도되고 있다. Wang et al.(2022)은 FCN(Fully Convolution Network) 모델을 사용하여 소셜미디어에 게시된 도시공원 사진에서 시각적 개체를 의미론적으로 분할하고 추출했다. 분류 항목은 ‘자연적 요소(나무, 풀, 꽃, 물)’와 ‘인공적 요소(도로, 산책로, 운동장, 벤치, 조각상 등)’, ‘사람’으로 분류했으며, 사진에 포함된 분류 항목에 대한 면적 비율을 계산하고, 주성분 분석 및 군집 분석을 통해 최종 4개의 CES 유형을 도출했다. 연구 결과는 도시공원의 레크리에이션 가치, 미적 가치 및 사회적 상호작용 가치를 평가하는 데에 소셜미디어 사진 게시물이 대중 참여 관점에서 효과적이었음을 밝혔다. 온라인 머신러닝 알고리즘인 Google Cloud Vision API를 적용하여 소셜미디어에 게시된 사진의 주요 키워드들을 자동 레이블링(labeling)하고, 군집 분석을 통해 사진의 콘텐츠를 그룹화하는 연구들이 있다(Richards and Tunçer, 2018; Gosal et al., 2019; Gosal and Ziv, 2020; Kim and Son, 2021). Richards and Tunçer(2018)는 플리커에서 수집한 사진을 Google Cloud Vision과 계층적 군집분석을 통해 ‘교통’, ‘식물’, ‘동물’, ‘음식’, ‘사람’, ‘스포츠’, ‘기타 풍경’으로 총 7개로 분류하여 자연과 관련된 사진의 발생을 정량화했다. Kim and Son(2021)은 램블러(Ramblr) 어플리케이션에서 북한산 국립공원과 관련한 사진을 수집했고, Google Cloud Vision API와 군집분석을 수행하여 경관이미지 유형과 비경관이미지 유형으로 우선 구분하고, 경관이미지 유형에 해당하는 사진의 위치정보를 조망점으로 활용하여 가시권 분석을 통해 경관미를 파악했다. 앞서 검토한 인공지능 활용 연구는 주로 사진의 객체 분할 및 자동 레이블링을 활용하여 사진의 콘텐츠를 파악했으며, 사진의 분류는 군집분석을 기반으로 했다. 군집분석은 비지도학습으로 유사성을 기반으로 다수의 객체를 군집으로 나누고 군집의 성격을 파악함으로써 전체적인 데이터 구조를 파악하는 탐색적인 방법이다(Song and Chang, 2010; Km and Kim, 2021). 군집분석은 연구의 주제와 대상지에 따라 데이터 간의 유사성이 변동되기 때문에, 여러 도시공원에 적용했을 때 공원마다 분류 결과가 달라질 수 있다. 여러 도시공원에 대한 장기간 모니터링 및 관리를 위해서는 공통된 체계에 따라 사진을 분류하는 것이 필요하므로, 도시공원에 적합한 분류체계를 만들고 지도학습을 기반으로 하는 분류모델이 적절하다.

관광 분야에서는 소셜미디어에 게시된 관광사진을 대상으로 딥러닝 기반 사진 분류모델을 개발하여 지도학습을 통해 관광활동을 분석한 연구가 다수 있다(Zhang et al., 2019; Wang et al., 2020; Kim et al., 2020; Chen et al., 2020; Kang et al., 2021). 대부분 이미지 인식에 뛰어난 성능을 보이는 딥러닝 기반 이미지 분류모델인 합성곱신경망(convolutional neural networks, CNN)1)을 주로 활용했으며, 대용량의 데이터로 사전에 훈련된 우수한 CNN 모델을 연구목적에 맞게 전이학습(transfer learning)했다. Zhang et al.(2019)은 ResNet-101 모델의 전이학습을 통해 플리커(Flickr)에 게시된 베이징 지역의 사진을 11개 카테고리의 103개의 하위범주에 따라 분류하는 모델을 개발하여 관광객의 행동 및 인식을 분석했다. Wang et al.(2010)은 스마트한 관광지 관리와 더 나은 관광계획 및 의사결정을 지원을 위해 호주의 관광 관련 공식 웹사이트에 게시된 사진을 활용했으며, 6개의 카테고리에 25개의 하위 범주로 Densenet-169과 Xception을 결합한 전이학습모델을 개발했다. Kang et al.,(2021)은 서울 지역에 게시된 플리커 사진을 대상으로 12개 카테고리의 75개의 하위범주에 따라 Inception-V3 전이학습 모델을 사용했으며, Yoon and Kang(2021)도 서울지역의 플리커 사진 게시물을 대상으로 DenseNet-201, Inception-v3, Xception 모델 성능 비교를 통해 최종 선택한 Xception 전이학습 모델을 활용하여 73개의 항목에 다중으로 분류되는 모델을 개발하여 서울 관광특성을 파악했다.

선행연구를 검토한 결과, 먼저 소셜미디어 사진 게시물을 활용한 도시공원의 특성 평가는 크게 세 가지 측면으로 요약할 수 있었다. 동식물, 식생유형, 수경관 등의 자연성을 파악할 수 있는 자연적 요소 및 자연경관, 어린이 놀이터, 산책로, 운동장 등 공원의 잠재적 매력과 관련된 공원시설, 마지막으로 산책, 자전거 타기 등 사람이 포함된 공원 내 활동으로 나눌 수 있다. 세 가지 요소는 본 연구의 도시공원 이용자 사진 분류체계를 설정하는 데에 활용했다. 소셜미디어 사진 게시물에 대한 내용분석을 통해서 도시공원 및 자연경관의 특성을 시각적으로 분석하는 연구는 방법론적으로 제한적이었다. 전통적으로는 도시공원 특성에 따라 사진의 내용을 연구자가 식별하여 수동으로 분류하거나 비율을 계산했는데, 이러한 방법은 빅데이터 분석에 있어서 정확성 및 효율성에 한계가 있었다. 최근 컴퓨터 비전 방법으로 딥러닝 모델을 통한 자동 객체 분할방법과 Google Cloud Vision API를 활용한 자동 레이블링을 통해 사진 내용분석을 하고, 군집분석을 통해 사진을 군집화하여 특성을 분류했다. 군집분석은 비지도학습으로 여러 도시공원에 적용했을 때, 서로 다른 분류 결과를 초래하므로 지도학습을 기반으로 하는 분류모델이 적절하다고 판단했다. 조경 및 생태 분야에서는 지도학습 분류모델을 활용한 적절한 선행연구가 없었고, 관광 분야에서 장소기반의 관광 수요를 파악하기 위한 목적으로 소셜미디어의 사진을 활용하여 지도학습 분류모델을 개발한 연구들이 있었다. 주로 우수한 CNN 딥러닝 모델을 전이학습하여 연구에서 설정한 분류체계에 따라 사진의 장면을 식별하고 분류하는 모델을 개발했다.

따라서 본 연구에서도 시각적 특성에 따라 사진의 객체를 분할하거나 레이블링을 통해 콘텐츠를 분석하지 않고, 사진의 전체 장면 또는 경관이 지도학습을 통해 특정 요소로 인식하여 분류하는 방법을 사용했다. 즉, 도시공원의 특성을 고려한 분류체계를 만들고, 딥러닝 지도학습 방법론인 CNN 모델의 전이학습을 활용하여 분류체계에 따라 사진의 장면을 인식하고 자동으로 분류하는 모델을 개발했다. 이러한 방법은 이용자 사진이 도시공원의 어떤 특성에 해당하는지를 직관적으로 도출할 수 있으며, 여러 도시공원에 대한 장기간 모니터링 및 관리에 더 효율적인 방법이다.

3. 데이터 및 연구 방법

3.1 데이터 수집

도시공원 이용에 대한 사진 데이터는 네이버 검색을 통해 수집했다. 최근 텍스트, 사진, 영상 등 다양한 형식으로 자기 생각이나 일상을 기록하고 공유하고자 하는 욕구가 증가하면서, 많은 사람이 적극적으로 소셜미디어를 활용하는 트렌드가 이어지고 있다. 도시공원은 도시 생활의 일상과 밀접하게 관련이 높은 공간으로(Yi, 2010), 일상 속에서 도시공원 이용에 대한 다양한 경험이 소셜미디어를 통해 공유되고 있다. 모바일 설문조사 플랫폼인 Opensurvey(2022)에서 조사한 ‘소셜미디어․검색포털 트렌드 리포트 2022’에 따르면 네이버는 상대적으로 구글 및 인스타그램, 유튜브 등 다른 플랫폼에 비해 전 연령대에서 고루 사용되고 있고, 정보 탐색에서 네이버 이용률이 가장 높다는 결과가 도출되었다. 특히, 지역 및 공간 정보 탐색에는 네이버가 압도적이었다. 또한, Naver(2021)에서 발표한 ‘2021 네이버 블로그 리포트’에서는 2021년 작성된 블로그 게시물이 3억 개로 전년 대비 약 50% 이상이 증가했으므로 앞으로도 활발한 이용이 기대된다.

네이버는 통합 검색창의 검색을 통해 이용되며, 검색 옵션 설정으로 의미있는 데이터 정제 및 수집이 가능하다. 일 단위의 기간 설정을 통해 시간적 변수를 고려할 수 있고, 사진의 중복을 피할 수 있다. 또한, 출처 옵션을 ‘블로그’, ‘카페’, ‘포토뉴스’, ‘웹’, ‘포스트’, ‘쇼핑’, ‘지식백과’ 중에서 설정할 수 있으므로, ‘포토뉴스’와 ‘웹’, ‘지식백과’와 같이 공공 및 언론기관에서 생성되는 사진과 ‘쇼핑’과 같이 상품 홍보를 위한 사진을 옵션으로 선택하지 않음으로써 사전에 제외할 수 있다. ‘블로그’, ‘카페’, ‘포스트’에서 생성되는 사진은 대부분 이용자 참여 데이터로, 공원을 직접 경험하면서 촬영한 사진일 가능성이 높다. 또한, 도시공원에 대한 경관 및 시설, 활동사진이 다양하게 검색되었기 때문에 본 연구는 네이버를 대상으로 도시공원 이용자 활동 이미지 분류모델을 개발했다.

네이버에 도시공원 이용과 관련된 키워드를 검색하여 파이썬(Python) 3.6.5를 활용한 웹 크롤링을 통해 사진을 수집했다. 최대한 공원에서 실제로 찍힌 이미지를 수집하기 위하여 검색어에 ‘공원’ 키워드를 포함시켰고, 예를 들어 ‘산책로’가 아닌 ‘공원 산책로’를 검색하여 공원 내 산책로 이미지를 수집했다.

분류 항목마다 비슷한 개수의 학습 사진을 수집하는 것이 중요하지만, 상대적으로 덜 일반적인 항목은 수집이 어려울 수 있다. 이에 대응하여 많은 연구에서 분류모델 설계를 위해서는 라벨당 최소 1,000장 이상의 이미지가 필요하고, 가장 적은 라벨의 이미지 수가 가장 많은 라벨의 이미지 수의 10% 이상이어야 한다는 일반적인 원칙이 있다(Google Cloud). 본 연구는 COVID-19 전과 후의 이용 사진을 모두 고려하기 위해 2019년-2021년의 기간을 대상으로 했고, 키워드 검색을 통해 분류 항목에 해당하는 사진을 연구자가 수집 및 분류하여 데이터 세트를 구축했다. 분류 항목별 이미지 수는 차이가 있었지만, 모두 1,000장 이상이며, 최다 및 최소의 이미지 수 차이는 약 29%이다(Figure 1 참조).

jkila-50-6-42-g1
Figure 1. Number of data by classification class
Download Original Figure
3.2 도시공원 이용자 활동 이미지 분류 체계

분류모델 설계를 위해서는 도시공원 이용과 관련한 분류체계를 만들고, 분류 항목에 따른 여러 가시적 특성에 대한 인벤토리 구축이 필요하며, 모델을 훈련하는 데 사용할 수 있는 주석이 달린 사진 데이터 및 코딩 체계가 필요하다. 사진의 분류체계는 사진을 수집하는 목적 및 분류 방법을 정하는 기준이 되기 때문에 개념적인 의미뿐만 아니라 실제 가시적인 특성도 고려해야 한다. 좋은 모델을 위해서는 우선 사람도 명확하게 분류를 판단할 수 있어야 하므로, 분류에 해당하는 이미지의 두드러지는 특성이 잘 훈련되도록 최대한 직관적인 기준을 설정했다.

본 연구에서의 공원 이용 사진 분류체계는 선행연구를 참고하였고, 도시공원 특성 평가에 활용할 수 있는 지표로 크게 자연성(naturalness), 잠재적 매력성(potential attraction), 활동(activity)으로 대분류했다. 각 지표에 해당하는 하위 항목을 Level 1에서 Level 3까지로 분류했다. Level 1은 주제를 대표하는 개념적인 분류군이며, Level 2와 Level 3은 이미지 분류모델을 위한 실제 분류군이다. 다양한 도시공원에 실제로 적용할 수 있는 기초 모델을 구축하는 데 목적을 두었기 때문에, 이미지 분류의 효율성을 고려하여 Level 2의 체계를 만들었다. 앞에서 검토한 소셜미디어 데이터를 활용하여 도시공원 이용특성을 분류했던 선행연구를 참고하되, 수집되는 사진의 상태와 사진의 인식 정도를 고려하면서 사진에서 식별이 가능한 최종 21개의 분류체계를 만들었다(Table 1 참조). Level 3은 개별 공원의 특징 및 세부적인 특성을 반영한 분류군으로, 추후에 기초 모델을 토대로 Level 3까지의 분류모델을 개발할 수 있다.

Table 1. Proxy of urban park user activities
Urban park characteristics indicator Levle 1 Levle 2 Levle 3
Naturalness Nature element Iconic tree Species
Flower Species
Wild animals Species
Natural scenery Flower field Species
Grass field Species
Wood land Species
Water element Types
Potential attraction Landscaping facilities Trail Types
Lawn square -
Kiosk and pergola Park-specific form
Amusement & sports facilities Playground Types
Fitness equipment Types
Sport field Types
Track -
Iconic building Sculpture Park-specific form
Building Park-specific form
Activity User activities Riding Cycling, kickboard, skateboard, etc.
Picnic Picnicking, camping, etc.
Dog-walking -
Event -
Portrait Selfi and portrait Selfi, wedding, standing, playing, etc.
Download Excel Table

분류 항목별 대표 사진은 Figure 2와 같다. 첫 번째 분류는 자연성(naturalness) 지표와 관련된 항목으로, ‘자연요소(nature element)’와 ‘자연경관(natural scenery)’으로 분류했다. ‘자연요소’는 생물 종 관찰 및 감상을 목적으로 촬영한 이미지들로 ‘상징적 나무(iconic tree)’, ‘꽃(flower)’, ‘야생 동물(wild animals)’이 해당하고, 생물 종에 따라서 이미지를 분류할 수 있다. 본 연구에서 ‘자연요소(nature element)’의 ‘상징적 나무(iconic tree)’는 주변 배경과 대비하여 특징적인 한 그루 또는 소수의 나무를 촬영한 사진들이고, ‘꽃(flower)’은 꽃을 근접해서 촬영한 접사 사진이다. ‘야생 동물(wild animals)’은 그 종에 따라 다양한 형태를 가지므로 대표적으로 새를 촬영한 사진들로 구축했다. ‘자연경관(natural scenery)’은 도시공원의 자연적 풍경을 향유하는 개념으로, ‘꽃밭(flower field)’, ‘풀밭(grass field)’, ‘수림지(woodland)’, ‘수경관(water element)’으로 분류했다. 도시공원에서 촬영되는 ‘풀밭(grass field)’은 주로 가을에 여러해살이풀인 핑크뮬리와 갈대속에 해당하는 식물이었어서, 이에 해당하는 식물의 경관 이미지를 수집했고, ‘수림지(woodland)’는 나무들이 군집하고 있는 이미지에 해당하며, ‘꽃밭(flower field)’과 ‘수경관(water element)’은 종과 유형에 상관없이 이미지를 구축했다.

jkila-50-6-42-g2
Figure 2. Representative images by category
Download Original Figure

두 번째 분류는 잠재적 매력성(potential attraction) 지표와 관련된 항목으로, ‘조경시설(landscaping facilities)’, ‘놀이 및 스포츠시설(amusement & sports facilities)’, ‘상징적 건물(iconic building)’로 분류했다. ‘조경시설(landscaping facilities)’에는 ‘산책로(trail)’, ‘잔디광장(lawn square)’, ‘정자 및 퍼골라(kiosk and pergola)’로 분류군을 설정했고, 유형과 형태에 상관없이 공원의 다양한 형태의 조경시설을 포함했다. ‘놀이 및 스포츠시설(amusement & sports facilities)’은 ‘놀이터(playground)’, ‘체력단련 기구(fitness equipment)’, ‘운동장(sport field)’, ‘트랙(track)’으로 설정했고, ‘놀이터(playground)’는 놀이기구가 포함된 사진이며, ‘체력단련 기구(fitness equipment)’는 규격화된 체력단련 시설이 포함된 사진, ‘운동장(sport field)’은 배드민턴장, 테니스장, 농구장과 같은 형태 및 사이즈가 규격화된 운동장 사진이며, ‘트랙(track)’ 또한 일정한 형태의 육상트랙에 해당한다. ‘상징적 건물(iconic building)’은 ‘조각상(sculpture)’과 ‘건물(building)’로 분류했으며, ‘조각상(sculpture)’은 소재가 석재인 석상을 중심으로 이미지를 구축했고, ‘건물(Iconic building)’은 올림픽공원의 ‘평화의 문’과 같은 잘 알려진 대표 건물들을 대상으로 했다.

세 번째 분류는 경관보다는 인물 중심의 ‘활동(activities)’을 파악하기 위한 것으로, ‘이용자 활동(user activities)’과 ‘인물사진(portrait)’으로 분류했다. ‘이용자 활동(user activities)’은 가시적 특성이 뚜렷한 공원활동을 분류군으로 설정했으며, ‘자전거 타기(riding)’는 자전거가 인식되는 사진들이며, ‘피크닉(picnic)’은 텐트 및 돗자리가 존재하는 활동사진, ‘강아지 산책(dog-walking)’은 반려견이 인식되는 사진들이고, ‘행사(event)’는 공원 내에 축제 및 행사로 사람이 밀집하고 있는 사진을 중심으로 구축했다. ‘인물사진(portrait)’은 셀카를 포함하여 특별한 활동을 파악할 수 없는 인물 중심의 사진들로, 기타 인물사진들을 모두 포함하는 분류군이다. 사진은 정지영상이기 때문에 특정한 배경이나 도구가 없이 단순 인물 중심의 사진으로 사람의 실제 활동을 파악하기 어렵다. 예를 들어 서있는 인물사진으로 걸으며 산책하는지, 달리고 있는지, 운동 중인지, 단순 포즈인지 파악하기 어렵듯이, 사진의 장면으로 실제 활동을 분류하기 어렵다는 점은 연구의 한계이자 과제이다.

최종적으로 ‘자연성(naturalness)’은 도시공원 내에 존재하는 생물 종에 대한 관찰 및 감상이나 공원 내 자연적 풍경 향유와 관련된 지표이고, ‘잠재적 매력성(potential attraction)’은 도시공원 내에서 느끼는 매력적인 공간 및 시설과 관련되며, ‘활동(activities)’은 보다 세밀한 분류가 필요하지만, 도시공원에서의 주요 활동과 관련된 지표라고 할 수 있다.

3.3 지도학습: CNN(Convolution Neural Network)의 활용

인공지능의 핵심기술인 딥러닝에는 크게 지도학습(supervised learning)과 비지도학습(unsupervised learning)으로 기술이 구분된다(Jang and Chung, 2019). 지도학습은 레이블(lable) 즉, 정답이 지정된 데이터를 이용하여 모델을 학습하는 방식이고, 비지도학습은 레이블이 지정되지 않은 정답을 모르는 데이터를 이용하여 데이터 자체의 특징을 스스로 학습하는 방법이다(LeCun et al., 2015). 지도학습은 새로운 데이터가 입력되었을 때 정답을 예측하는 문제와 같이 회귀분석이나 분류에 주로 적용되며, 비지도학습은 예측의 목적이 아닌 데이터의 구성 및 특징을 밝히는 목적으로 군집분석에 주로 이용된다(Jiang et al., 2020; Rajoub, 2020). 지도학습은 주제를 명확하게 구분하여 미리 정답을 정의할 수 있는 문제에 적합하며, 비지도학습은 모든 문제에 적용이 되지만, 정답이 있는 문제에서 지도학습보다 정확도가 떨어지는 경우가 많고, 문제 환경에 따라 결과 구성이 달라질 수 있다. 그래서 명확성을 위해 상용화된 머신러닝 또는 딥러닝에는 지도학습이 많다(LeCun et al., 2015; MDITAC, 2017). 대량의 도시공원 이용자 활동 이미지를 통해 다양한 공원의 특성을 평가하기 위해서는 우선 통일된 체계로 명확하게 분류하는 것이 중요하므로, 지도학습을 이용하여 이미지를 분류했다. 확률값이 낮아 분류가 제대로 이루어지지 않는 새로운 활동을 발견하면, 그에 맞는 데이터 세트를 구축하여 모델을 발전시킬 수 있다.

연구에 활용하는 CNN(convolution neural network)도 지도학습에 속한다. 합성곱 신경망인 CNN은 이미지 및 비디오를 사용한 딥러닝에 가장 많이 사용하는 알고리즘 중 하나로, 이미지 처리에 우수한 성능을 보이는 신경망이다. 즉, 합성곱(convolution) 연산으로 이미지의 가장 두드러지는 특징을 추출하는 과정이다. CNN은 크게 이미지의 특징을 추출하는 영역과 분류하는 영역으로 구분된다. 특징 추출 영역은 합성곱층(convolution layer)과 풀링층(pooling layer)을 여러 겹으로 쌓는 형태(conv+maxpool)로 구성되어 있고, 분류하는 영역은 완전 연결 계층(Fully connected layer)으로 통계적 회귀분석에 해당하며 확률값으로 이미지를 분류한다. 확률값을 대상 이미지에 대한 모델의 신뢰도로 간주하고 확률이 가장 높은 클래스에 분류된다.

딥러닝 모델의 층(layer)을 깊게 설계하고, 손실 최소화, 학습 가속화 및 과적합 방지를 위해 적절한 함수들을 선택하여 사용했다. 본 연구는 입력 신호의 총합을 출력 신호로 변환하는 함수인 활성화 함수(activation function)에 대해 은닉층(hidden layer)에서는 기울기 소실 현상(vanishing gradient) 문제해결 및 높은 학습 효율성을 위한 비선형 함수인 ReLu를 사용했으며(LeCun et al., 2015), 출력층(Output layer)에서는 세 개 이상으로 분류하는 다중 클래스 분류에서 주로 사용되는 Softmax 함수를 사용했다. Softmax는 기울기 소실 현상(vanishing gradient) 문제해결 및 높은 학습 효율성을 위한 비선형 함수이며(Wang et al., 2021; Praveenkumar and Muthusamy, 2022), 확률의 총합이 1이므로, 어떤 분류에 속할 확률이 가장 높을지를 쉽게 인지할 수 있다. 실제값과 예측값의 오차를 표현하는 지표인 손실 함수(loss function)는 평균 제곱 오차(mean squared error, MSE)를 사용했는데, 이 함수는 단순히 실제 데이터와 예측 데이터 편차의 제곱 합인 오차제곱합(SSE)을 데이터의 크기로 나눠 평균으로 만든 것으로, 회귀 모델에 주로 사용되며, 빅데이터에서 기하급수적으로 커지는 오차를 조정하는데 우수한 함수로(Aghdam and Heravi, 2017), 대량의 이미지를 분류하는 본 연구에 활용했다. 또한, 손실 함수를 최소화하는 매개변수를 찾기 위한 알고리즘으로 아담(adaptive moment estimation, Adam)을 사용했다. 아담은 각각의 변수별로 학습률이 달라지게 조절하는 최적화 알고리즘으로 많은 개발자가 아담을 활용하고 있고, 다양한 딥러닝 아키텍처(architecture)에서 잘 작동하는 알고리즘으로 증명되어 왔다(Jais et al., 2019; Nanni et al., 2021). 본 연구는 훈련 횟수인 에포크(epoch)를 최대 100개의 주기로 수행하도록 허용했으며, 손실이 감소하지 않으면 학습을 중단하게 하여 오랜 훈련 시간으로 인한 과적합을 방지했다. 또한, 조기 종료 후 최상의 모델을 저장하여 그 모델을 다시 불러들여 학습을 재개할 수 있도록 하였다.

CNN은 구글(Google)에서 만든 딥러닝 오픈소스 소프트웨어 라이브러리인 텐서플로(TensorFlow)를 사용했다. 텐서플로는 현재 가장 인기 있는 딥러닝 라이브러리 중 하나로 사용자가 딥러닝 프로그램을 쉽게 구현할 수 있도록 다양한 기능을 제공하며, 버전은 TensorFlow 2.3.0과 keras 2.4.3을 통해 구현했다.

3.4 모델 구성 및 평가방법

도시공원 이용자 활동 이미지 분류모델을 만들기 위해 먼저 일부 분류 항목에 대해 처음부터 훈련하여 모델을 직접 구축하는 커스텀(custom) CNN 모델(이하, 커스텀 CNN 모델)을 만들면서 어떤 데이터 세트가 어떻게 모델을 활용하는지를 파악하고, 분류 항목 추가와 더불어 함수 및 매개변수를 조정하면서 정확도 80% 이상을 목표로 모델을 설계했다. 커스텀 CNN 모델에 사용한 함수 및 매개변수를 참고로, 사전 훈련된 CNN 모델 아키텍처를 통해 전이학습(transfer learning)을 진행했고, 우수한 성능을 보이는 모델을 선택했다.

전이학습(transfer learning)이란 특정 분야에서 학습된 모델의 신경망 일부를 새로운 분야에서 사용되는 신경망의 학습에 이용하는 것을 의미하며, 사전에 훈련된 모델의 일부를 가져온 후 그 아래에 원하는 출력값을 갖는 신경망을 추가하는 방식으로 구현된다(Vesal et al., 2018; Yoon and Kang, 2021). 즉, 이미 대용량의 데이터와 여러 실험으로 만들어진 모델을 학습한 가중치를 추출해서 연구하고자 하는 모델에 맞게 재보정해서 사용하는 것이다. 커스텀 CNN 모델은 사전 훈련된 모델만큼 많은 데이터를 확보하기 힘들며, 대용량의 데이터를 계산하거나 복잡한 신경망 구성에 있어서 한계가 있다. 또한, 사전 훈련된 CNN 모델은 분류를 위해 일반적인 시각적인 특성이 많이 훈련되었으므로, 전이학습을 통해 학습하는 방법이 더 높은 정확도를 기대할 수 있기에 많은 연구에서 다양한 데이터를 대상으로 전이학습된 사전모델을 활용하고 있다(Ilic et al., 2019; Chen et al., 2020; Yoon and Kang, 2021).

사전 훈련된 CNN 모델 아키텍처는 우수한 성능을 보이고, 다양한 분야의 전이학습 연구에 활용되고 있는 모델인 DenseNet 201, Inception v3, Xception을 선택했다. DenseNet 201은 각 층(layer)을 다른 모든 층에 연결하는 방법으로, 다른 층 특징의 재사용으로 네트워크 잠재력을 강화하여 효율이 높은 압축모델을 생성한다(Huang et al., 2017). Inception v3은 GoogleNet을 응용한 것으로, 연산의 복잡성을 낮추고, 파라미터(parameter) 수를 줄임으로써 학습 속도를 향상시키고, 정보 손실을 방지하면서 과적합 문제를 완화한 모델이다(Szegedy et al., 2016). Xception은 Inception에서 발전된 모델로, 신경망의 깊이별 분리 가능한 합성곱의 방법으로 더 큰 이미지 데이터 세트에서 Inception v3보다 우수한 성능을 보였다(Chollet, 2017).

커스텀 CNN 모델 및 사전 훈련된 CNN 모델 평가는 테스트 데이터의 정확도 및 손실과 학습 시간을 고려하여 선택했다. 최종 선택한 모델의 평가는 각 분류항목에 대해 정밀도(precision), 재현율(recall), F1점수(F1-score)를 각각 구하고, 그 평균값으로 전체 모형의 성능을 평가했다. 정밀도는 참(true)이라고 예측한 비율 중 실제로 참(true)의 데이터 비율로, 모델 예측을 기준으로 한다. 재현율은 실제 참(true)인 데이터 중 모델이 참(true)이라고 예측한 비율로 정답 데이터를 기준으로 한다. 즉, 정밀도가 높으면 실제 거짓(false)인 데이터를 참(true)이라고 예측한 값이 낮은 것이며, 재현율이 높으면 실제 참(true)인 데이터를 거짓(false)이라고 예측한 값이 낮은 것을 의미한다. 두 지표 모두 값이 높을수록 좋으며, 상호보완적으로 사용할 수 있으므로 함께 고려해서 모델을 평가해야 한다. F1점수는 정밀도와 재현율의 조화평균값으로, 분류 항목 간 이미지 수가 불균형할 때 주로 활용되기 때문에 본 연구에서는 최종적으로 F1점수로 성능을 평가하는 것이 바람직하다. 또한, 혼돈 행렬(confusion matrix)을 정규화하여 시각화함으로써 각 분류 항목의 성능을 확인하고, 도시공원 이용자 활동 이미지 분류 항목의 적합성을 파악했다. 본 연구는 총 40,560장의 레이블이 지정된 이미지의 70%를 훈련 데이터로, 30%를 테스트 데이터로 나누어 모델을 훈련하였고, 검증을 위한 데이터는 각 분류 항목별 훈련 데이터와 겹치지 않는 20장의 이미지로 구성하였다.

4. 연구 결과

4.1 CNN을 활용한 분류모델 개발

초기 설계한 커스텀 CNN 모델에서 활용한 모델 파라미터를 사용하여 배치 사이즈(batch size) 4,000, 학습률(learning rate) 0.00001로 지정하였다. 또한, 커스텀 CNN 모델에서 입력되는 이미지 사이즈에 대한 훈련 결과 변화가 크게 없었기 때문에, 시간 단축을 위해서 모델별로 최소 이미지 사이즈를 사용했다. Xception 모델은(71, 71, 3)으로, Inception v3은 (75, 75, 3), DenseNet 201은 (56, 56, 3)으로 조정하여 입력하였다. 각 사전 훈련된 CNN모델에서 분류층(classification layer)을 제거하고 50개의 완전 연결 계층(fully connected layer)과 분류 개수인 21개의 뉴런이 있는 출력층을 추가하여 재보정했다. 또한, 가중치는 대규모 이미지 데이터 세트인 ImageNet으로 전이학습하고, 마지막 출력을 softmax 함수를 사용하여 21가지 분류를 수행했다.

각 모델의 분류 성능값은 Table 2Figure 3과 같다. 검증 데이터에 대한 손실인 validation loss를 보면 Xception, DenseNet 201, Inception v3, 커스텀 CNN 모델순으로 낮았다. 훈련 이미지가 가장 적기 때문에 커스텀 CNN 모델이 가장 적은 훈련 시간이 소요되었고, 다음으로 DenseNet 201, Xception이 3-5시간 정도, Inception v3가 10시간으로 가장 많은 훈련 시간이 소요되었다. 본 연구에서는 분류 성능이 가장 우수하고, 사전 모델 중에서 두 번째로 시간이 적게 소요되는 Xception 전이학습 모델을 도시공원 이용자 활동 이미지 분류모델로 최종 선택했다. 최종 모델의 구성은 Figure 4와 같으며, 21개의 카테고리로 분류된 도시공원의 사진을 Xception 모델에 입력시켜 기존 모델의 가중치로 학습시키고, 마지막 분류층을 50개의 완전 연결 계층(fully connected layer)과 원하는 출력값인 21개의 출력층으로 재보정하고, softmax 함수를 사용하여 사진을 분류한다. Xception 전이학습 모델은 11번의 훈련으로 중단되었으며, 달성된 최고의 검증 정확도는 0.9477이었고, 손실은 0.0039로 우수한 성능을 보였다(Table 2 참조).

Table 2. Performance evaluation of models
Train_loss Train_accuracy Val_loss Val_accuracy Fit time
Xception 0.0023 0.9697 0.0039 0.9477 4h 40m (11epoch)
InceptionV3 0.0090 0.8625 0.0105 0.8420 10h (39epoch)
DenseNet201 0.0041 0.9340 0.0108 0.8528 3h(6epoch)
Custom CNN 0.0067 0.9701 0.0105 0.8481 5m (6epoch)
Download Excel Table
jkila-50-6-42-g3
Figure 3. Evaluation the loss of the model
Download Original Figure
jkila-50-6-42-g4
Figure 4. Xception transfer learning model
Download Original Figure
4.2 공원 이미지 분류모델 평가

Xception 전이학습 모델의 정확도(accuracy)는 0.9477, 손실(loss)은 0.0039였으며, 더 정확한 평가를 위해 정밀도 (precision), 재현율(recall), F1점수를 계산하여 모델의 분류 성능을 평가했다.

모델의 정밀도 및 재현율, F1점수는 Table 3과 같으며, 먼저 정밀도와 재현율은 모두 0.8 이상으로 높은 성능을 보이고, 두 지표의 차이가 적은 것으로 보아 모델 성능에 문제가 없는 것을 확인할 수 있다. 상대적으로 ‘picnic’과 ‘dog-walking’의 정밀도와 재현율 차이가 0.2로 가장 크게 나타났다. ‘Picnic’은 모델이 ‘picnic’이라고 예측한 데이터가 실제 정답도 ‘picnic’이었지만, 실제로 ‘picnic’인 데이터를 모델도 ‘picnic’이라고 예측하지 못한 결과가 앞의 경우보다 많다는 것이고, ‘dog-walking’은 그 반대이다. 모델의 입장에서 해석하는지, 실제 정답 데이터의 입장에서 해석하냐에 따라 차이가 있겠지만, F1점수가 모두 0.9로 좋은 성능을 보이는 것을 알 수 있다. 추가적인 지표로 분류 항목 간 불균형 데이터를 극복하기 위해 데이터 개수를 고려하여 평균을 구하는 매크로 평균(macro-average)과 매크로 평균의 확장으로 각 분류 항목에 해당하는 데이터의 개수에 가중치를 주어 평균을 구하는 가중 평균(weighted average)의 값도 도출했다. 궁극적으로 F1점수, 매크로 평균, 가중 평균 모두 0.9 이상의 값이 도출되었으며 우수한 분류모델이라고 할 수 있다.

Table 3. Precision, recall, F1-score for each class and macro avg, weighted avg for the model
Class_name Precision Recall F1-score
Water_element 1 1 1
Flower 1 1 1
Flower_field 1 1 1
Kiosk_and_pergola 1 1 1
Building 1 1 1
Fitness_equipment 1 0.9 1
Sports_field 0.9 1 1
Grass_field 1 0.9 0.9
Riding 1 0.9 0.9
Selfi_and_portrait 1 0.9 0.9
Track 1 0.9 0.9
Event 0.9 1 0.9
Iconic_tree 0.9 1 0.9
Lawn_square 0.9 1 0.9
Playground 0.9 1 0.9
Trail 0.9 1 0.9
Bird 0.9 0.9 0.9
Sculpture 0.9 0.9 0.9
Woodland 0.9 0.9 0.9
Picnic 1 0.8 0.9
Dog_walking 0.8 0.9 0.9
Accuracy - - 0.9
Macro avg 0.9 0.9 0.9
Weighted avg 0.9 0.9 0.9
Download Excel Table

분류 항목 간 결과를 보기 위해 테스트 데이터의 결과 값을 혼동 행렬(confusion matrix)로 시각화하였다(Figure 5 참조). 결과값은 정답을 맞힌 개수를 확률값으로 정규화하여 보기 쉽게 표현했다. 정확도가 0.9477로 대부분 항목이 높은 값으로 예측되는 것을 볼 수 있지만, 일부 틀리게 예측되는 분류 항목이 있다. 가중 평균(weighted average)값인 0.9보다 낮은 확률의 정확성을 보이는 분류군으로 picnic(0.801), track(0.864), grass_field(0.872), bird(0.872), sculpture(0.883)가 해당한다. 각 항목당 가장 큰 점수의 오차를 보이는 항목을 살펴보면, picnic은 playground와 0.098의 확률로 오차가 발생했으며, track은 trail과 0.1의 확률로 오차가 발생했고, grass_field는 lawn_square와 0.076의 확률로, bird는 dog_walking과 0.075의 확률, sculpture는 iconic_tree와 0.44의 확률로 오차가 발생했다. 예측이 틀린 이미지를 살펴보면 약 10%의 확률로 오차가 발생한 picnic과 playground는 picnic의 텐트와 돗자리의 형태가 놀이기구로 인식한 것으로 보이며, track과 trail은 트랙의 라인이 뚜렷하지 않아 산책로로 인식한 것으로 보인다. 약 8%의 오차를 보인 grass_field와 lawn_square는 가을에 볼 수 있는 여러해살이풀의 풀밭(grass_field)과 관리된 잔디광장(lawn_square) 이미지 사이에서 풀이라는 공통적 속성에서 기인한 것으로 판단되며, bird와 dog_walking은 동물 인식에서 기인한 것으로 보인다. 약 5%의 오차를 보이는 sculpture와 iconic_tree는 두 분류 모두 배경과 대비되는 특성이 있는데, 숲이 배경인 sculpture 사진이 주로 잘못 예측되고 있었다. 따라서 해당 분류 항목의 개선을 하고자 한다면, 해당 이미지의 데이터를 더 모아서 특징을 명확히 하거나, 구별하기 위한 추가적인 조치가 필요하다.

jkila-50-6-42-g5
Figure 5. Confusion matrix visualization
Download Original Figure

5. 결론

본 연구는 소셜미디어에 게시된 사진을 기반으로 도시공원 이용자 활동 이미지를 분류하는 기초 모델을 인공지능인 딥러닝을 통해 만들었다. 먼저 도시공원 특성 평가에 활용할 수 있는 지표인 자연성(naturalness), 잠재적 매력성(potential attraction), 활동(activity)을 기반으로 21개의 분류 항목체계를 만들고, 항목별로 소셜미디어에서 공유되는 실제 도시공원 사진을 수집하여 인벤토리를 구축했으며, Xception 전이학습 모델을 통해 우수한 성능을 발휘하는 분류모델을 만들었다.

도시공원을 포함한 자연환경에서 이용자가 직접 촬영한 사진은 환경과 상호작용하며 다양한 감정 및 의견을 내포하고 있으므로, 이용자의 경험과 행동을 이해하기 위한 데이터로서 많은 연구에서 활용되었다. 그러나 도시공원 관리 및 조경 분야에서 기존의 전통적인 사진 분석방법에는 몇 가지 한계에 직면하고 있다. 분석방법이 대부분 수동 접근 방식으로, 주관적인 해석에 따라 일관성 및 신뢰성에 부정적인 문제가 발생한다. 또한, 시각적 내러티브를 통해 사진의 내용을 식별하려면 높은 수준의 전문가 참여가 필요하고, 수동 데이터 처리에서 분석이 가능한 사진의 수도 제한적이다. 따라서 전통적인 방법은 연구자 및 실무자가 이용자 사진을 표준화된 방법으로 체계적으로 관리하는 데에 한계가 있다. 기존 방법과 비교하여 인공지능 접근 방식은 대용량의 데이터를 처리하고, 인간의 개입을 최소화하며, 자동화된 모델은 사진을 활용하는 연구 및 업무의 효율성을 높일 수 있다.

본 연구는 조경 학계 및 도시공원 관리에 몇 가지 기여를 한다. 첫째, 소셜미디어 사진 게시물에서 식별이 가능한 도시공원 이용 및 특성과 관련된 지표를 개발했다. 선행연구 검토를 통해 개념적인 의미의 지표를 설정하고, 하위범주로 가시적 특성을 고려하여 사진 분류를 위한 세부지표를 개발했다. 분류지표는 여러 도시공원의 특성 파악 및 비교에 활용할 수 있으며, 가시적 특성의 기준은 다른 대상지의 분류체계 설정에도 참고할 수 있다. 둘째, 딥러닝을 활용하여 소셜미디어 사진 게시물에서 도시공원 특성을 평가하기 위해 수행된 첫 번째 해결책으로, 신뢰할 수 있는 도시공원 이용자 활동 이미지 분류를 위한 AI를 구축한 것에 의의가 있다. AI 알고리즘을 통해 도시공원과 같은 외부 자연환경 식별의 가능성을 보여줌으로써 조경 분야에 방법론적인 기여를 제공했으며, 본 연구의 분류모델은 향후 고도화된 도시공원 평가의 기초 컴퓨터 모듈이 될 수 있다. 셋째, 객관적이고 정량적인 인공지능 모델은 실제 도시공원의 모니터링 및 관리업무의 효율성 향상에 기여할 수 있으며, 분류 결과는 도시공원 의사결정을 위한 도구로 활용될 수 있다. 도시공원의 수요를 파악하는 것은 중요한 일이며, 많은 인력 및 비용을 통해 매년 수요조사가 이루어지고 있다. 사람들의 수요 파악이 가능한 소셜미디어 사진 게시물의 자동화된 분류모델은 적은 인력을 활용하여 여러 도시공원에 대해 대량의 사진을 쉽게 분류할 수 있고, 시간과 장소에 제한 없이 주기적으로 이용할 수 있으므로 경제적이다. 분류 결과는 도시공원의 수요를 직관적으로 파악하는 데 도움이 되며, 결과의 누적은 도시공원의 시계열적 수요 변화를 파악할 수 있으므로, 도시공원의 계획 및 관리에 활용할 수 있다. 또한, 객관적․정량적인 접근방식으로 강력한 의사결정 도구로서의 잠재력이 크다.

본 연구는 주목해야 할 한계점이 있으며, 한계점은 향후 연구 방향을 제시한다. 첫째, 연구의 대상인 소셜미디어 데이터가 자체가 가지는 본질적인 문제가 있다. 연령층, 직업, 지역 등의 편향성 문제, 소셜미디어 간의 격차로 인한 데이터 신뢰성의 문제가 있어 보편적인 수요 특성이라고 단정하기에 한계가 있다. 소셜미디어는 도시공원 평가를 위한 보조재인 것을 이해하고, 공원 및 경관에 대한 이론과 사회․문화․과학적 지표를 결합하여 다각적인 도시공원 평가 연구가 필요하다(Lee and Son, 2021). 둘째, 공원 내 모든 활동을 분류하는 데에 기술적으로 한계가 있었다. 특히, 사진은 정지영상이기 때문에 인물 중심의 사진에서 활동을 식별하는 것은 어려웠으며, 이에 따라 다양한 공원 내 활동을 고려하지 못했다. 궁극적으로 사진의 정지 장면으로 활동 분류는 어려우므로, 추가적인 조사가 필요하다. 셋째, 사진에서는 접근성, 안전, 유지관리, 근린환경 등의 도시공원 요소는 파악하기 힘들다. 따라서 사진에서 파악할 수 있는 요소를 이해하고 다른 조사와 결합해 해석할 수 있을 때, 소셜미디어 사진 게시물과 분류모델이 공원의 수요를 파악할 수 있는 중요한 소스가 될 것이다. 마지막으로, 본 연구의 분류모델을 특정 도시공원 대상지에 실제로 적용하지 못했다는 점이 한계이다. 그러나 Google Vision 및 Clarifai와 같은 소프트웨어를 사용하지 않고, 직접 적용 가능한 딥러닝 분류모델을 만들면서 모델의 분류체계와 구성, 모델의 학습 및 평가방법에 대한 탐구가 가능했다. 구축한 모델은 언제든지 재현 가능하고, 테스트 가능하며, 개선이 가능하다는 이점이 있다. 향후 특정 도시공원들을 대상으로 개발한 분류모델을 적용하면, 공원 내 또는 공원 간 이용 패턴을 파악하여 사람들이 도시공원을 향유하는 방식을 분석할 수 있다. 또한, 대상지 적용을 통해 새로운 주제를 발견하면 피드백을 통해 기존의 분류체계를 발전시킬 수 있으며, 이러한 과정은 최종적으로 도시공원 평가 틀을 제시할 수 있다.

소셜미디어를 대상으로 한 도시공원 이용자 활동 이미지 분류모델이 인간-환경 상호작용 측면에서 도시공원의 시공간적 변화를 모델링하기 위한 중요한 초기 단계라고 생각하며, 도시공원 평가틀과 연관시키면 도시의 녹지공간을 보다 효과적으로 관리할 수 있을 뿐만 아니라 도시의 생물다양성과 시민의 복지를 적절하게 계획하고 보호할 수 있다.

Notes

합성곱(convolutiona)은 하나의 함수와 또 다른 함수를 반전 이동한 값을 서로 곱한 후, 구간에 대해 적분하여 새로운 함수를 만드는 수학 연산자(정보통신용어사전 “https://terms.tta.or.kr/”)이다. 합성곱 신경망(convolutional neural network)은 인공신경망 중 하나로 딥러닝 구조를 가지며, 일반 신경망과 다르게 합성곱 연산을 이용하여 이미지의 공간적인 정보를 유지하면서 특징 추출이 가능한 방법으로 시각적 처리에 탁월한 성능을 보인다.

References

1.

Aghdam, H. H. and E. J. Heravi(2017) Guide to Convolutional Neural Networks. New York, NY: Springer, 10(978-973), 51.

2.

Alizadehtazi, B., K. Tangtrakul, S. Woerdeman, A. Gussenhoven, N. Mostafavi and F. A. Montalto(2020). Urban park usage during the COVID-19 pandemic. Journal of Extreme Events 7(4): 2150008.

3.

Angradi, T. R., J. J. Launspach and R. Debbout(2018) Determining preferences for ecosystem benefits in Great Lakes areas of concern from photographs posted to social media. Journal of Great Lakes Research 44(2): 340-351.
, ,

4.

Cetin, M.(2015) Using GIS analysis to assess urban green space in terms of accessibility: Case study in Kutahya. International Journal of Sustainable Development & World Ecology 22(5): 420-424.

5.

Chae, I. Y.(2017) A Method for Analysis of Preferences of Places Based on Sentimental Analysis Using SNS Data: Case Study on Theme Parks in Seoul, South Korea. Seoul University, 1-92.

6.

Chen, M., D. Arribas-Bel and A. Singleton(2020) Quantifying the characteristics of the local urban environment through geotagged flickr photographs and image recognition. ISPRS International Journal of Geo-Information 9(4): 264.

7.

Chen, Y., X. Liu, W. Gao, R. Y. Wang, Y. Li and W. Tu(2018) Emerging social media data on measuring urban park use. Urban Forestry & Urban Greening 31: 130-141.

8.

Chiang, Y. C. and D. Li(2019) Metric or topological proximity? The associations among proximity to parks, the frequency of residents’ visits to parks, and perceived stress. Urban forestry & Urban Greening, 38, 205-214.

9.

Chiesura, A.(2004) The role of urban parks for the sustainable city. Landscape and Urban Planning, 68(1), 129-138.

10.

Chollet, F.(2017) Xception: Deep Learning with Depthwise Separable Convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1251-1258).

11.

Clemente, P., M. Calvache, P. Antunes, R. Santos, J. O. Cerdeira and M. J. Martins(2019) Combining social media photographs and species distribution models to map cultural ecosystem services: The case of a Natural Park in Portugal. Ecological Indicators 96: 59-68.

12.

Dunkel, A.(2015) Visualizing the perceived environment using crowdsourced photo geodata. Landscape and Urban Planning 142: 173-186.

13.

Egorova, E.(2021) Using textual volunteered geographic information to model nature-based activities: A case study from Aotearoa New Zealand. Journal of Spatial Information Science (23): 25-63.

14.

García-Palomares, J. C., J. Gutiérrez and C. Mínguez(2015) Identification of tourist hot spots based on social networks: A comparative analysis of European metropolises using photo-sharing services and GIS. Applied Geography 63: 408-417.

15.

Geng, D. C., J. Innes, W. Wu and G. Wang(2021) Impacts of COVID-19 pandemic on urban park visitation: A global analysis. Journal of Forestry Research 32(2): 553-567.
, ,

16.

Goodchild, M. F.(2007) Citizens as sensors: The world of volunteered geography. GeoJournal 69(4): 211-221.

17.

Gosal, A. S., I. R. Geijzendorffer, T. Václavík, B. Poulin and G. Ziv(2019) Using social media, machine learning and natural language processing to map multiple recreational beneficiaries. Ecosystem Services 38: 100958.

18.

Gosal, A. S. and G. Ziv(2020) Landscape aesthetics: Spatial modelling and mapping using social media images and machine learning. Ecological Indicators 117: 106638.

19.

Huang, G., Z. Liu, L. Van Der Maaten, and Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 4700-4708).

20.

Huang, M. H. and R. T. Rust(2018) Artificial intelligence in service. Journal of Service Research 21(2): 155-172.

21.

Jais, I. K. M., A. R. Ismail and S. Q. Nisa(2019). Adam optimization algorithm for wide and deep neural network. Knowledge Engineering and Data Science 2(1): 41-46.

22.

Jang, Y. and D. Chung(2019) Technology trend for image analysis based on deep learning. Current Industrial and Technological Trends in Aerospace 17(1): 113-122.

23.

Jiang, T., J. L. Gradus and A. J. Rosellini(2020) Supervised machine learning: A brief primer. Behavior Therapy 51(5): 675-687.
, ,

24.

Jeong, K. R.(2021) An Extended Theory of Planned Behavior Approach to Analyzing the Impact of COVID19 on Urban Park Users’ Behavioral Decision-making. The Graduate School Seoul National University. Master’s thesis.

25.

Kang, Y., N. Cho, S. Park and J. Kim(2021) Exploring Tourism Activities of Tourists and Residents through Convolutional Neural Network-based SNS Photo Classification.

26.

Kim, D., Y. Kang, Y. Park, N. Kim and J. Lee(2020) Understanding tourists’ urban images with geotagged photos using convolutional neural networks. Spatial Information Research 28(2): 241-255.

27.

Ilic, L., M. Sawada and A. Zarzelli(2019) Deep mapping gentrification in a large Canadian city using deep learning and Google Street View. PloS one 14(3): e0212814.
, ,

28.

Kaczynski, A. T. and K. A. Henderson(2007) Environmental correlates of physical activity: A review of evidence about parks and recreation. Leisure Sciences 29(4): 315-354.

29.

Kim, I, H. and J. H. Kim(2021) Multivariate time series clustering of electricity consumption data. Journal of the Korean Data And Information Science Society 32(3): 569-84.

30.

Kim, J. Y. and Y. H. Son(2021) Assessing and mapping the aesthetic value of Bukhansan national park using geotagged images. Journal of the Korean Institute of Landscape Architecture 49(4): 64-73.

31.

Larson, L. R., Z. Zhang, J. I. Oh, W. Beam, S. S. Ogletree, J. N. Bocarro, K. J. Lee, J. M. Casper, J. A. Hipp, L. E. Mullenbach, M. Carusona and M. Wells(2021) Urban park use during the COVID-19 pandemic: Are socially vulnerable communities disproportionately impacted? Frontiers in Sustainable Cities, 3.

32.

Lee, J. K. and Y. H. Son(2021) Perception and appraisal of urban park users using text mining of google maps review-cases of Seoul Forest, Boramae Park, Olympic Park. Journal of the Korean Institute of Landscape Architecture 49(4): 15-29.

33.

LeCun, Y., Y. Bengio and G. Hinton(2015) Deep learning. Nature 521(7553): 436-444.
,

34.

Lyu, F. and L. Zhang(2019) Using multi-source big data to understand the factors affecting urban park use in Wuhan. Urban Forestry & Urban Greening 43: 126367.

35.

MA.(2005). Millennium Ecosystem Assessment. Washington, DC: New Island.

36.

Martínez Pastur, G., P. L. Peri, M. V. Lencinas, M. García-Llorente and B. Martín-López(2016) Spatial patterns of cultural ecosystem services provision in Southern Patagonia. Landscape Ecology 31(2): 383-399.

37.

Medical Device Information and Technology Assistance Center, MDITAC(2017) New Product Development Trend Newsletter: Artificial Intelligence(AI) Healthcare.

38.

Millward, A. A. and S. Sabir(2011) Benefits of a forested urban park: What is the value of Allan Gardens to the city of Toronto, Canada? Landscape and Urban Planning 100(3): 177-188.

39.

Muñoz, L., V. H. Hausner, C. Runge, G. Brown and R. Daigle(2020) Using crowdsourced spatial data from Flickr vs. PPGIS for understanding nature’s contribution to people in Southern Norway. People and Nature 2(2): 437-449.

40.

Nanni, L., G. Maguolo and A. Lumini(2021) Exploiting Adam-like Optimization Algorithms to Improve the Performance of Convolutional Neural Networks. arXiv preprint arXiv:2103.14689.

41.

Oteros-Rozas, E., B. Martín-López, N. Fagerholm, C. Bieling and T. Plieninger(2018) Using social media photos to explore the relation between cultural ecosystem services and landscape features across five European sites. Ecological Indicators 94: 74-86.

42.

Praveenkumar, G. D. and D. Muthusamy(2022) Machine Transfer Learning Deep Softmax Regression Neural Network for Image Classification. In Inventive Communication and Computational Technologies (pp. 695-708). Springer, Singapore.

43.

Rajoub, B.(2020) Supervised and unsupervised learning. In Biomedical Signal Processing and Artificial Intelligence in Healthcare (pp. 51-89). Academic Press.

44.

Retka, J., P. Jepson, R. J. Ladle, A. C. Malhado, F. A. Vieira, I. C. Normande, C. N. Souza, C. Bragagnolo, and R. A. Correia(2019) Assessing cultural ecosystem services of a large marine protected area through social media photographs. Ocean & Coastal Management 176: 40-48.

45.

Richards, D. R., and B. Tunçer(2018) Using image recognition to automate assessment of cultural ecosystem services from social media photographs. Ecosystem Services 31: 318-325.

46.

Schipperijn, J., P. Bentsen, J. Troelsen, M. Toftager and U. K. Stigsdotter(2013) Associations between physical activity and characteristics of urban green space. Urban Forestry & Urban Greening 12(1): 109-116.

47.

Schnell, I., N. Harel and D. Mishori(2019) The benefits of discrete visits in urban parks. Urban Forestry & Urban Greening 41: 179-184.

48.

Sinclair, M., A. Ghermandi and A. M. Sheela(2018) A crowdsourced valuation of recreational ecosystem services using social media data: An application to a tropical wetland in India. Science of the Total Environment 642: 356-365.
,

49.

Song, M. K. and H. Chang(2010) Charaterization of cities in Seoul metropolitan area by cluster analysis. Journal of Korean Society for Geospatial Information Science 18(1): 83-88.

50.

Stedman, R. C., B. L. Amsden, T. M. Beckley and K. G. Tidball(2014) Photo-based methods for understanding place meanings as foundations of attachment. In L. Manzo & P. Devine-Wright (Eds.), Place Attachment: Advances in Theory, Methods and Applications. Abingdon: Routledge.

51.

Szegedy, C., V. Vanhoucke, S. Ioffe, J. Shlens and Z. Wojna(2016) Rethinking the inception architecture for computer vision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2818-2826).

52.

Tenerelli, P., C. Püffel and S. Luque(2017) Spatial assessment of aesthetic services in a complex mountain region: Combining visual landscape properties with crowdsourced geographic information. Landscape Ecology 32(5): 1097-1115.

53.

Tveit, M. S.(2009) Indicators of visual scale as predictors of landscape preference: A comparison between groups. Journal of Environmental Management 90(9): 2882-2888.
,

54.

Van Zanten, B. T., D. B. Van Berkel, R. K. Meentemeyer, J. W. Smith, K. F. Tieskens and P. H. Verburg(2016) Continental-scale quantification of landscape values using social media data. Proceedings of the National Academy of Sciences 113(46): 12974-12979.
, ,

55.

Vesal, S., N. Ravikumar, A. Davari, S. Ellmann and A. Maier(2018) Classification of breast cancer histology images using transfer learning. In International Conference Image Analysis and Recognition (pp. 812-819). Springer, Cham.

56.

Wang, R., J. Luo and S. S. Huang(2020) Developing an artificial intelligence framework for online destination image photos identification. Journal of Destination Marketing & Management 18: 100512.

57.

Wang, S., F. Liu and B. Liu(2021) Escaping the gradient vanishing: Periodic alternatives of softmax in attention mechanism. IEEE Access 9: 168749-168759.

58.

Wang, Y., X. Shi, K. Cheng, J. Zhang and Q. Chang(2022) How do urban park features affect cultural ecosystem services: Quantified evidence for design practices. Urban Forestry & Urban Greening 76: 127713.

59.

Wood, S. A., A. D. Guerry, J. M. Silver and M. Lacayo(2013) Using social media to quantify nature-based tourism and recreation. Scientific Reports 3(1): 1-7.
, ,

60.

Yi, H. M.(2010) Interpreting the Spatial Politics of the Changing Process of Urban Park: Focus on Seoul Childrens Grand Park. The Graduate School Seoul National University. Master’s thesis.

61.

Yoon, J. Y. and Y. O Kang(2021) Tourism scene analysis through CNN-based multi-label transfer learning. Journal of Korean Society for Geospatial Information Science 29(4): 15-26

62.

Yoshimura, N. and T. Hiura(2017) Demand and supply of cultural ecosystem services: Use of geotagged photos to map the aesthetic value of landscapes in Hokkaido. Ecosystem Services 24: 68-78.

63.

Zhang, K., Y. Chen and C. Li(2019) Discovering the tourists’ behaviors and perceptions in a tourism destination by analyzing photos’ visual content with a computer deep learning model: The case of Beijing. Tourism Management 75: 595-608.

64.

Zhang, K., X. Tang, Y. Zhao, B. Huang, L. Huang, M. Liu, E. Luo, Y. Li, T. Jiang, L. Zhang, Y. Wang and J. Wan(2022) Differing perceptions of the youth and the elderly regarding cultural ecosystem services in urban parks: An exploration of the tour experience. Science of The Total Environment 821: 153388.
,

66.

Naver(2021) 2021 Naver Blog Report. https://campaign.naver.com/2021blog/blogreport/

67.

Opensurvey(2022) Social Media·Portal Site Trend Report 2022. https://blog.opensurvey.co.kr/trend report/socialmedia-2022/