GeoXAI를 활용한 서울시 탄소흡수 예측지도 제작
Abstract
With the announcement of the carbon neutral green growth basic plan, it became necessary to calculate carbon absorption at the city level. Because existing methods require a lot of time and budget, research was conducted to indirectly measure the biomass of carbon sinks using artificial intelligence technology and satellite images. However, black box models such as deep learning have high prediction accuracy, but have the disadvantage of making it difficult to understand the process and interpret the results, and the judgment criteria and process for AI prediction results must be verified, which led to the birth of XAI. Therefore, in this study, we aim to produce a carbon uptake prediction map of carbon sinks in Seoul based on GeoXAI, which applies XAI technology to GeoAI using spatial information. XGBoost was used as a machine learning technique, and SHAP was used as an XAI technique. We analyzed the impact of the vegetation index on carbon absorption, identified the vegetation index that has a significant impact on carbon absorption, and created a carbon uptake prediction map for Seoul. It is expected that the method presented in this study can be used to establish plans to achieve carbon neutrality in the future when establishing carbon-neutral green growth plans and urban master plans.
Keywords:
GeoXAI, Carbon Uptake Prediction Map, Vegetation Index, XGBoost, SHAP1. 서론
2023년 3월 21일 2050년 탄소중립을 목표로 하는 탄소중립 녹색성장 기본계획이 발표되었다. 해당 기본계획에는 4대 전략 12대 과제를 포함하고 있다. 이중 부문별 중장기 감축 대책을 살펴보면 건물 부문(1-3)에서 도시 단위 탄소중립을 위해 도시계획 등에 탄소중립 요소를 도입하고자 하고 있다. 이때 계획구역의 탄소 흡수량‧배출량을 조사하도록 하고 계획별 감축 목표 설정, 도시 규모‧유형별 차별화된 계획요소의 반영을 유도하고자 했다. 이때 도시단위에서 도시구역에서의 탄소흡수량을 산정하기 위해서는 현재 도시의 탄소흡수원들의 위치 및 흉고직경과 같은 정보가 필요하지만 현실적으로 도시전체의 탄소흡수원들의 정보를 수집하기에는 많은 시간과 예산이 소요될 것이다. 이에 많은 선행연구에서 위성영상 등을 이용하여 간접적으로 탄소흡수원의 바이오매스를 측정하는 연구를 진행했다. 특히 핀란드, 스웨덴, 미국 등 위성영상을 활용하여 국가 단위의 바이오매스 지도를 구축한 사례들이 있으며, 이때 회귀분석부터 인공신경망 기법까지 활용한 사례가 있다(Kim et al., 2011).
이러한 회귀분석과 같은 화이트박스 모델은 인공신경망과 같은 블랙박스 모델에 비해 설명력은 높지만, 예측 정확도가 다소 낮고, 블랙박스 모형의 경우 화이트박스 모델보다 예측 정확도는 높지만, 결과를 어떻게 도출했는지에 대한 과정의 이해와 해석이 어렵거나 불가능하다는 단점이 있다. AI가 왜 그러한 판단을 내렸는지와 관련된 그 판단 기준 및 과정이 검증되어야 함에 따라 설명 가능한 AI, Explainable AI(XAI) 라는 키워드가 탄생했다.(2022) 연구에서는 기존 선행연구들을 기반으로 공간정보와 다양한 유형 데이터의 융복합에 따른 시너지 효과를 확인하였으며, 융합을 통한 새로운 가치 있는 정보의 창출이 가능하다고 판단하였다. 이러한 특성을 기반으로 공간정보와 AI, 데이터 마이닝 및 고성능 컴퓨팅의 방법 등을 결합하여 의미 있는 지식을 추출하는 것을 GeoAI라고 한다(Alastal and Shaqfa, 2022; Gao, 2021; Hu et al., 2019; Janowicz et al., 2020; Li, 2020; Li and Hsu, 2022; Purbahapsari and Batoarung, 2022; VoPham et al., 2018; Xie, 2020). GeoXAI는 이러한 GeoAI 기술에 XAI기술을 적용하는 AI 시스템이다(Roussel and Böhm, 2023). 결론적으로 복잡한 공간정보 즉 공간 빅데이터에 대한 AI의 분석에 관해 설명을 제공할 수 있는 AI 시스템을 GeoXAI라고 할 수 있다(Graser et al., 2022). GeoAI의 맥락에서 XAI에 대한 지속적인 탐색을 통해 기계학습 모델이 포착한 공간효과에 대한 통찰력을 제공하고 영향력있는 특징을 시각화하며, 지리적 개념 및 속성과 XAI를 통합하는 것의 중요성을 강조한다(Jalali et al., 2023).
이에 본 연구에서는 정주지를 대상으로 GeoXAI 기반의 탄소흡수 현황지도를 제작하고자 하였으며, 이를 위해 서울특별시를 대상으로 위성영상을 기반으로 구축한 식생지수들을 이용하여 탄소흡수 현황지도의 구축 가능성을 검토하고자 하였다. 이때 위성영상으로 구축할 수 있는 다양한 식생지수 중 실제로 탄소흡수량에 영향을 미치는 식생지수들은 무엇이며, 효과는 어떠한지 분석해보고자 한다. 이를 위해 본 연구에서는 머신러닝 중 대표적으로 많은 분야에서 활용되고 있는 XGBoost를 활용하였으며, XAI 기법 중 대표적 방법인 SHAP을 통해 탄소흡수량에 영향을 미치는 식생지수들의 영향력을 분석하고자 했다. 이러한 분석 결과를 통해 향후 탄소흡수원의 탄소공간지도를 효율적으로 구축할 수 있을 것이라 판단된다.
2. 데이터 및 방법론
2.1. 연구지역
서울은 대한민국의 수도이자 전 세계적인 대도시다. 건물과 도로 등 개발밀도가 높고 도시 내 녹지공간을 조성할 수 있는 유휴부지가 적다. 이와 같은 특성을 갖는 서울은 새로이 도시계획 즉 계획구역에서의 탄소흡수원의 탄소중립요소를 도입하기 앞서 기존 탄소흡수원이 흡수할 수 있는 탄소흡수량의 현황 파악이 필요하다. 그리고 서울특별시는 탄소흡수원의 위치 및 속성정보를 활용할 수 있는 기 구축데이터가 존재하기에 본 연구의 연구대상지역으로 선정하였다.
2.2. 데이터
본 연구에서는 2019년 5월 촬영된 Sentienl-2 위성영상을 활용하였으며, Table 1과 같이 16개의 식생지수를 생성 후 사용했다. 탄소흡수원 위치 예측을 위한 수목 위치 데이터의 경우 기 구축된 데이터를 조사하고, 해당 분석에 활용가능하다 판단된 서울시의 도시생태현황도, 가로수 위치정보(2013), 서울시 공원 및 사유지 수목 위치정보(2013) 데이터를 통해 서울시 내의 2002년과 2003년 사이에 식재된 수목의 위치를 약 50,000개 확보해 사용했다. 이때 느티나무, 단풍나무류, 메타세쿼이아, 양버즘나무, 벚나무, 소나무 은행나무, 이팝나무 총 8개 수종을 분석에 활용했다. 탄소흡수량 예측을 위해 Table 2와 같이 국가 R&D 사업인 온실가스 저감을 위한 국토도시공간 계획 및 관리기술 개발 연구에서 개발된 계수를 사용했으며, Fig. 2와 같이 정주지를 대상으로 일부 지역(정주지의 10%)에 구축된 활동자료를 활용했다.
2.3. 분석 방법론
공간정보는 빅데이터를 구성하는 하나의 구성요소로써, 위치정보와 속성정보를 갖게되는데, 타 정형데이터 또는 타 공간정보의 속성정보와의 조인을 통해 확률, 통계, 머신러닝, 딥러닝 등 AI 분석을 수행할 수 있으며, 또한 위치정보를 활용하여 해당 위치의 속성정보들을 추출하여 정형데이터를 생성하고 AI 분석을 수행할 수 있다(Kim et al., 2016). 이러한 AI 분석 수행에 있어 블랙박스 모형의 결과뿐만 아니라 왜 그러한 결과가 도출되었는지에 대한 근거를 확인할 방법이 XAI 기법이다. 특히 XAI 기법 중 가장 많이 활용되고 있는 대표적 기법의 하나가 SHAP이다.
Fig. 4는 본 연구의 흐름도이다. 본 연구에서는 Table 1과 같이 취득된 16개의 식생지수 데이터와 서울시 내의 수목 위치 데이터와 수목이 존재하지 않는 위치 데이터를 이용해 탄소흡수원의 위치 예측을 수행했다. 위치 예측을 위해 분류 기계학습 모델을 제작했다. 해당 기계학습 모델은 독립변수가 식생지수 16종, 종속변수가 수목의 존재 유무인 모델로 설계를 했다. 해당 모델의 학습을 위해 수목 위치 데이터와 수목이 존재하지 않은 위치 데이터에 대하여 각각 해당 위치에 대한 16종의 식생지수 값들을 취득해 수목의 존재 유무를 1과 0으로 표현을 한 후, 각각의 식생지수 값들을 같은 행에 넣은 정형 데이터를 생성했다. 이후 생성된 정형데이터를 이용해 기계학습을 수행하였으며, 이때 XGBoost 기법을 활용했다. 제작된 탄소흡수원 위치 예측 모델을 이용하여 서울시 내의 수목 위치를 예측했으며, 이를 활용하여 서울시 내 탄소흡수원의 탄소흡수량을 예측하고자 하였다.
XGBoost는 대표적인 부스팅 방법으로 부스팅 기법은 단순한 분류가 가능한 약한 예측 모델들을 결합해서 강한 예측 모델을 만드는 알고리즘으로, 주어진 데이터를 약한 분류기를 통해서 학습한 후, 학습된 결과에서 나타나는 오차를 또 다른 약한 분류기에서 학습시켜 오차를 줄여나간다. XGBoost는 부스팅 기법을 통해 모델들을 통합할 때, 모델별로 서로 다른 가중치를 부여하여 중요도가 높은 트리 모델에 높은 점수를 부여한다. t번째 모델이 가지는 가중치는 t-1번째의 오류에 따라서 결정된다. 앞서 언급했던 것처럼 XGBoost는 오차에 대한 순차적인 모델 학습을 통해 강한 모델을 만들어낸다. 이러한 XGBoost는 계산속도가 빠르고 분석에 있어 과적합을 방지할 수 있어 현재 많은 분야에서 대표적으로 활용되고 있는 머신러닝 기법 중 하나이다(Oh et al., 2019).
SHAP은 Shapley Values를 기반으로 해당 독립변수의 유무에 따른 예측값(종속변수)의 평균적인 변화를 통해 각 독립변수의 중요도를 측정함으로써 예측값에 대한 해석을 제공하게 된다. 이때 Shapley Values는 게임 이론에서 각각의 플레이어의 기여도에 따라 상금을 할당하는 방법이다. 이때 플레이어가 참가할 수 있는 모든 부분집합을 도출하고, 이때 특정 플레이어의 유무에 따른 결과를 비교분석 함으로써 최종적으로 기여도가 높은 플레이어를 도출하는 게임 이론이다. 아래 식에서 S는 관심 변수가 제외된 변수의 부분집합이며, i는 관심 있는 변수 집합, F는 전체 변수의 부분집합을 나타낸다(Lundberg and Lee, 2017).
각 변수의 탄소흡수량 예측을 위해서 서울시 정주지의 탄소흡수량이 필요하며, 이를 위해 기존 연구에서 사용된 나무 수종과 정주지 유형별 탄소흡수량 계산식을 사용해서 서울시 내의 정주지의 탄소흡수량 데이터를 계산했다. 이때 서울시 내 활동자료와 수목별 탄소흡수량을 계산할 수 있는 계수가 필요하다. 활동자료와 해당 수목의 탄소흡수 계수를 곱함으로써 해당 공간의 탄소흡수량이 계산되고, 탄소흡수원의 위치로 예측된 지점에 대해 해당 지점의 탄소흡수량을 종속변수, 해당 위치의 식생지수 16종의 값들을 독립변수로 하는 정형데이터를 생성했다. 생성된 정형데이터를 가지고 XGBoost를 수행하여 예측 모델을 생성하였으며, 제작된 탄소흡수량 예측 모델을 가지고 본 연구에서는 탄소흡수량 예측 지도를 생성했다. 또한, SHAP기법을 통해 탄소흡수량과 식생지수 사이의 관계성 파악 분석을 수행했다. 즉, 탄소흡수원의 위치정보를 이용하여 해당 위치의 종속변수와 독립변수를 추출하여 정형데이터를 생성하고, 이를 XGBoost 기법을 통해 예측 모형을 구축하였으며, 해당 예측 모형의 생성에 있어 SHAP을 통해 독립변수들의 중요도를 파악함으로써 GeoXAI 방법론의 활용을 제시했다.
3. 실험결과
탄소흡수원의 위치를 예측한 모델의 하이퍼 파라미터를 튜닝 후의 탄소흡수원 위치 예측 모델의 성능은 정확도(Accuracy): 0.8383, 정밀도(Precision): 0.8226, F1-Score: 0.8378 로 나타났다(Table 3). Table 4는 튜닝된 하이퍼파라미터 값이다. 이렇게 만들어진 모델을 가지고 Fig. 5와 같은 탄소흡수원 존재 확률 지도를 제작했다. 해당 확률 지도에서 탄소흡수원의 존재 예측을 위해 임계치를 설정할 필요가 있다. 본 연구에서는 임계치를 0.5, 0.6, 0.7, 0.8, 0.9로 설정한 뒤에 각각의 성능을 비교했다. 예측 성능의 척도로 기계학습에 사용된 기존 수목의 위치를 탄소흡수원으로 예측한 정도를 예측 정확도로 정의한 후 사용했다. Table 5는 그 결과이다. 임계치가 0.5인 탄소흡수원 예측지도부터 임계치가 0.9인 예측지도까지 각각 약 89%, 81%, 70%, 49%, 13%의 예측 정확도를 보였다. 임계치 값이 0.5일 때 기존 수목의 포함확률이 89%로 가장 우수하게 나타났지만, 분석 결과에 대해 임계치 0.5일때의 탄소흡수원 현황지도를 살펴본 결과 육안으로 확인했을 때, 탄소흡수원이 아닌 지점 또한 탄소흡수원의 위치로 예측하는 등 과도하게 탄소흡수원으로 예측되었기 때문에 본 연구에서는 임계치를 0.6으로 설정하는 것이 적절하다 판단 후 해당 결과를 탄소흡수원 예측 지도로 사용했다(Fig. 6).
서울시 내의 정주지에 대한 활동자료와 해당 수목의 면적에 따른 탄소흡수 계수를 활용하여 단위면적 당 탄소흡수량을 계산하고, 본 연구에서 제작된 탄소흡수원 예측지도를 사용해 탄소흡수원이라 예측된 지점에 대해 탄소흡수량과 식생지수들로 이루어진 정형데이터를 제작했다. 이 정형데이터를 사용해 기계학습을 시켰고, XGBoost 기계학습 모델을 탄소흡수량 예측 모델로 선정했다. XGBoost모델의 하이퍼파라미터를 튜닝을 한 후에 성능은 R2: 0.495, RMSE: 0.0814, MAPE: 11.5244로 나왔다(Table 6). Table 7은 튜닝된 하이퍼파라미터 값이다. 이를 이용해 탄소흡수량 예측 지도를 제작했다(Fig. 7). Fig. 8은 서울시 내 구축된 활동자료 중 하나를 선정하여 수목의 위치 예측 결과와 해당 공간의 탄소흡수량 예측값을 살펴본 결과이다. 탄소흡수원의 위치정확도는 우수하다고 판단되며, 탄소흡수량의 예측값은 오차가 나타나는 것으로 보인다. 그리고 이러한 탄소흡수량을 예측한 모델에 대한 SHAP분석을 통해 GCI, NDRE, MSI, SIPI 가 모델이 탄소흡수량을 예측하는데 기여를 많이 하는 것으로 나타났으며, 모두 양의 상관성을 가진다는 것을 확인했다(Fig. 9).
4. 결론
도시단위에서의 탄소중립을 달성하기 위해 도시계획 등 탄소중립 요소를 도입하기 위해서는 도시지역 탄소흡수원의 탄소흡수량 현황 파악이 중요하다. 하지만 개별 탄소흡수원의 위치 및 흉고직경과 같은 위치정보와 속성정보를 파악하기에는 막대한 예산과 시간이 소요되므로 간접적이지만 도시지역의 탄소흡수량을 산정할 수 있는 방법이 필요하다. 이에 본 연구에서는 GeoXAI 개념을 도입하여 위성영상과 기 구축된 활동자료를 기반으로 탄소흡수지도를 제작하고자 했다. 분석결과 탄소흡수원의 위치 예측은 정확도가 정확도(Accuracy)가 0.8160로 나타났지만 탄소흡수량의 예측은 0.495로 위치정확도 보다 낮게 나타났다.
이러한 분석 결과는 본 연구에서 활용된 개별 식생지수는 10 m 격자 단위로 속성값이 다르지만, 활동자료 기반의 탄소흡수량은 일정 면적 단위로 같은 수목일 경우 같은 탄소흡수량을 가지기 때문에 개별 격자별 종속변수와 독립변수를 추출하더라도 높은 설명력을 기대하기에는 한계가 있다. 향후 개별 수목별 탄소흡수량을 적용하여 개체 수목별 탄소흡수량을 산정할 수 있다면 각각의 격자별 식생지수와 각각 다른 탄소흡수량을 종속변수로 설정한다면 추후 설명력이 개선된 모델을 도출할 수 있을 것이라 판단된다. 또한 추가로 Kompsat-3, 5 등 다른 위성 데이터를 활용한다면 더 높은 정확도의 예측이 가능할 수 있으므로 이와 관련된 실험이 필요하며, 본 연구에서는 XGBoost 기법만을 활용하였지만 추가 연구에서는 다양한 머신러닝을 적용해 봄으로써 해당 데이터 셋에 가장 적합한 분석 모델을 도출할 수 있으며, 설명력 또한 더 우수하게 나타날 수 있을 것이다.
향후 해당 방법을 통해 지자체에서 정주지 지역의 탄소흡수원 위치 현황 및 탄소흡수량을 산정할 수 있다면 향후 탄소중립 녹색성장 계획의 수립 및 도시군기본계획 수립에 있어 탄소중립 달성을 위한 계획 수립에 큰 도움이 될 수 있을 것으로 판단된다. 또한 향후 본 연구에서 탄소흡수원의 탄소흡수현황지도 작성에 있어 GCI, NDRE, MSI, SIPI가 상대적으로 중요하다고 판단되었는데, 해당 의미가 무엇인지에 대한 해석과 어떠한 특성 때문에 탄소흡수량 예측에 기여했는지에 대한 추가적인 연구가 필요하다.
Acknowledgments
본 논문은 국토교통부/국토교통과학기술진흥원의 지원(과제번호 RS-2023-00242291)으로 한국환경연구원이 수행한 ‘탄소공간지도기반 계획지원 기술개발(2023-072(R))’의 연구결과(보고서)를 바탕으로 논문 형태로 작성하였습니다.
References
- Alastal AI, Shaqfa AH. 2022. GeoAI technologies and their application areas in urban planning and development: Concepts, opportunities and challenges in smart city (Kuwait, study case). J Data Anal Inf Process 10(2): 110-126. [https://doi.org/10.4236/jdaip.2022.102007]
- Gao S. 2021. Geospatial artificial intelligence (GeoAI). New York: Oxford University Press. [https://doi.org/10.1093/OBO/9780199874002-0228]
- Graser A, Heistracher C, Pruckovskaja V. 2022. On the role of spatial data science for federated learning. Proceedings of the 3rd Spatial Data Science Symposium; 2022 Sep 22~Sep 23; Online: UCSB Center for Spatial Studies. p. 1-8. [https://doi.org/10.25436/E24K5T]
- Hu Y, Gao S, Lunga D, Li W, Newsam S, Bhaduri B. 2019. GeoAI at ACM SIGSPATIAL: Progress, challenges, and future directions. SIGSPATIAL Special 11(2): 5-15. [https://doi.org/10.1145/3377000.3377002]
- Jalali A, Graser A, Heistracher C. 2023. Towards explainable AI for mobility data science. Proceedings of International Symposium on Location-Based Big Data and GeoAI 2023; 2023 Aug 12; The Capetonian Hotel. Cape Town, South Africa: International Cartographic Association. [https://doi.org/10.48550/arXiv.2307.08461]
- Janowicz K, Gao S, McKenzie G, Hu Y, Bhaduri B. 2020. GeoAI: Spatially explicit artificial intelligence techniques for geographic knowledge discovery and beyond. Int J Geogr Inf Sci 34(4): 625-636. [https://doi.org/10.1080/13658816.2019.1684500]
- Kim GH, Jun CM, Jung HC, Yoon JH. 2016. Providing service model based on concept and requirements of spatial big data. J Korean Soc Geospat Inf Sci 24(4): 89-96 (in Korean with English abstract). [https://doi.org/10.7319/kogsis.2016.24.4.089]
- Kim G. 2022. Development of GeoAI-based environmental policy establishment support system. J Clim Change Res 13(6): 859-867 (in Korean with English abstract). [https://doi.org/10.15531/KSCCR.2022.13.6.859]
- Kim KM, Lee JB, Kim ES, Park HJ, Roh YH, Lee SH, Park KH, Shin HS. 2011. Overview of research trends in estimation of forest carbon stocks based on remote sensing and GIS. J Korean Assoc Geogr Inf Stud 14(3): 236-256 (in Korean with English abstract). [https://doi.org/10.11108/kagis.2011.14.3.236]
- Li W. 2020. GeoAI: Where machine learning and big data converge in GIScience. J Spat Inf Sci 20: 71-77. [https://doi.org/10.5311/JOSIS.2020.20.658]
- Li W, Hsu CY. 2022. GeoAI for large-scale image analysis and machine vision: Recent progress of artificial intelligence in geography. ISPRS Int J Geo-Inf 11(7): 385. [https://doi.org/10.3390/ijgi11070385]
- Lundberg SM, Lee SI. 2017. A unified approach to interpreting model predictions. Proceedings of the 31st International Conference on Neural Information Processing Systems; 2017 Dec 4~Dec 9; Long Beach Convention Center. Long Beach, USA: Neural Information Processing Systems Foundation. p. 4768-4777.
- Oh JY, Ham DH, Lee YG, Kim G. 2019. Short-term load forecasting using XGBoost and the analysis of hyperparameters. Trans Korean Inst Electr Eng 68(9): 1073-1078 (in Korean with English abstract). [https://doi.org/10.5370/KIEE.2019.68.9.1073]
- Purbahapsari AF, Batoarung IB. 2022. Geospatial artificial intelligence for early detection of forest and land fires. KnE Soc Sci 7(9): 312-327. [https://doi.org/10.18502/kss.v7i9.10947]
- Roussel C, Böhm K. 2023. Geospatial XAI: A review. ISPRS Int J Geo-Inf 12(9): 355. [https://doi.org/10.3390/ijgi12090355]
- VoPham T, Hart JE, Laden F, Chiang YY. 2018. Emerging trends in geospatial artificial intelligence (geoAI): Potential applications for environmental epidemiology. Environ Health 17: 40. [https://doi.org/10.1186/s12940-018-0386-x]
- Xie Y. 2020. GeoAI: Challenges and opportunities [dissertation]. University of Minnesota.