1. 서론
최근 전 산업 분야에서 인공지능(Artificial Intelligence) 기술, 특히 생성형 인공지능(Generative AI)의 발전이 산업과 교육 전반에 큰 영향을 미치고 있다(Park, 2023; 임장한과 윤수진, 2024). 이미지 생성형 AI(ImageGenerating Artificial Intelligence)는 인공지능을 활용해 이미지를 생성하고 작업하는 기술 또는 소프트웨어로 사용자가 명령어(프롬프트)를 입력하면 그에 맞는 이미지를 생성하고 사용자는 이를 바탕으로 자신이 원하는 이미지를 선택, 편집할 수 있는 기술로, 최근 달리(DALL·E), 미드저니(Midjourney), 스테이블 디퓨전(Stable Diffusion)과 같은 서비스가 활발히 발전하고 있다(김호준, 2023; 이하나, 2025). 건축 및 타 디자인 분야에 비해 조경설계에서의 AI 활용 사례와 학술적 연구는 상대적으로 부족하지만(Liu X, 2024), 그럼에도 불구하고, 조경설계 분야 역시 인공지능의 활용 가능성을 적극적으로 모색하고 있으며, 업무 효율성과 설계 창의성 제고를 위한 다양한 시도가 이루어지고 있다(장유리, 2024). 디자인 과정에서의 아이디어 시각화는 창의적 구상을 구체화하는 핵심 단계로, 특히 조경디자인과 같이 공간을 다루는 분야에서는 도면 및 이미지 시각화가 프로젝트의 이해도와 설계 의도 전달에 직접적인 영향을 미친다(윤주영과 김유선, 2024).
기존 선행 연구들은 조경 또는 건축 설계 분야에서 이미지 생성 AI의 활용 가능성을 폭넓게 탐색하고 있으나(이동호와 고성학, 2023; 조하영과 이진국, 2023; 박재민과 한재욱, 2024; 윤주영과 김유선, 2024; 장유리, 2024; Liu, 2024), 대부분 대표적인 이미지 생성형 AI 도구를 비교하거나 일반적인 공원 설계 단계에서의 활용 가능성에 초점을 맞추었다. 구체적인 설계 요소나 기준을 프롬프트에 반영하고 시각화 결과에 대한 정량·정성적 평가를 병행한 연구도 일부 존재하지만, 치유정원과 같은 특수 목적 공간을 대상으로 한 연구는 여전히 제한적이다. 비록 치유정원 설계에 AI를 직접 활용한 연구는 아직 제한적이지만, 최근 특수 목적 공간 설계 분야에서 생성형 AI를 도입한 시각화 및 설계 지원 사례가 점차 증가하고 있다. 특히 복합적 사용자 요구를 반영해야 하는 치료·교육·휴식 기반 공간에서 Stable Diffusion과 Midjourney가 설계 정확성 향상, 공간 개념의 빠른 시각화, 이해관계자 간 의사소통 개선에 기여한 것으로 보고되고 있다. 이러한 선행 사례는 유사한 설계 원칙과 사용자 경험을 중시하는 치유정원 설계에도 생성형 AI 접근법이 효과적으로 적용될 수 있음을 시사하며, 본 연구의 필요성과 타당성을 뒷받침한다.
이처럼 기존 연구들은 Midjourney, DALL·E 등 접근성이 좋은 AI 도구를 중심으로 조경설계 시각화를 시도했으나, 정량적 평가 체계의 부재와 각 AI 도구의 한계와 개선 방안에 대한 심층적인 분석이 미흡하다는 등 공통적인 한계를 지닌다(표 1 참조).
| 구분 | 분야 | 활용 프로그램 | 활용 내용 | 한계점 |
|---|---|---|---|---|
| 박재민과 한재욱 (2024) | 조경 | Midjourney | ||
| Liu (2024) | 조경 | Stable Diffusion, Photoshop-Firefly | ||
| 장유리 (2024) | 조경 | Midjourney, DALL․E2, Dream Studio | ||
| 윤주영과 김유선 (2024) | 조경 | Midjourney, DALL․E, Adobe Firefly | ||
| 이동호와 고성학 (2023) | 건축 | Stable Diffusion | ||
| 조하영과 이진욱 (2023) | 건축 | Stable Diffusion |
본 연구는 주제 정원 중 치유정원에 대한 AI 기반 설계 시각화 방법을 탐색해 보는 것을 그 목적으로 한다. 다양한 이미지 생성형 AI 모델 중 Stable Diffusion 모델을 분석 대상으로 하며, 주요 확장 기능(Text-to-Image, Image-to-Image, Checkpoint, LoRA)별 결과를 비교하여 치유정원 설계기준을 가장 효과적으로 반영할 수 있는 AI 기반 시각화 방법을 탐색하고자 하였다. 치유정원 설계기준을 프롬프트 구조로 체계화하고 각 기능에 대한 정성 및 정량평가를 수행하였다. 정성평가를 위해 ChatGPT 기반 AI 평가를 수행하여 각 기능의 시각화 성능을 비교·분석하였으며, 정량평가를 위해 CLIP Score를 활용하였다.
본 분석은 Stable Diffusion 주요 확장 기능 간의 시각적 완성도 차이를 객관적으로 비교하고 설계 시각화 성능이 가장 안정적인 확장 기능을 탐색하고자 하였다. 본 연구는 다음과 같은 두 가지 질문을 중심으로 전개된다. 첫째, 이미지 생성형 AI는 치유정원과 같은 주제정원 설계의 복합적 요구사항을 종합적으로 반영할 수 있는가? 둘째, 반영한다면 텍스트-이미지 의미 일치도 측면에서 프롬프트가 어느 정도 정확하게 반영되어 설계기준과 일치하는 시각적 결과물을 생성할 수 있는가? 그리하여 본 연구는 조경설계 분야에서 이미지 생성형 AI의 실질적 활용 가능성을 검증하고, 주제정원 설계에서의 AI 도구의 활용 방향과 설계 단계별 적용 가능성을 제시함으로써 조경설계 교육 및 실무에서의 참고자료로 활용하고자 한다.
2. 치유정원 설계요소
본 연구는 주제정원 가운데 치유정원을 연구 대상으로 설정하였다. 치유정원(therapeutic garden)은 치유의 요소를 적극적으로 도입한 정원의 형태로, 목표효과에 따라 특정 사용자나 집단의 요구를 충족하도록 설계된 정원이다. 정원의 다양한 기능과 자원을 활용하여 치유 요소와의 상호작용을 촉진하고 신체적·정신적 건강 회복 및 유지·증진을 위해 의도적으로 설계된 기능성 정원이다(국립수목원, 2024). 또한 치유정원은 조경디자인의 미적 완성도가 중시된 공간이 아닌 이용자의 특수한 요구사항에 부합되며, 이용자 특성에 대한 배려 등이 적용된 실용적인 공간이어야 한다고 정의하였다(Adil, 1994; Rothert, 1994; Relf and Dorn, 1995; Stoneham and Thoday, 1996; Cooper, 1999). 따라서 치유정원은 치료적 환경뿐만 아니라 공간의 물리적, 심리적, 문화적, 사회적 지원을 통한 포괄적인 공간을 말하며, 여기에 조경기술을 활용하여 조성된 정원을 의미한다(천현우와 이시영, 2016). 또한, 치유정원의 유형으로는 이용자의 특성과 장애 형태, 적용 장소에 따라서 5가지 유형으로 나누어 크게 감각자극 치유정원, 재활 치유정원, 청소년과 장애아동을 위한 치유정원, 고령자 및 장애인을 위한 치유정원, 실험정원으로 분류될 수 있다(박현미 등, 2010).
치유정원은 특정 사용자 집단의 심리·생리적 요구를 반영해야 하는 공간으로, 특히 치매 및 경도인지장애 노인을 위한 체계적 표준 모델로서 대상자 맞춤형 공간계획과 조성 원칙이 중요하다(국립수목원, 2024). 또한 치유정원은 이용자에게 휴식 공간을 제공하고 사회적 접촉을 도모함으로써 삶의 질을 향상시켜 주는 정원을 뜻한다(Marcus and Barnes, 1999). 이러한 치유정원은 모든 이용자가 각자의 속도와 방식으로 정원을 경험하고, 타인과 공유할 수 있도록 전체적 설계 원리를 바탕으로 디자인되어야 한다(차인수, 2012).
이에 본 연구에서는 기존 문헌을 토대로 치유정원의 설계요소를 재구성하여 제시하였다(표 2 참조). 치유정원에 적합한 식재 요소를 선정하기 위해서는 오감 자극 요소에 대한 고려가 필수적이다. 이러한 정원은 시각적으로는 자연 조망과 다양한 색감의 초화류, 청각적으로는 물소리와 바람소리 등 자연의 소리, 후각적으로는 허브 등 향기식물, 촉각적으로는 다양한 질감의 식물과 자연 재료를 통해 오감을 종합적으로 자극한다(최영미, 2007; 박은영과 이형숙, 2014). 특히 끊임없이 변화하는 자연을 통한 오감 자극은 고령자들의 감소된 지각 능력을 회복하는 데 효과적이다(김소희, 2004). 이러한 이론적 고찰을 바탕으로 치유정원에 적합한 오감 자극 식재를 선정하였다(표 3 참조).
| 구분 | 내용 |
|---|---|
| 출입구 | |
| 바닥포장 | |
| 보행통로 | |
| 경사로 및 난간 | |
| 휴게시설 |
자료: 김소희(2004); 국립수목원(2024); 윤주영 등(2025)을 바탕으로 재구성
| 구분 | 내용 |
|---|---|
| 시각 | |
| 청각 | |
| 후각 | |
| 촉각 | |
| 미각 |
자료: 김소희(2004); 국립수목원(2024); 윤주영 등(2025)을 바탕으로 재구성
또한 본 연구는 국립수목원(2024)이 제시한 치유정원 조성 가이드라인을 준거로 하였다. 가이드라인의 공간구성 원칙을 반영하여 식재공사, 시설물·포장공사, 기초공사 등으로 구성된 평면도(안)을 작성하였고(그림 1 참조), 설계 의도는 다음과 같다. 진출입공간의 경우 시각적 인지도와 상징성을 강화하기 위해 진입부에 요점식재를 배치하고, 이용자 동선 유도와 방향성 제시가 가능하도록 공간을 구성하였다. 보행공간의 경우 이용자가 안전하고 쾌적하게 이동할 수 있도록 주·부동선을 체계화하였다. 주동선은 외부 진출입부에서 정원 내부를 순환하도록 계획하였고, 부동선은 주동선에서 분기되어 다양한 공간을 탐방, 연결할 수 있도록 하였다. 휴식공간의 경우 파고라와 벤치 등 그늘 쉼터를 도입하여 일사 차단과 편안한 체류가 가능하도록 하였으며, 가드닝 프로그램 운영을 고려해 테이블과 벤치 배치를 병행하였다. 식재공간의 경우 주제정원(컬러·향기·질감·소리·참여)의 활용 목적과 특성을 반영하되, 관리 용이성, 경계성, 계절성, 생육환경을 종합 고려하여 교·관목, 초화 및 지피류 중심으로 식재계획을 수립하였다.
이러한 치유정원 설계요소는 설계자의 경험과 감각적 판단에 크게 의존하지만, 최근에는 복합적인 치유 환경을 효율적으로 시각화하고 설계 의도를 명확히 전달하기 위해 인공지능(AI) 기술의 도입이 요구되고 있다. 특히 이미지 생성형 AI는 텍스트 기반 프롬프트를 통해 설계요소에 포함된 오감 자극 요소와 배리어프리 구조를 시각적으로 구체화할 수 있어, 치유정원의 설계 및 커뮤니케이션 과정에서 유용한 보조 도구로 활용될 수 있다. 따라서 본 연구에서는 이러한 치유정원 설계요소를 기반으로, 생성형 AI가 설계요소를 얼마나 효과적으로 반영할 수 있는지를 검증하였다.
3. 연구 방법
본 연구의 흐름은 치유정원 설계 시각화에 필요한 설계 요소와 감각 자극 식재를 기반으로 프롬프트를 작성하는 단계에서 시작하였다. 첫째, 선행연구와 설계요소를 바탕으로 치유정원 공간구성 요소와 오감 자극 식재요소를 도출하고 프롬프트를 설계하였다. 둘째, Stable Diffusion의 Text-to-Image, Image-to-Image, Checkpoint, LoRA 네 가지 주요 확장 기능을 동일한 조건에서 적용하여 이미지를 생성하였다. 셋째, 생성된 이미지를 CLIP Score를 활용하여 정량적으로 평가하고, 설계요소를 기준으로 심미성과 기능을 정성적으로 분석하였다. 마지막으로 CLIP Score 결과에서 가장 높은 적합도로 보인 기능을 교차 적용하여 세부 공간 요소를 정밀하게 제어한 최종 시각화 이미지를 도출하였다(그림 2 참조).
본 연구는 조경설계 구상의 시각화를 위한 이미지 생성형 AI 모델의 활용 가능성을 탐구하기 위해 수행되었다. 이용자가 많은 대표적인 이미지 생성형 AI 모델 중 그림과 유사한 이미지보다는 사실적이고 세밀한 이미지 표현이 가능한 이미지 생성형 AI 모델 3가지 중, 현재 상용화된 주요 Text-to-Image 생성 모델인 Midjourney, DALL·E 및 Stable Diffusion을 대상으로 조경설계 연구에 적합한 모델을 선정하고자 하였다. 세 모델은 모두 Text-to-Image와 Image-to-Image 기능을 지원하며 조경설계 구상의 시각화에 활용할 수 있다(장유리, 2024). 그러나 각 모델은 각각 다른 특성을 보인다(표 4 참조). 표 4에서는 세 모델의 특성을 비교하기 위해 접근성, 확장성, 성능의 세 가지 기준을 적용하였다. Midjourney는 디스코드 플랫폼을 기반으로 하며, 사용자가 입력한 프롬프트가 서버로 전송되어 이미지가 생성된 후 디스코드 채널을 통해 결과물을 수신하는 방식이다. 사실적 묘사력과 예술적 스타일 표현이 우수하나, 외부 데이터 학습이나 세부 제어 기능은 제한적이다. DALL·E는 2021년 1월 OpenAI에서 출시한 자연어 기반 이미지 생성 모델로, 텍스트 입력만으로 현실적인 이미지나 예술 작품을 생성할 수 있다. 웹 기반의 직관적인 인터페이스를 제공해 비전문가도 쉽게 접근할 수 있으나, 폐쇄형 모델 구조로 인해 확장성과 파라미터 제어가 어렵다. Stable Diffusion은 오픈소스 라이선스로 공개된 이미지 생성 AI로, 누구나 수정·재학습 배포가 가능하다. GitHub를 통해 설치 후 사용자의 GPU 환경에서 실행되며, Checkpoint·LoRA·ControlNet 등 다양한 확장 모듈을 적용할 수 있다(손세일, 2024; 장유리, 2024; 남정과 이연준 2025). 세 모델을 접근성, 확장성, 성능의 척도에서 비교하면 Stable Diffusion이 사용자 커스터마이징과 세부 제어 측면에서 가장 유연한 구조를 보인다. 이에 본 연구에서는 조경설계 시각화 목적에 가장 적합한 접근성·확장성·성능을 종합적으로 고려하여 Stable Diffusion을 최종 실험 모델로 선정하였다.
| 비교 기준 | Midjourney | DALL․E | Stable Diffusion |
|---|---|---|---|
| 접근성 | |||
| 확장성 | |||
| 성능 | |||
| 적용사례 | 임장한과 윤수진(2023), 박재민과 한재욱(2024) | 이명주(2023), 이운영(2023) | Dollens(2023), Liu(2024) |
자료: 김경환과 김형기(2023); 손세일(2024); 장유리(2024); 남정과 이연준(2025)을 바탕으로 재구성
Stable Diffusion은 텍스트 프롬프트를 기반으로 이미지를 생성하며, 이때 Positive Prompt와 Negative Prompt를 함께 사용한다. Positive Prompt는 생성하고자 하는 이미지의 속성을, Negative Prompt는 배제할 요소를 지정한다. 확장 기능을 사용하지 않을 경우, 프롬프트 설정만으로 최종 이미지의 형태와 분위기가 결정된다. 이미지 품질에 주요하게 작용하는 매개변수로는 Sampling Method, Sampling Steps, Hires Fix 등이 있다. Sampling은 모델이 학습한 분포에서 노이즈를 반복적으로 제거하며 이미지를 복원하는 과정이며, 각 반복에서의 노이즈 처리 방식을 Sampling Method라 한다. Sampling Steps는 이 과정을 반복하는 횟수로, 값이 높아질수록 생성 속도는 느려지지만 디테일과 선명도가 향상된다(김경환과 김형기, 2023). Inpainting은 Image-to-Image의 일종으로, WebUI에서 직접 영역을 칠하거나 마스크 이미지를 업로드하여 특정 부분만 선택적으로 재생성할 수 있는 기능이다. 본 연구에서는 Sampling method, inpainting, conditioning, mask strength, sampling steps, CFG scale 등 다양한 변수 값을 조절하면서 최적의 이미지 결과를 도출할 계획이다(추승연 등, 2024).
본 연구에서는 Stable Diffusion의 주요 확장 기능 네 가지(Text-to-Image, Image-to-Image, Checkpoint, LoRA)를 활용하여 치유정원 시각화 이미지를 생성하고자 한다(표 5 참조). Text-to-Image는 기본적으로 Text를 입력하고 입력한 Text를 기반해서 각 생성기 모델의 방식에 따라 deep learning을 통해서 결과를 생성한다(Lee, 2023). Image-to-Image는 Prompt와 함께 이미지를 삽입한다. Checkpoint의 경우 사용자가 추가로 넣을 수 있도록 되어 있어서 다양한 종류의 이미지를 생성할 수 있다. 이 외에도 Stable Diffusion의 확장 기능은 상당히 많은 종류가 있는데, 그중 주요 확장 기능은 ControlNet과 LoRA 모델이다. ControlNet의 경우 Stable Diffusion 모델을 제어하기 위한 신경망 모델로서, 랜덤성에 의존하는 기존 이미지 생성 방식에서 깊이 맵, 포즈 데이터, 외각선 맵 등 데이터 맵을 이용하여 구체적인 형태를 잡을 수 있는 기능이다. LoRA는 확장 모델로서, Checkpoint가 이미지를 생성할 때 Checkpoint에 없는 데이터를 주입시키거나 Prompt만으로 제어하지 못하는 부분을 가능하게 해준다(윤주영과 김유선, 2024).
| 기능 | 특징 |
|---|---|
| Text-to-Image | |
| Image-to-Image | |
| Checkpoint | |
| ControlNet | |
| LoRA |
자료: Rombach et al(2022); 김시은 등(2024); 사한 등(2024); 손세일(2024)을 바탕으로 재구성
Stable Diffusion 주요 확장 기능 관련 선행연구로는 윤주영과 김유선(2024)과 박정민 등(2025)이 대표적이다. 윤주영과 김유선(2024)은 Stable Diffusion, Midjourney, DALL·E, Adobe Firefly의 Text-to-Image 기능을 비교하고, ControlNet을 적용해 기준 도면 기반 평면도 채색화를 실험했으며, LoRA와 Checkpoint를 교차 적용하여 디테일이 강화된 결과를 얻었다. 박정민 등(2025)은 건축 입면 이미지를 Text-to-Image로 생성한 후 LoRA를 통해 건축 요소 특유의 스타일과 디테일을 미세조정하고, ControlNet의 Canny Edge 및 Depth Map 제어로 건축물의 윤곽선과 구조적 특징을 유지하며 정확도를 향상시켰다.
본 연구에서는 이러한 윤주영과 김유선(2024) 선행연구의 시사점을 바탕으로, Checkpoint와 LoRA의 상호보완적 가능성을 검증하기 위한 교차 적용을 추가로 수행하였다. Checkpoint 기반 모델(landscapesupermix_v21)은 사실적 질감과 안정적 공간 구성을 구현하는 데 강점을 가지며, LoRA(landscapeplan-v10da4)는 곡선적 식재 조직과 세밀한 조형 표현에 유리하다. 이에 두 기능을 교차 적용하여, Checkpoint의 구조적 안정성과 LoRA의 세부 표현력을 통합한 시각화가 가능한지를 탐색하였다. 실험은 동일한 파라미터 조건(CFG Scale = 7.5, steps = 35, sampler: DPM++ 2M Karras, 해상도 832 × 704, seed = 42)하에 수행하였다.
이 조합은 각 기능의 상호보완적 효과를 검증하는 탐색적 단계로서, 이후 4.3절에서 정량·정성평가를 통해 시각적 완성도와 기능적 표현력을 비교하였다.
본 연구는 Stable Diffusion의 이미지 생성 절차에서 설계기준을 모델이 해석 가능한 영문 키워드 형태로 변환하고, Positive/Negative 프롬프트를 설정하였다(표 6 참조).
Positive 프롬프트에는 항공(top-down) 시점과 1.8m 이상 휠체어가 통과 가능한 게이트, 1:10 미만의 완만한 경사, 안내 사인과 촉지도 타일이 포함된 비미끄럼 포장을 명시하여 진입부의 배리어프리 요소를 구체화하였다. 순환 체계는 폭 2m의 평탄한 주동선과 각 공간으로 연결되는 보조동선, 울타리 및 회전 노드 등을 포함하도록 기술하였으며, 공간 구성은 진입공간·그늘 쉼터·원예활동 공간으로 명확히 구획하였다. 식재는 오감 자극을 중심으로 시각(계절수와 초화류의 색채), 청각(대나무·갈대·유칼립투스 등 바람소리와 조류 유인), 후각(민트·라벤더·치자·국화 등 향기 식물), 촉각(부드러운 잎·거친 수피·종자), 미각(상추·무·브로콜리 등 식용식물)을 구체적으로 설정하였다. 전반적 분위기는 ‘안전·평온·보편설계’를 지향하도록 하였으며, Negative 프롬프트에는 text, watermark, logo, low quality, blurry 등을 명시하여 품질 저하 요인을 억제하였다. 실험 파라미터는 재현성 확보를 위해 832 × 704, DPM++ 2M Karras, steps = 35, seed = 42, CFG = 7.5로 고정하였고, Image-to-Image에서는 Denoising = 0.6을 적용하였다.
본 연구의 프롬프트는 치유정원 설계기준인 표 3을 기반으로 항목별 키워드를 Stable Diffusion이 인식할 수 있는 영어 명사구 형태로 체계화하였다(표 7 참조). 이를 통해 배리어프리 동선, 오감 식재, 공간 구성 등 복합적인 설계기준이 이미지 생성 과정에 일관되게 반영되도록 하였으며, 설계기준의 논리 구조와 프롬프트 입력 간의 대응 관계를 항목별로 명확히 제시하였다.
한편, 본 연구는 치유정원과 같은 주제정원의 시각화를 대상으로 하였기 때문에 ControlNet 등 형상 제어 중심의 보조 확장 기능은 사용하지 않았다. 이는 형태적 정확도보다는 감성적 분위기, 오감 식재, 배리어프리 공간 등 설계기준 기반 표현의 질적 특성을 검증하는 데 초점을 두었기 때문이다. 동일한 조건에서의 비교·분석을 위하여 동일 프롬프트와 파라미터를 적용하여 각 주요 확장 기능(Text-to-Image, Image-to-Image, Checkpoint, LoRA)의 시각적 완성도를 비교함으로써, 실제 설계 시 Stable Diffusion 확장 기능 선택의 참고자료로 활용하고자 한다.
본 연구에서는 치유정원의 설계 특성을 반영하기 위하여 선행연구 및 관련 설계기준을 검토한 뒤, 심미성과 기능 두 범주를 중심으로 정성적 평가지표를 도출하였다(표 8 참조). 심미성은 형태와 조화미, 색채 및 재료의 사용, 공간 구성의 조화성 등을 포함하였으며, 기능은 진입로와 출입구의 명확성, 동선의 단순성과 예측 가능성, 배리어프리 세부 요소, 오감자극 요소의 충실성 등을 세부 항목으로 설정하였다.
AI 기반 평가 기법의 적용은 이하나(2025)의 연구를 참고하였다. 해당 연구에서는 ChatGPT가 스스로 평가 기준을 도출하고 설계안을 검증하는 과정을 통해, AI 기반 정성평가의 일관성과 반복 가능성을 검증하였다. 이러한 접근은 평가자의 주관 편차를 줄이는 장점이 있으며, 본 연구에서는 이를 응용하여 치유정원 평가지표(심미성, 기능성 등)를 동일한 문항 구조로 제시하고 ChatGPT가 각 항목에 대해 서술형 분석을 생성하도록 하였다. 또한 ChatGPT는 단순한 아이디어 생성에 그치지 않고 설계안의 논리적 타당성과 맥락적 일관성을 점검하는 능력을 지니며, 대상지 조건·이용자 동선·식재 계획 등 텍스트 정보를 바탕으로 설계안의 강점과 한계를 분석하거나 개선 방향을 제안할 수 있다(신동윤, 2024; Zwangsleitner et al., 2024). 이러한 접근은 이미지 품질 평가 분야에서 ChatGPT를 평가도구로 활용한 IQAGPT(Chen et al., 2023), 공간적 추론 및 설계안 검증을 시도한 Tang and Kejriwal(2023) 등에서도 유사하게 확인되었다.
따라서 본 연구에서는 선행연구의 방법론적 틀을 바탕으로, ChatGPT가 각 평가 항목별로 치유정원 시각화 이미지의 강점과 한계를 분석하고 그 근거를 논리적으로 제시하도록 하였다. 이러한 접근은 기존에 전문가의 주관적 판단에 의존하던 정성평가 방식을 보완하며, 문헌 기반의 체계적 분석과 AI의 논리적 추론을 결합함으로써 평가 과정의 객관성과 재현 가능성을 높이는 데 기여하고자 한다.
본 연구는 생성 이미지의 객관적 평가를 위해 CLIP Score(Contrastive Language-Image Pretraining Score)를 정량지표로 채택하였다. CLIP Score는 Hessel et al.(2021)이 제안한 참조 없는(reference-free) 평가 메트릭으로, CLIP 모델의 이미지 인코더와 텍스트 인코더에서 각각 추출된 임베딩 벡터를 L2 정규화한 후 코사인 유사도를 계산하여 산출된다. 값은 0과 1 사이에서 표현되며 사용자의 이해를 돕기 위해 퍼센트 스케일을 사용하기도 하며, 높을수록 텍스트-이미지의 의미적 일치도가 높은 것으로 간주할 수 있다(Hessel et al., 2021; 한종현, 2024). CLIP Score를 선택한 이유는 다음과 같다. 첫째, 기존의 주관적 평가만으로는 일관성과 재현성이 부족하다는 한계가 있으며, CLIP Score는 사람의 평가와 높은 상관성을 가지면서도 정합성을 수치화하여 객관적 비교를 가능하게 한다. 둘째, 치유정원과 같이 표준화된 참조 이미지를 확보하기 어려운 연구 분야에서는 참조 없는 평가 방식이 더욱 적합하다(Hessel et al., 2021). 셋째, 국내 연구에서도 윤승리 등(2024)가 AI 이미지 생성 도구의 농업 적용 사례에서 CLIP Score를 활용해 생성 이미지와 실제 이미지 간 유사도를 정량적으로 평가하였다.
본 연구에서는 OpenAI의 CLIP ViT-B/32 모델을 사용하여 이미지·텍스트 임베딩을 L2 정규화하고, 코사인 유사도를 기반으로 CLIP Score를 산출하였다. 이미지 생성은 동일한 프롬프트와 조건(CFG = 7.5, steps = 35, 832 × 704, sampler: DPM++ 2M Karras, Image-to-Image의 경우 denoising = 0.6)에서 수행하였다. 각 기능(Text-to-Image, Image-to-Image, Checkpoint, LoRA)은 시드 42-46 범위로 5회 반복 생성하여 평균 ± 표준편차(Mean ± SD)를 산출하고 비교하였다. 반복 생성 결과 이미지는 다음과 같다(그림 3 참조).
4. 연구 결과 및 고찰
본 연구에서는 Text-to-Image 기능을 활용해 생성된 치유정원 시각화 결과물을 대상으로 심미성과 기능 측면에서 정성적 평가를 수행하였다(그림 4 참조). 첫째, 심미성 측면에서 곡선형 보행로, 둥근 관목의 반복적인 배치가 공간의 흐름을 부드럽게 이끌며 조형적 안정감을 제공하였다. 또한 상부 수목과 하부 초화류 층위가 대비를 이루어 시각적 조화를 형성하였고, 녹지의 녹색 계열과 계절 초화의 화려한 색채가 어우려져 미적 효과를 높였다. 다만 동일한 구형 관목의 과도한 반복은 단조로움을 유발할 수 있으며, 포장재의 색채·질감 표현은 다소 제한적으로 나타났다. 둘째, 기능적 측면에서 곡선형 순환 동선이 반복적으로 제시되어 이동 경로의 단순성이 확보되었으며, 공간 간 연속성도 양호하였다. 그러나 주 출입구가 명확히 드러나지 않아 접근성과 인지성이 낮게 표현되었으며, 보행 폭·경사도·난간 등 배리어프리 세부 요소가 부재하여 BF 관점의 시각화 품질이 제한적이었다. 또한 식재와 휴식 공간이 구분되어 있으나 원예활동 등 프로그램 공간의 표현이 부족하다. 시각적 자극 요소는 풍부하나 오감 자극 식재의 구체적인 표현이 미흡하였다.
본 연구에서는 국립수목원(2024)의 모델정원 기본 이미지를 입력 자료로 활용하여 Image-to-Image 기능으로 치유정원 시각화를 수행하였다. 생성된 결과물은 심미성과 기능 측면에서 다음과 같이 평가되었다(그림 4 참조). 첫째, 심미성 측면에서 중앙부 곡선형 식재대와 주변부의 목재 데크, 다양한 초화류와 관목이 명확히 배치되어 공간의 위계와 조형성이 뚜렷하게 드러났다. 계절감이 있는 식재와 색채 대비가 확보되었고. 상·하부 식재의 층위가 조화를 이루었다. 그러나 일부 공간에서는 특정 식물 질감이 반복적으로 표현되어 단조로움이 발생했으며, 시설물의 디테일과 보행자 스케일감이 충분히 반영되지 않았다. 둘째, 기능적 측면에서 순환형 S자 동선이 명확히 드러나 이동 경로의 단순성과 예측가능성이 높게 표현되었다. 다만 주 출입구의 시각적 강조는 부족하여 진입 공간 인지성이 떨어졌으며, 배리어프리 세부 요소가 충분히 표현되지 않았다. 식재 공간과 휴식 공간의 구획은 분명하였으나, 원예활동 등 작업 공간의 표현이 미흡하였다. 오감 식재 측면에서는 시각적 자극 요소가 풍부하게 드러났으나, 청각·후각·촉각·미각을 고려한 식재는 구체적으로 반영되지 않았다.
본 연구에서는 Checkpoint 기반 모델(landscapesupermix_v21)을 적용하여 치유정원 설계요소를 반영한 시각화를 수행하였다. 생성된 결과물은 심미성과 기능 측면에서 다음과 같이 평가되었다(그림 4 참조). 첫째, 심미성 측면에서 중앙부의 정방형 공간과 주변부 녹지대가 명확히 구분되며 형태적 안정감을 형성하였다. 직선형 보행로와 대칭적 공간구성이 강조되어 조형미가 뚜렷하게 드러났으며, 식재의 배치가 균형을 이루어 조화성이 높게 나타났다. 계절감을 반영한 수목 색채와 재질 표현은 사실성을 강화하였고, 포장면과 녹지의 경계 구분도 명확하여 재료 활용의 미적 효과가 잘 나타났다. 다만 일부 공간에서는 녹음이 과도하게 표현되어 단조로운 분위기를 줄 수 있으며. 시설물 디테일은 상대적으로 단순화되었다. 둘째. 기능적 측면에서 주 출입구와 순환형 보행로가 명확히 드러나 이용자가 접근하기 용이하며 동선의 예측 가능성도 높게 평가되었다. 특히 평탄한 보행로와 구획된 휴식 공간은 기능적 명료성을 높였다, 그러나 배리어프리 세부 요소 측면에서는 난간·손잡이·경사도 등 세부 표현이 부족하여 접근성 요소의 시각적 재현은 제한적이었다. 또한 원예활동과 같은 작업공간의 구체적인 표현도 부족하였고, 오감 식재의 경우 시각적 자극은 충분하지만 청각·후각·미각·촉각 요소는 미흡하게 반영되었다.
본 연구에서는 LoRA(Low-Rank Adaptation) 모델 lora:landscapeplan-v10da4을 활용하여 치유정원 설계 요소를 반영한 시각화를 수행하였다. 생성된 결과물은 심미성과 기능 측면에서 다음과 같이 평가되었다(그림 4 참조). 첫째, 심미성 측면에서 원형 및 곡선형 동선 패턴이 두드러지게 나타나며 공간의 조형성이 강조되었다. 중심부에 배치된 원형 식재대, 주변부 곡선형 보행로가 대비를 이루어 시각적 흥미를 높였으며, 식재 조직의 밀도와 계절감 있는 색채 배치도 뚜렷하게 표현되었다. 다만 일부 구간은 과도한 곡선과 불균형한 식재 배치로 인해 실제 시공 가능성과 조화성이 떨어질 수 있으며, 시설물 디테일은 단순화되어 사실감이 낮게 나타났다. 둘째, 기능적 측면에서 순환형 동선의 방향성이 명확히 드러났으나, 주 출입구의 시각적 강조가 부족하였다. 보행 폭, 경사도, 난간 등 배리어프리 세부 요소는 충분히 재현되지 않아 접근성 측면의 시각화는 제한적이었다. 식재 공간과 중심부 휴식 공간은 구분되어 있으나, 작업 활동을 위한 전용 공간은 나타나지 않았다. 오감 식재의 경우 시각적 자극이 매우 풍부하게 드러났으나, 청각·후각·촉각·미각 자극 식재의 반영은 미흡하였다.
본 연구에서는 Text-to-Image, Image-to-Image, Checkpoint, LoRA 기능을 활용하여 생성된 총 4개의 치유정원 이미지를 대상으로 심미성과 기능의 두 범주에 따라 정성적 평가를 수행하였다(표 8 참조). 각 항목은 5점 리커트 척도(1 = 매우 미흡, 5 = 매우 우수)로 평가하였으며, 항목별 점수를 바탕으로 심미성과 기능의 평균 점수를 산출하였다. 분석 결과, 심미성은 전반적으로 평균 4.19점(SD = 0.13)으로 높게 나타났으며, 기능성은 평균 3.25점(SD = 0.25)으로 심미성에 비해 낮게 평가되었다. 심미성 세부 항목 중에서는 ‘형태와 조화미’(M = 4.25), ‘색채 및 재료의 미적 사용’(M = 4.75), ‘조경 요소의 배치와 스케일’(M = 4.25) 등이 전반적으로 높은 점수를 기록하였다. 반면, 기능에서는 ‘배리어프리 설계’(M = 2.25)와 ‘진입로 및 출입구 명확성’(M = 3.0)이 상대적으로 낮은 점수를 보였다. 세부적으로 살펴보면, Text-to-Image 결과물은 색채의 조화와 시각적 표현력에서 강점을 보였으나, 출입구의 명확성과 공간 활용성이 부족하였다. Image-to-Image 결과물은 공간 구성과 색채 대비가 풍부하였으나, 배리어프리 요소의 반영이 미흡하였다. Checkpoint 결과물은 구조적 안정성과 공간 활용성 측면에서 우수하여 실제 조경설계와의 연계 가능성이 높았으며, 심미성과 기능이 비교적 균형 있게 나타났다. 반면, LoRA 결과물은 곡선형 동선과 형태적 조화가 두드러져 심미성이 가장 높게 평가되었으나, 출입구 명확성과 공간 활용성 측면에서는 한계가 있었다. 이러한 결과는 Stable Diffusion을 활용한 치유정원 시각화가 심미적 완성도 측면에서는 충분한 가능성을 지니고 있으나, 이용자 중심의 기능적 요소 구현에는 한계가 있음을 시사한다. 특히 향후에는 배리어프리 설계 요소와 오감 자극 요소를 보다 충실히 반영할 수 있는 프롬프트 설계 및 모델 보완이 필요할 것으로 판단된다.
본 연구의 정성평가는 Stable Diffusion으로 생성된 치유정원 이미지를 대상으로 ChatGPT를 활용하여 수행되었다. AI는 동일한 평가 항목에 대해 반복적이고 일관된 서술형 응답을 생성함으로써, 각 기능별 이미지의 상대적 경향을 비교하는 탐색적 도구로 사용되었다. 그러나 본 연구는 ChatGPT 단일 평가자 기반의 구조로 평가 신뢰도를 확보하기 어렵다는 한계를 가진다. 따라서 본 연구에서는 이러한 한계를 명시하고, 전문가 평가와의 비교·보완은 후속 연구에서의 필요 과제로 제시하였다.
본 연구에서는 동일 프롬프트를 기반으로 Stable Diffusion의 네 가지 접근(text-to-image, image-to-image, checkpoint, LoRA)에 대해 생성된 이미지를 CLIP Score로 정량 평가하였다(표 9 참조). 분석 결과, LoRA 기반 결과물의 평균 점수는 30.23 ± 3.54로 가장 높았으며, Checkpoint 30.22 ± 1.62, Image-to-Image 29.59 ± 2.12, Text-to-Image 23.95 ± 1.53 순으로 나타났다. 이는 LoRA 및 Checkpoint 기반 접근이 텍스트–이미지 정합도 측면에서 우수함을 시사하였다.
| 생성된 접근 방식 | CLIP Score(Mean ± SD) | n |
|---|---|---|
| Text-to-Image | 23.95 ± 1.53 | 5 |
| Image-to-Image | 29.59 ± 2.12 | 5 |
| Checkpoint | 30.22 ± 1.62 | 5 |
| LoRA | 30.23 ± 3.54 | 5 |
두 기능 간 평균 차이의 통계적 유의성을 검증하기 위해 부트스트랩 검정(bootstrap resampling, n = 10,000)을 실시하였다(표 10 참조). 분석 결과, Image-to-Image는 Text-to-Image 대비 95% 신뢰구간 [3.16, 7.73]에서 유의하게 높은 값을 보였으며, Checkpoint 역시 Text-to-Image 대비 [4.34, 8.26] 구간에서 통계적으로 유의한 차이를 나타냈다. 반면 LoRA와 Checkpoint 간의 차이는 평균 0.00(95% CI: [−3.69, 3.04])으로 유의하지 않아, 두 모델의 성능이 유사함을 확인하였다. 또한 LoRA와 Image-to-Image 간 비교에서는 차이가 −0.65(95% CI: [−3.17, 4.07])로, 통계적으로 유의하지 않았다. 이러한 결과는 LoRA와 Checkpoint 기반 접근이 이미지 생성의 일관성과 표현력 측면에서 안정적인 성능을 보임을 의미하였다.
본 연구는 앞선 CLIP Score 정량평가 결과를 바탕으로, LoRA와 Checkpoint 기반 모델이 각각 텍스트–이미지 정합성과 조형성 측면에서 우수한 경향을 보임을 확인하였다. 이에 두 모델의 장점을 통합하기 위해 Checkpoint 기반 모델(landscapesupermix_v21)과 LoRA 기반 모델(landscapeplan-v10da4: LoRA)을 결합하여 최종 치유정원 시각화를 도출하였다. 이 조합은 Checkpoint의 사실적 재질감과 안정적 공간구성, LoRA의 곡선적 패턴과 식재 조직 표현력을 상호 보완적으로 결합함으로써, 단독 모델에서 나타났던 한계를 개선하였다. 그 결과, 현실성과 창의적 조형성이 균형을 이루는 시각화를 구현하였다(그림 5 참조).
생성된 결과물은 심미성과 기능 측면에서 다음과 같이 평가된다. 첫째, 심미성 측면에서는 중앙부 원형 식재대와 곡선·직선 동선의 조합이 형태미와 공간 위계를 강화하였으며, 다양한 수목과 초화류의 색채 대비가 조화를 이루었다. 포장과 식재의 경계가 뚜렷하고 스케일이 안정적으로 표현되어 전체적인 시각적 완성도가 높았다. 둘째, 기능 측면에서는 출입구와 순환형 동선이 명확하게 구획되어 접근성과 예측 가능성이 향상되었으며, 식재·휴식 공간의 구분 또한 분명하게 표현되었다. 다만 배리어프리 세부 요소나 오감 식재 표현은 상대적으로 단순하게 나타나는 한계가 있었다.
종합적으로, Checkpoint+LoRA 조합은 앞선 네 가지 기능(Text-to-Image, Image-to-Image, Checkpoint, LoRA)보다 높은 시각적 완성도를 보였으며, CLIP Score 또한 32.93 ± 1.31로 가장 높은 수치를 기록하였다.
또한 부트스트랩 검정 결과, Checkpoint 대비 95% 신뢰구간 [0.83, 4.48]에서 통계적으로 유의한 차이를 보여, 두 모델의 결합이 실제로 성능 향상에 기여했음을 확인하였다. 이로써 Checkpoint와 LoRA의 교차 적용은 치유정원 시각화의 효과적인 접근법으로 평가될 수 있으며, 향후 실제 설계 적용을 위해서는 배리어프리(BF) 설계 요소와 오감 식재 표현의 보완이 필요할 것으로 판단된다.
5. 결론
본 연구는 치유정원과 같이 구체적인 설계 요소가 요구되는 특수 목적 정원의 시각화를 대상으로, Stable Diffusion의 주요 기능(Text-to-Image, Image-to-Image, Checkpoint, LoRA)을 적용하고 CLIP Score를 활용한 정량·정성 평가를 통해 탐색적 시각화 방법론을 제시하였다. 정량평가 결과, LoRA(30.23 ± 3.54)와 Checkpoint (30.22 ± 1.62)가 가장 높은 텍스트-이미지 정합도를 보였으며, 두 기능 간 평균 차이는 통계적으로 유의하지 않았다(95% CI: [−3.69, 3.04]). 그러나 두 모델을 결합한 최종 시각화는 CLIP Score 32.93 ± 1.31로 가장 높은 값을 기록하였고, Checkpoint 단독 대비 95% 신뢰구간 [0.83, 4.48]에서 유의한 차이를 보여 성능 향상이 확인되었다. 이는 Checkpoint의 사실적 재질감과 공간 안정성, LoRA의 곡선적 식재 조직과 조형 표현력이 상호보완적으로 작용했기 때문으로 해석된다.
정성평가에서는 심미성 평균 4.19점(SD = 0.13), 기능성 평균 3.25점(SD = 0.25)으로 나타났으며, ‘형태와 조화미’(4.25)와 ‘색채·재료의 미적 사용’(4.75)이 높은 반면, ‘배리어프리 설계’(2.25)와 ‘출입구 명확성’(3.0)은 상대적으로 낮았다. 이는 생성형 AI가 시각적 완성도 측면에서는 충분한 가능성을 지니지만, 이용자 중심의 기능적 요소와 오감 식재의 세부 표현에서는 한계가 있음을 시사한다.
이러한 결과는 치유정원과 같은 주제정원의 설계요소를 기반으로 한 프롬프트 구조가 Stable Diffusion의 이미지 생성 과정에 일정 수준 반영될 수 있음을 보여준다. 특히 LoRA와 Checkpoint 조합은 조형성과 현실성의 균형을 구현하며, 치유정원 시각화에서 기능별 최적 조합을 탐색한 사례로서 조경설계 초기단계의 개념 시각화 도구로 활용될 잠재력을 제시하였다. 다만 본 연구는 탐색적 실험으로서의 의미에 국한되며, 실무적 가이드라인으로 일반화하기에는 제한적이다.
본 연구의 의의는 다음과 같다. 첫째, CLIP Score와 정성평가를 결합한 평가 체계를 통해 주제정원 시각화에서 생성형 AI의 표현력을 객관적으로 검증할 수 있는 탐색적 프레임워크를 제시하였다. 특히 CLIP Score가 기능별 평균값(23.95–30.23)의 유의한 차이를 보여 모델 간 성능 비교가 가능했으며, 정성평가에서는 심미성과 기능성 항목 간 점수 차이(4.19 vs 3.25)를 통해 설계기준 반영의 한계를 명확히 도출할 수 있었다. 둘째, LoRA와 Checkpoint 조합 실험을 통해 시각적 완성도와 구조적 안정성 간의 상호보완적 관계를 규명하였다. LoRA는 ‘형태와 조화미’ 및 곡선적 식재 조직 표현에서 높은 평가를 보였고, Checkpoint는 공간 구획 명료성과 직선적 공간 구성에서 강점을 보였다. 이 두 특성이 결합된 최종 조합이 CLIP Score 32.93으로 가장 높은 값을 기록하여 상호 보완성을 실증적으로 확인하였다. 셋째, 정성평가 결과를 프롬프트 조정에 환류할 수 있는 AI 피드백 루프의 가능성을 제시하였다. 예를 들어 ‘배리어프리 설계’ 항목이 2.25점으로 낮게 나타났다는 결과는 경사·폭·난간 등 세부 키워드가 프롬프트 강화의 핵심 요소임을 시사하며, 이는 향후 반복 생성 과정에서 설계기준을 정교화할 수 있는 기반이 된다.
연구의 한계는 다음과 같다. 본 연구에서 생성된 치유정원 이미지에 대한 정성평가는 AI 도구를 활용하였다. ChatGPT 평가는 평가자의 주관적 편차를 줄이고 일관성을 확보할 수 있다는 장점이 있으나, 단일 AI 평가자 구조로 인해 평가자 간 신뢰도(inter-rater reliability)를 산출할 수 없다는 한계를 가진다. 이에, 본 연구의 ChatGPT 활용은 전문가 평가를 대체하기보다는, AI 기반 정성분석의 보조적·보완적 도구로서 탐색적 의미를 지닌다. 향후 연구에서는 생성된 이미지에 대하여 조경 및 치유정원 전문가를 포함한 다인 평가를 수행하여 결과의 신뢰도 보강하는 과정이 반드시 필요하다.