데이터 분석

[데이터 분석] 도서배달로봇의 상용화를 위한 거점 탐색 및 배달 경로 구축

곽가누 2023. 8. 31. 04:24

*전체 PPT는 맨 아래에 첨부하였습니다.

[관악구X한국경영인증원] 23년 관악구 청년 Data Science 중고급과정 이수 후,

공익 목적 배달로봇의 상용화에 기여하기 위해

1. 도서배달로봇의 정차 거점 탐색과

2. 배달 경로 구축을 주제로 한 데이터 분석 프로젝트입니다.

 

 

1. 개요

관악구는 다른 구에 비해 낮은 대출 건수를 기록했다.

또한, 대출중인 도서보다 연체중인 도서가 더욱 많았다.

정상반납과 연체 후 반납의 비율이 비슷할 정도로 연체율이 높은 것을 알 수 있다. 

 

많은 푸드테크 기업들이 배달로봇을 도입하는 것을 보고, 도서관에서도 배달 로봇을 사용하면 어떨까 하는 생각이 들었다.

배달로봇이란 말 그대로 무엇인가를 배달해주는 로봇이다.  용도에 따라서 음식, 도서, 자재 등이 될 수 있습니다. 아마존과 포드, 쿠팡 등을 비롯한 여러 기업에서 배달로봇을 이미 상용화하여 사용하고 있으며, 우리나라의 경우 국회의원회관과 국회도서관을 이동하며 도서를 배달하는 로봇이 운영되고 있다. 

우리 서비스의 이름을 '서 배 로봇' 에서 따와 '도달이' 로 짓고, 나름의 상용화 방안의 체계를 구축하였다. 

배달이라기 보다는 배달에가깝다라고 볼 수 있을 것 같다. 도달이가 정차할 거점이 정해져 있어서 , 도달이가 도서관과 거점을 이동하여 책을 배달하면, 사람들이 그 거점에 방문하여 책을 가져가거나, 혹은 반납인 경우에는 도달이에게 책을 반납하는 방식이다. 이용 방법은 어플을 통해 미리 대출/반납 중 이용할 서비스와 시간을 정하고, 거점에 도착하여 도달이를 이용하면 된다. 

 

2. 활용 데이터 및 변수 소개

9가지의 공공데이터 목록.

거점 후보 예시 : 학교

거점 후보로 학교, 도서관 이용의 사각지대를 줄이기 위해 경로당, 장애인 시설, 접근성이 높은 골목상권과 전통시장, 많은 사람들이 모여 있는 아파트와 오피스텔, 그리고 공원을 설정하였다. 

관악구의 도서관 중 대출 데이터가 있는 9개의 도서관을 서비스 도서관으로 지정하였다. 공공도서관 5개소와 작은도서관 4개소의 위치를 나타낸 것이다. 배달로봇을 운영하기 위해서는 적당한 규모가 보장되어야 하고, 모델링을 위해서는 충분한 데이터가 필요하다. 조건을 만족하는 도서관을 추려보니 공공도서관 5개소와 작은도서관 4개소, 9개의 도서관이 되었고 이를 도달이를 운영할 도서관 후보로 정하였다. 

3. 데이터 분석 과정 

정차 거점 선정을 위한 모델링 변수를 1km 이내 도서관 수, 1km 이내 유동인구 수, 가장 가까운 거점도서관의 점수, 거점도서관까지의 거리 4가지로 정하였다. 

후보지 기준 1km 이내 도서관 수는 근처에 도서관이 적을수록 서비스의 실효성이 증가하고, 많은 지역일수록 다른 도서관과의 연계가 용이하므로 변수에 포함하였다. 다음으로 후보지 1km 이내 유동인구는 적정한 유동인구 수가 확보되어야 하므로 서비스 제공의 실효성을 위해, 도서관 활성도는 각 도서관의 현재 활용 정도를 파악하여 서비스를 우선시할 도서관을 파악하기 위해 변수로 사용하였다. 마지막은 거점도서관과의 거리이다. 여기서 거점 도서관은 앞서 언급한 9개의 도서관 중 후보지와 가장 가까운 도서관을 의미한다. 후보지와 도서관이 너무 멀면 최적화가 어렵고, 너무 가까운 경우 서비스의 효용이 낮기 때문에 고려할 필요가 있어 변수에 포함하였니다

1km 이내 도서관 수는 우선 도서관과 후보지의 위치를 기준으로 거리를 추출한 뒤 1km 이내의 도서관만을 추출하였다.

1km 이내 유동인구 수는 유사한 방식으로 후보지를 기준으로 1km 이내의 상권을 추출하고, 해당 상권들의 유동인구수 데이터를 이용하여 구하였다.

세 번째는 가장 가까운 거점도서관의 점수입니다. 각각의 도서관의 활성화 점수는 면적 대비 대출 권수, 이용자수, 총 등록자 수, 보유도서 수로 모델링하여 점수를 할당하였다.

네 번째 변수인 거점도서관과의 거리는 후보지로부터 도서관까지의 접근성을 구하기 위해 후보지와 도서관의 위치 데이터를 바탕으로 거리를 구하였다. (슬라이드 없음) 

1km 이내 도서관 수와 1km 이내 상권 유동 인구를 독립 변수로, 가까운 도서관의 도서 활성도를 종속변수로 하여 다중회귀분석을 진행한 결과, 34.5% R-squared 값이 도출되었고 이를 토대로 도서관 개수와 유동 인구수가 도서관 활성도에 영향을 미친다고 해석하였다. 1km 이내 도서관 수와 1km 이내 유동 인구의 회귀계수 값의 비율이 3:1로 도출되었다.

4. 데이터 모델링

 

도달이의 효율적인 운영을 위해 시간대를 나누어  총 4가지의 모델로 분석하고자 하였다. 출퇴근시간과 생활시간대로 나누어 모델 1과 모델 2는 생활 시간대, 그리고 모델 3과 모델 4는 출퇴근시간으로 하였다.  출퇴근 시간에는 사람들의 이동이 많은 곳을 정차지로 설정하여 사람들이 쉽게 이용할 수 있게 하고, 생활 시간대에는 정차지를 고루 배치하여 많은 사람들이 비교적 가까운 거리에서 이용할 수 있도록 하기 위해 두 시간대의 변수 가중치를 다르게 설정하였다.

 

이 변수를 바탕으로, 모든 후보지에 배율과 구간 별 점수를 곱한 것을 모두 더해서 할당한 점수를 기준으로 정하여 높은 점수를 받은 후보지를 추려 정차 거점으로 선정하였다. 

앞서 언급한 것처럼 후보지의 점수를 변수의 배율과 해당하는 구간의 점수를 곱한 값을 모두 합하여 구하였고, 50점 만점을 기준으로 45점 이상 50점 이하인 장소를 추출했다. 

 

.45점과 50점 사이의 후보지들이 대부분 이 클러스터에 존재한다는 것을 알 수 있다.  따라서 후보지 채택이 용이하며, 도서관의 밀도도 높은 편이라 도서관 간 상호대차 등의 연계가 용이하다는 장점이 있다. 이 클러스터가 도달이 실효성이 가장 높은 클러스터로 판단하였고, 이를 기준으로 최종 거점을 정하였다. 

클러스터에 해당하는 도서관만 도달이를 운영하고자 하였고, 따라서 총 5개의 도서관을 도달이를 운영할 도서관으로 추렸다. 

 

클러스터에서 후보지가 많이 몰려있는 부분을 후보정하여 그 인근의 편의점, 버스 정류장 등 사람들이 이용하기 용이한 거점을 출퇴근 시간대의 거점으로 정하였다. 

출근시간과 퇴근 시간의 두 경우 모두 거점이 5개 이하로 정해졌기 때문에 가까운 도서관에 출근 시간에는 하나씩, 퇴근시간에는 한 곳을 제외한 4개의 도서관에 배치하여 최단경로로 도달이가 이동할 수 있도록 설정하였다. 

겹친 곳을 합쳐 14개로 합치고, 도달이를 운영가능한 도서관이 5개이므로 5묶음으로 나누고 묶음 당 도서관을 할당하였다. 그래서 도달이는 도서관에서 출발하여 저 묶음 내에 해당하는 도서관을 일정 시간 간격을 두고 순회하게 된다. 

성현동작은도서관의 경우, 다음 세 거점에 서비스를 운영하게 된다. 

1조_발표 ppt.pdf
4.22MB