본문 바로가기

다양한 데이터세트를 빠르고 쉽게 검색...구글, '데이터세트 검색' 정식 서비스

반응형

한때 정보의 바다라고 불리던 인터넷은 더 이상 맑고 깨끗한 자료의 보고가 아니다. 불필요하고 의미 없으며 거짓 정보가 가득한 쓰레기 더미 같은 존재이기도 하다. 더구나 인터넷에 유용한 정보가 더 많아진다고 해서, 필요 없고 유해한 정보가 줄어드는 것은 아니다. 그래서 양질의 정보를 제대로 걸러내고, 필요한 것을 빠르고 정확하게 찾아낼 수 있는, 도구와 방법이 있어야 한다.

 

인터넷에서 필요한 정보를 빠르고 정확하게 검색하려면 최소한 두 가지가 필요하다. 첫 번째는 효율적인 검색 서비스를 제공하는 검색엔진이 필요하다. 두 번째는 원하는 정보에 가장 효과적으로 접근할 수 있는 키워드를 선정할 수 있는 안목이 있어야 한다. 누구나 인터넷을 사용하는 시대지만, 모두가 인터넷을 잘 활용하는 것은 아니다. 그래서 필요한 정보를 빠르고 정확하게 찾는 것이, ‘능력’으로 인정받고 ‘실력’으로 평가되기도 한다.

 

구글이 그동안 베타 서비스로 제공하던 ‘구글 데이터 세트 검색(Dataset Search)’에서 ‘베타’라는 꼬리표를 뗀다고 공식적으로 선언했다. 지난 2018년 9월부터 베타 서비스를 시작한 데이터 세트 검색은, 약 1년 4개월 동안 사용자들의 의견을 반영하며 베타 서비스를 제공해 왔다. 데이트 세트 검색은 구글 학술 검색의 작동 방식과 유사하지만, 게시자 사이트, 디지털 라이브러리, 개인 웹페이지 등 호스팅 되는 모든 위치에서 데이터 세트를 검색한다는 점이 다르다.

 

데이터 세트 검색은 웹에 존재하는 수많은 데이터 세트를 빠르고 정확하게 검색할 수 있도록 하는 데 초점을 맞춘 검색 서비스다. 데이터 세트는 데이터 집합 유형에 따라 표(Table), 이미지, 텍스트, 보관 파일 형태 등으로 구분해서 검색할 수 있다. 업데이트 날짜를 지난 1개월, 지난 1년, 지난 3년으로 구분해서 필터링하는 것도 가능하다.

 

구글 데이터 세트 검색은 공개 표준 형식을 따라 데이터 집합의 속성을 첨부한 데이터 세트를 색인화하고 이를 키워드로 검색할 수 있도록 해준다. 검색된 데이터 세트는 업데이트 날짜, 다운로드 파일 형식, 사용권 등으로 분류해서 볼 수 있다. (화면:Google Dataset Search)

 

이렇게 필터링한 데이터 중에서 무료로 사용 가능한 데이터 집합만을 추려낼 수 있다. 또한 데이터 집합을 상업적으로 이용할 수 있는지, 비 상업적 사용만 가능한지 등의 조건에 따라, 구분하고 분류하는 것도 가능하다. 현재 데이터 세트 검색은 거의 2,500만 개의 데이터 세트를 색인화한 후, 키워드를 통해 필요한 데이터 세트에 대한 검색 서비스를 제공하고 있다. 

 

예를 들어 '기후(Weather)'라는 키워드로 검색하면, 이와 관련해서 검색된 데이터 세트 목록을 보여준다. 검색 결과 화면 왼쪽 상단에는 검색된 전체 데이터 세트의 수를 볼 수 있고, 검색창 아래에 있는 필터 메뉴를 이용하면, 이를 앞에서 설명한 날짜, 파일 형식, 사용권 등으로 구분해서 정렬할 수 있다. ‘weather  site:noaa.gov’처럼 특정 사이트를 한정해서 필요한 키워드를 검색하는 것도 가능하다.

 

키워드를 이용해 인터넷(웹)에서 정보를 검색한다는 점에서는 ‘구글'과 ‘구글 데이터 세트 검색'이 다를 것이 없어 보인다. 하지만 구글 검색은 인터넷에 존재하는 웹페이지 전체를 대상으로 색인화한 후, 검색 키워드가 들어간 페이지를 다양한 조건과 결합해 보여주는 방식이다. 하지만 데이터 세트 검색은 데이터를 게시(공개)하는 사람이 공개 표준(schema.org) 형식에 따라, 자신의 웹 페이지에 데이터 집합의 속성을 첨부해야 한다.

 

즉, 구조화된 데이터 가이드라인에 따라 스키마(schema.org)의 데이터 세트 마크업이나 W3C데이터 카탈로그(DCAT;Data Catalog Vocabulary) 형식을 사용해 구조화된 정보를 웹페이지와 함께 제공해야 한다. 예를 들면 배포 유형, 데이터 카탈로그, 본문, 날짜, 시간, 조직과 같은 다양한 속성으로 구성된 정보를 데이터 세트 본문과 함께 제공해야 한다. 구글 데이터 세트 검색은 이렇게 공개 표준 형식에 따라 제공된 데이터 집합 속성을 수집하고 분류하는 과정을 거친다.

 

그렇다고 모든 자료 또는 정보가 데이터 세트가 될 수 있는 것은 아니다. 데이터 세트로서의 조건을 충족하려면 ►데이터가 포함된 표 또는 CSV 파일 ►정리된 표 모음 ►데이터가 포함된 고유한 형식의 파일 ►의미 있는 데이터 세트를 구성하는 파일 모음 ►데이터 처리를 위해 특별한 도구로 로드할 수 있는 구조화된 개체 ►데이터가 포함된 이미지 ►학습된 매개변수나 신경망 구조 정의 등 머신러닝과 관련된 파일 등이다.

 

따라서 구조화된 데이터 세트 가이드라인을 적용해 데이터 세트를 웹에 공개하는 작성자 또는 배포자가 증가하면, 데이터 세트 검색으로 찾을 수 있는 데이터 세트의 수와 질이 시간이 지날수록 향상될 수 있을 것으로 기대된다. 연구를 위한 정보를 검색하거나, 논문 작성을 위한 자료 검색하고, 비즈니스 관련 통계를 찾는 등 활용 범위는 다양하다.

 

특히, 전 세계 정부 기관에서 제공하고 있는 공공정보가, 이러한 데이터 세트 형식으로 공개되면, 더 많은 사람이 빠르고 편리하게 필요한 데이터에 접근할 수 있을 것으로 보인다. 이미 미국의 경우는 200만 개가 넘는 개방형 정부 데이터 세트를 제공하고 있다. 구글은 ‘표(table)’가 데이터 세트 검색에서 가장 인기 있는 데이터 집합이라고 밝히고, 현재 600만 개 이상의 데이터가 포함된 표를 검색할 수 있다고 밝혔다. 아울러 앞으로 지속해서 데이터 세트 검색의 성능과 기능을 개선해 나갈 것이라고 전했다.

 

 Syndicated to WWW.CIOKOREA.COM

반응형