메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

IT/모바일

의미기반 웹이 흔들린 곳에서 연관 데이터가 성공할 것이다.

한빛미디어

|

2011-02-16

|

by HANBIT

11,191

제공 : 한빛 네트워크
저자 : Tyler Bell
역자 : 조석규
원문 : Where the semantic web stumbled, linked data will succeed

Tyler Bell 연관 데이터는 소비자에게 풍부하고 예상치도 못했던 경험을 제공해줄 수 있다

신성로마제국이 사실 신성하지도 않고 로마와도 관련이 없었던 것처럼, 페이스북의 OpenGraph Protocol은 열려있지도 않고, 프로토콜도 아니다. 하지만 그것은 극단적으로 솔직하고 적용가능한 문서 메타표준이다. 엄격한 의미론적 관점에서 보자면, OpenGraph는 거의 논할 가치도 없습니다. 기괴한 잡종 표준이고, 마이크로포맷과 느슨한형식 개체들이 뒤죽박죽 섞여서 거의 뒤돌아 보지도 않고 의미기반 웹의 세계로 우연히 굴러들어왔을 뿐이다.

하지만 이는 중요하지 않습니다. 비록 OpenGraph가 의미론적 주석을 둘러싼 많은 문제점들을(Alex Iskold의 OpenGraph에 대한 훌륭한 논평을 보라) 피하거나 완전히 무시하고 있기는하지만, 기술적 순수성에 대한 비판은 간과하고 있는 점이 있다.

페이스북은 다른 선구자들이 실패한 곳에 그걸 적용했다. OpenGraph는 미완성이고 불완전하지만, 당장 사용가능하고 가능한 접근방법들과 연동된다. 가장 중요한 것은, OpenGraph는 더 넓은 생태계의 한 부분이라는 점이다.

그걸 적용해서 얻는 이익은 고객과 개발자 모두에게 명백하다: 메타태그를 추가하고, "좋아요"를 받고, 고객이 알게 하는 것.

고객의 우연성이라고 하는 것은 모든 의미론적 마크업의 도입에 치명적이다. 이미 마이크로포맷의 최종적인 인기는 정리되지 않은 것을 정리해놓고자 하는 추상적인 욕망이 아니라 검색 엔진의 목록에 더 잘 표시될 수 있게 해 주는 능력 때문이라는 것을 보았다. 성공적인 도입은 실용적이고 쉬운 사용을 위해 종종 표준화와 의미론적 순수성의 희생이 불가피하다. 여기가 바로 의미기반 웹이 비틀거린 곳이고, 연관 데이터가 분명히 성공할 곳이다.

연관데이터는 웹을 더 상호연결되고 데이터에 기반한 곳으로 바꾸려한다. 이 결과와 상관없이, 용어 자체는 그렇게 엄격히 정의된 것은 아니다. 연관데이터는 표준이라기보다는 상황을 정의하고, 구분을 돕고, 사용자 경험적 측면에서 뜻밖에 즐거운 일을 증가시키기 위한 도덕 규범에 가깝다. 연관 데이터에 대한 이 생각은 데이터, 플랫폼, 애플리케이션 계층에서 연동되는 많은 부분에 적용 가능하다.
  • 계체 규정: 인터넷의 누가, 무엇을, 어디서, 언제 하는 것들을 정의하는 개체는 의미와 문맥 규정을 타입에 따라 캡슐화한다. 가장 기본적인 의미로 개체는 타입에 따라 조직된 사람, 위치 상품 같은 물건들의 목록이 줄지어 선 것이다. 이 각각은 고유한 식별자가 있다. 연관데이터의 이익을 인식한 단체들이 전에 없었던 개체들을 내놓고 있다. 뉴욕타임즈에서 찍어내는 만 개가 넘는 제목, 영국 Ordance Survey에서 나오는 행정구역과 우편번호, 야후 GeoPlanet에서 나오는 지명, 그리고 Factual에서 만들어지는 데이터 기반 구조가 그것들이다.

  • 개체 주석:블로그글이나 웹페이지 같은 비구조화된 문맥상에서 개체에 주석을 다는 수많은 방법들이 있다. 페이스북의 OpenGraph는 HTML5의 microdata나 RDFa, hcard같은 마이크로 포맷처럼 개체주석 형태다. microdata 이제 막 알려지는 반짝이는 새 기술이다. 하지만 Evan Prodromou가 쓴 RDFa 대 microformats라고 하는 이미 확됩된 두 방법론의 싸움에 대한 글을 보라.

  • 종점과 자기관찰:개체는 인터넷에서 접근 가능하고, 기계가 읽을 수 있는 종점, 즉 URI형태로 서로 연관되어 있을 때, 연관 데이터 생태계에 가장 잘 공헌한다. 이 종점들은 자기관찰기능, 바로 개체의 속성과, 다른 것들과의 관계에 대해서도 알 수 있게 해 주는 수단을 제공해야 한다. 예를 들면, Ordance Survey에서 제공하는 사우스햄프턴시에 대한 URI는 http://data.ordnancesurvey.co.uk/id/7000000000037256 이다. 내부 속성들은 뒤에 rdf,ttl,json같은 확장자를 뒤에 붙이는 것 만으로도 기계가 읽을 수 있는 속성(RDF/XML,Turtle,JSON)으로 다시 받아올 수 있다. 속성을 개방해두려면, URI들은 외부에서 접속가능며 합당한 혐식으로 된 API와 권한 획득 구조가 있고, 의미기반 인식이 가능한 웹 크롤러와 Yahoo BOSS같은 검색도구에 노출되어 있어야 한다. 이 정의하에서는 지역사업 URL들은 부분적으로 URI로 제공 가능하다. 예를 들자면 Yelp(hcard와 OpenGraph를 쓴다), Foursquare(microdata와 OpenGraph를 쓴다)에서 "소스 보기"로 반(半)구조화된 데이터를 볼 수 있다.

  • 개체 추출: 어떤 연관 데이터 팬들은 모든 콘텐츠가 주석이 달려서 사람과 기계 모두가 같이 이해할 수 있는 그런 날을 바란다. 그런 날이 오기까지는, 비구조화된 문맥을 인식 가능한 개체로 분석하고, 타입과 식별자에 따라 문맥지능적인 식별자를 만들어내는 개체 추출 기술에 계속 기댈 수 밖에 없다. 기명명 개체 식별(Named entity recognition,NER)은 개체 목록을 사용하는 한 방법이다. 알려진 개체 목록에 없는 개체를 구분하기 위한 방법으로 고안된 행동기반 접근법과 조합되어 사용될 수도 있다. Yahoo, Google, Microsoft는 모두 이 분야에 아주 큰 관심이 있다. 거기다 Semantine같이 더 나은 정확도와 재현력을 가지고 나타난 벤처기업이 아주 많이 늘어나고 있다. 개체 추출이 어떻게 이루어지는지 직접알고 싶다면, 로이터가 가진 OpenCalais와 폼 기반 도구를 사용한 실험을 확인해 보라.

  • 개체 조화와 횡단: 수많은 장소 네임 스페이스는 어떻게 같은 개체가 여러 목록에 동시에 존재하는지 설명해준다. URI에서 유일하다는 것은 단지 주어진 네임스페이스 안에서 유일하다는 것이므로, 연관 객체로 인해 굴러가는 세계에서는 어떤 네임스페이스건너에 있는 어떤 객체와 정확히 연결하는 시스템이 필요하다. 횡단 서비스의 예는 다음과 같다. Placecast의 일치 API는 hcard정보를 받아 해당하는 모든 장소의 Placecast ID를 돌려준다. 야후같은 경우는 OpenStreetMap과 Geonames같은 외부의 14개 자원 중 하나의 장소 ID를 입력해주면 WOEID(Where on Earth Identifier)를 알려준다. 그리고 Guardian은 사용자가 Guardian이 아닌 식별자를 사용해서도 Guardian내부의 정보를 검색할 수 있도록 허용하고 있다. 이런 시스템들은 연관자료 세계에서 알려지지 않은 영웅들이다. 이들은 네임스페이스를 건너 같은 개체 사이를 이어줌으로서 상호 운용가능성을 촉진한다. 거대한, 미처 깨닫지 못한 가치가 이 어플리케이션들 안에 존재하며, 이런 어플리케이션들이 더 많이 필요하다.

  • 관계: 개체는 전체의 일부일 뿐이다. 의미기반 웹의 진정한 힘은 서로 다른 타입의 개체들이 어떻게 서로 연결되어 있는지를 안다는 것을 인식한다는 것이다. 배우와 영화, 사원과 회사, 정치인과 후원자, 식당과 주변사람들, 가게와 상표들이 어떻게 연결되어있는지 말이다. 이 개체들의 그물망, 이 모든 그림의 힘은 점으로 존재하는 개체 각각 안에 있는것이 아니라 그들이 서로 관계된 선에 있다. 그렇게 생각하는 사람은 나 말고 없는 것 같지만 개체 관계가 제공하는 이 풍부한 맥에 적합하게 정보를 집어넣을 수 있게 전에는 동일한 개체가 여럿 존재하는 이 문제를 조화와 횡단을 통해 해결해야 한다고 본다.
위의 접근들은 출판사와 지능적이고, 깊고, 뜻밖에 즐거운 고객 경험을 제공하는 개발자들을 돕기 위해 구성되었다. Aro Mobile의 의미론적 전화기라든가, BBC의 월드컵에 대한 경험이나, 페이스북 알림에 뜨는 통합 참조 같은 것들이 포함된다.

연관 데이터는 어떻게가 아니라 왜에 더 초점을 맞춘 지금까지의 노력 때문에 성공할 것이다. RDF, SPARQL, OWL, triple stores 같은 것들은 귀찮다. URI, micro-formats, RDFa, JSON 같은 것들은 좀 덜하다. 지금 있는 기술과 지식으로 고객에 대한 정보를 알 수 있다면 왜 어려운 겨술을 연구하겠는가? 이제 연관 데이터를 인지한다는 것의 의미를 알았다. 퍼즐 조각은 이미 갖추어져 있고, 그걸 그냥 합치기만 하면 된다.

연관 데이터는 결국, 유저에 대한 토론을 가져왔다. 고객의 "끝"은 결국 "수단"이란 의미다.
TAG :
댓글 입력
자료실

최근 본 상품0