시맨틱 웹 분야에 있는 사람이라면 어제의 뉴스는 “구글, RDFa를 지원하다“가 아닐까? 이제 시맨틱 웹 뜨는거야?
RDFa를 모르신다면 여기를 보세요.
소식 자체는 즐거울 수 밖에 없는데, 마냥 즐거워할 수 있는 것은 아니다. 좀 오버하면..
국내에서 아이폰 도입에 대한 이슈를 다룰 때 국내 이동통신업체가 욕을 넘고, 검색엔진을 얘기할 때 네이버가 욕을 옴팡 뒤집어 쓰는데 상대적으로 구글의 이미지는 좋은 것 같다. YouTube의 실명제 논란에서도 구글은 반사이익을 많이 얻었다. 평소 내 생각은 구글도 하나의 영리를 추구하는 기업이라는 것이었고, 그 이상 그 이하도 아니었다. 그리고 어제 소식을 접하면서 당연히 기업은 다르구나, 독점적인 위치를 갖고 있는 기업은 이런 거구나 하는 생각을 하게 되었다.
O’reilly Radar의 뉴스와 댓글을 보면 구글의 새로운 도전을 긍정적으로 생각하는 것 같다. 역시 즐거운 소식은 RDF를 이용해서 데이터를 구조화시키는데 구글이 관심을 보였다는 것이다. 적어도 시맨틱 웹의 비전에 대해 “최소“의 필요성은 인정했다라고 해석할 수 있을까? 2006년 좀 심하게 무시했던 것과 비교하면 진일보했다.
우울한 것은 구글이 접근하는 방법이다. Ian Davis의 포스트를 보면 왜 실망하는지에 대해 잘 설명하고 있다.
Google supporting the web of data in a big way, a real push into the world of open structured data. However, a closer look reveals that Google have basically missed the point of RDFa. The RDFa support is limited to the properties and classes defined on a hastily thrown together site called data-vocabulary.org. There you will find classes for Person and Organization and properties for names and addresses, completely ignoring the millions of pieces of data using well established terms from FOAF and the like. That means everyone has to rewrite all their data to use Google’s schema if they want to be featured on Google’s search engine. Its like saying you have to write your pages using Google’s own version of html where all the tags have slightly different spellings to be listed in their search engine!
구글은 RDFa를 지원하지만 기존에 만들어진 RDF 어휘들 – FOAF, SIOC – 을 지원하지 않을 계획이다. 정확히 말하면 아주 새로운 어휘를 만들 계획이다. data-vocabulary.org 가 그런 역할을 하지 않을까? Ian은 그동안 만들어지고 사용되고 있는 어휘들을 무시한채 구글의 방식대로 진행되는 것을 지적하고 있다. 구글도 점점 마이크로소프트처럼 행동한다는 생각이 드는 이유가 왜인지?
물론 Richard의 지적도 이해할 수 있다. 시맨틱 웹 연구자들이 보다 확실하게 이끌었으면 구글이 이런 방법을 취하지 않았을까? 일견 맞는 말이기도 하고 구현 수준에서 어휘를 함께 사용할 수 있을 수 있으니 심각한 문제는 아닐지도.
I think it’s not as dramatic as you make it sound, Ian. RDFa makes it easy to do things like:
rel=”foaf:name google:name”
This is not ideal, but it’s something we can work with.
I also think that decentralization on the Web is often misunderstood. The key point is that the technology of the Web is decentralized. But social factors push us back towards monocultures: 80% of the Web use the same web browser, the same web server, the same search engine. 80% of the Web will also end up using the same few vocabularies. What vocabularies will that be? Not the ones that two kids cooked up for a university class. For people they probably should have used FOAF, but in general I’m not surprised that Google feels a need to roll their own vocabularies.
There’s also a failure here from the RDF community’s side—we haven’t bothered to push our popular vocabularies, such as FOAF and SIOC, into usage with RDFa. If there was a significant installed base of FOAF+RDFa already, then I’m sure it would have found its way into Google’s documentation. But as it stands, all our cool vocabularies live in RDF/XML and SPARQL endpoints.
그러나 문제는 역시 철학에 있는 것 같다. 웹 온톨로지를 만들 때 내가 대화했던 거의 대부분은 이미 정의된 어휘가 있고, 내가 새로 만들거나 정의하는 것이 명확하지 않다면 재사용하는 것이 옳다였다. 상대방의 연구를 인정한다는 의미도 있지만 그렇게 함으로써 웹 온톨로지 사이의 상호운용성을 보장할 수 있기 때문이다. 구글의 방식은 그래서 더 실망스럽다. 이와 비교해 보면 야후의 SearchMonkey는 기존 어휘들을 대부분 지원하려고 노력한다.
당분간은 큰 이슈가 될 것이다. 시맨틱 웹 메일링 리스트에서 벌써 활발한 토론이 이루어지고 있다. 어떤 방향으로 진행될지 살펴봐야 겠지만 허탈하다.
관련 글