sonagi's blog!

Enabling Networked Knowledge! haklae.kim at gmail.com

Archive for the ‘google’ tag

The Knowledge Graph – 시맨틱 웹 커뮤니티의 서운함

leave a comment

The Knowledge Graph가 발표된 후 뉴스가 쏟아지고 있네요. 기술적인 내용은 다른 포스트를 통해 공유를 하고 오늘은 시맨틱 웹 커뮤니티의 서운함(?)에 대한 이야기를 해 봅니다.

시맨틱 웹 소식을 주로 다루는 semanticweb.com에 자극적인 타이틀의 기사가 올라왔습니다. 구글이 GKG (Google Knowledge Graph)를 소개하며, 시맨틱 웹 커뮤니티의 공헌은 언급조차 하지 않았다는 겁니다.

기사 보기: Google Just Hi-jacked the Semantic Web Vocabulary (구글의 날치기  ^^)

Sean은 다음과 같은 리스트로 GKG가 시맨틱 웹 기술을 날치기했다고 주장합니다.

  • “Knowledge Graph” -> Linked Data Cloud
  • “Relationships Between things “ -> Linked Data
  • “ Naming things Better” -> Taxonomy
  • “Objects” -> Entities
  • “Ambiguous Language” -> Semantics
  • “Connecting Things” -> Linked data
  • “discover new, and relevant, things you like” -> Serendipity
  • “meaning”-> Semantic
  • “graph” ->  RDF
  • “things” -> URIs (Linked Data)
  • “real-world entities and their relationships to one another: things” -> Linked Data
 사실 틀린 얘기는 아닙니다. GKG를 어떻게 구현을 했는지 모르지만 시맨틱 웹 커뮤니티에서 연구하고 개발했던 것을 적용했을 가능성은 매우 높습니다. Sean이 비판하는 것은  구글이 새롭게 개념을 정리하거나 만든 것이 아니기에 시맨틱 웹 커뮤니티에 대한 Credit이 필요한데 이것을 무시했다고 지적합니다.
이런 일이 처음은 아닙니다. 몇 해 전 구글이 새로운 어휘를 개발한다고 했을 때, 그리고 Schema.org도 시맨틱 웹 커뮤니티에서 만든 어휘 대신 새로운 어휘를 정의하고, 연결 관계를 고려하지 않았었죠.  구글은 시맨틱 웹의 연관성을 부정하는 것일까요?
최근 구글의 Schema.org로 옮긴 Dan Brickley는 댓글에서 많은 사람들이 이런 일을 하고 있다고 언급합니다. FOAF를 만든 사람이고 시맨틱 웹에 대해 누구보다 이론과 실제를 알고 있기에 좋은 방향으로 진행되기를 기대해 봅니다. 최근 Dan은 BBC Academy의 발표에서 이런 말을 합니다. 어휘의 재활용은 온톨로지가 서로 연결되기 위한 핵심인데, schema.org처럼 종합 선물셋트가 필요하다고 주장합니다.

(at 14:10) In the RDF community, in the Semantic Web community, we’re kind of polite, possibly too polite, and we always try to re-use each other’s stuff. So each schema maybe has 20 or 30 terms, and… schema.org has been criticised as maybe a bit rude, because it does a lot more it’s got 300 classes, 300 properties but that makes things radically simpler for people deploying it. And that’s frankly what we care about right now, getting the stuff out there. But we also care about having attachment points to other things…

어떤 방식이 좋을까요? 사용자, 개발자의 입장에서 보면 schema.org처럼 모든 것을 제공해 주는 것이 편리하겠죠. 여러 어휘를 배우지 않아도 될 것이고, 주요 검색엔진에서 사용될 수 있으니 장점도 많을 수 있습니다. 왠지 구글의 모습에서 마이크로소프트의 예전 모습을 보는 것 같아 마음이 무겁습니다.
물론 중요하지 않은 이슈일 수 있습니다. 시맨틱 웹의 현실성에 대한 비판은 점차 줄어들 것이고, 도메인의 확장에 따라 지속적인 발전이 따라올 것이라 생각이 됩니다. 묵묵하게 할 일을 진행하면 되는 거겠죠. ^^

Written by sonagi

May 22nd, 2012 at 8:30 am

Knowledge Graph: 시맨틱 웹 기술의 비판과 현실

leave a comment

 

구글이 올해초 소개했던 시맨틱 검색의 실체를 공개했습니다. 구글의 검색 기술을 시맨틱 웹과 연관지어 변화시킬 것이라는 루머는 그동안 계속 있었지만, Knowledge Graph를 통해 루머가 현실로 다가왔습니다.

구글의 검색엔진은 어떻게 발전할 것인가?

구글의 공식 블로그는 Knowledge Graph의 목표를 “Things, not strings“으로 요약하고 있습니다. 웹페이지에 텍스트로 표현된 “서울”이 “서울은 도시이다” 또는 “대한민국의 수도이다”로 인식될 수 있는 것이죠.  기계가 단어의 의미를 이해하는 것일까요? 현재 검색엔진은 웹 페이지를 수집하여 문자열을 분석하고 알고리즘적인 방법으로  해당 문자열의 의미를 부여합니다. 구글이 말하는 시맨틱 검색은 사람이 생각하는 것과 같이 문자열을 의미가 있는  ”Thing (사물)”로 인식할 수 있게 하는 것입니다.  Jack Menzel (director of product management at Google)이 CNN과 인터뷰에서 다음과 같이 말합니다.

 You, as a human, associate those words with their real-world meaning but, for a computer, they’re just a random string of characters. 

Knowledge Graph를 통해 구글 검색은 세 가지 혁신을 추구합니다 (by 구글 블로그).
1. Find the right thing (검색어의 의미를 이해하여 정확한 결과를 제공)
검색어에 대해 여러 가지 의미를 갖는 객체를 식별할 수 있는 정보를 제공해 줍니다. 예를 들어, “Apple”를 검색할 때, 회사인지 과일인지 구분하거나, 적어도 구분할 수 있는 기준을 제공해 줍니다.
2. Get the best summary (검색어와 관련된 주제 및 콘텐트에 대한 요약 정보 제공)
Wikipedia의 특정 주제에 대한 메타 정보 (Infobox)를 보듯이, 특정 인물이나 장소에 대한 enriched 정보를 볼 수 있습니다.
3. Go deeper and broader (검색을 통해 의도하지 않은 새로운 정보를 제공)
소녀시대의 Jessica를 검색했을 때, Jessica에 대한 enriched metadata를 넘어, f(x)의 크리스탈이 동생이라는 정보도 함께 제공해 줄 수 있습니다.

It’s just awful. 이런 것이 어떻게 가능할까요? 구글이 Knowledge Graph를 어떻게, 어떤 기술을 이용해서 구축할 것인지 이제 조금씩 공개가 되겠죠. 다만 구글의 비전이 시맨틱 웹이 지향하는 것과 동일하다는 것은 이견이 없습니다. 웹에 존재하는 모든 것을 Resource로 표현하고, 이들 사이의 명시적 관계 (explicit relationship)를 만드는 것은 온톨로지로 만들어지고, 이렇게 만들어진 온톨로지는 웹이라는 공간에서 자유롭게 연결되고 확장될 수 있습니다.

구글의 이런 움직임은 Freebase를 인수할 때 어느 정도 예상할 수 있었던 일입니다.  더불어 구글이 Schema.org (웹페이지의 메타데이터를 구조적으로 표현하기 위한 어휘 및 구조를 정의) 를 적극적으로 이끌어가는 모습에서 구글의 전략은 확실해 졌습니다. 구글은 앞으로 schema.org를 통해 웹을 더 구조적으로 만들고, 이렇게 표현된 웹페이지를 Knowledge Graph와 연결하여 의미적 연관성을 높여 나갈 것입니다. 구글 입장에서 보면, 기하급수적으로 증가하는 웹 데이터를 알고리즘적으로 분석하고 의미를 부여하는 작업을 손쉽게 해결할 수 있는 것이죠.

더불어 현재 진행되고 있는 Linked Data, Open Government Data를 통해 공유되는 거대한 데이터가 Knowledge Graph와 연결되기 시작한다면 Web of Data의 현실화가 멀게 보이지 않습니다. 물론 Knowledge Graph가 완성도를 높이기 위해 많은 시간이 필요할 것이고, 인스턴스 수준을 넘어 스키마를 연계하는 작업은 쉽지 않은 일입니다. 그렇지만 온톨로지를 구축하는 것이 어리석은 일이라고 했던 수많은 비판을 넘어 현실화된 결과를 보고 있듯이 변화는 꾸준히 오고 있습니다.

Siri와 Knowledge Graph… 이 정도면 시맨틱 웹의 킬러애플리케이션의 등장이라고 할 수 있을까요?

관련기사

Introducing the Knowledge Graph: things, not strings

Google revamps search, tries to think more like a person

 Google Search Just Got 1,000 Times Smarter

Google’s new Knowledge Graph: Three key features

 

Written by sonagi

May 17th, 2012 at 10:51 am

In, Around, and Outside Stanford

leave a comment

발표.

발표는 엉망입니다. 이번 발표도 엉망으로 하고 좌절을 했습니다.

발표 전에 데모로 보여줄 사이트를 확인해 놓고 시작했는데 결국 인터넷 연결이 되지 않아 보여주지도 못하고. 다른 분야에 있는 사람들을 설득해야 한다는 생각이 정도로 세션의 분위기는 낯설었죠.

주제는 정말 밀접했는데 방법이 너무도 다른 더군요. 세션의 chair 물리학을 전공하고 CS 쪽에 있다보니 소셜 의미를 주로 네트워크를 찾는 것에 두는 같더군요. 대부분의 논문도 그런 내용들이었구요. 태그의 문제, 공유의 문제를 다루기 보다, 딜리셔스, 플리커, 혹은 위키피디아에서 데이터를 모아서 분석해 보니까 이런 네트워크가 나오더라. 이런 내용이 많았고 토론도 주로 그런 방향으로 이루어졌구요. 개정도 발표를 듣고 후론 지겹다 싶더군요.

세션은 마음에 들지 않았습니다. 발표와 질의응답도 너무 답답했구요. 명이 발표하고 발표가 모두 끝나면 발표자에게 질문을 합니다. 주제가 모두 비슷하면 그나마 좋았을 텐데, 이게 되지 않다보니 질문은 거의 사람, 그것도 서로 아는 사람들한테 집중이 되고 나머지 발표자들은 그냥 30분을 앉아 있게 되고. 재미있는 것은 시간이 지나면 명이 발표자를 찾아가 개별적으로 질문을 합니다. 궁금해도 질문할 기회조차 없었던 거죠.

왼쪽 끝에 살짝 나온 사람이 Bernardo Huberman입니다. “The Structure of Collaborative Tagging Systems” 의 공저자입니다. 등록할때 잠깐 얘기한 것이좀 아쉽죠.

사람 만나기.

마음이 흔들릴 정도의 일이 생기네요. 사람을 만난다는 것은 가능성인가 봅니다.

발표를 하는 세션에서 많은 사람들을 만나서 얘기하고 싶은 생각이었는데 쉽지 않더군요. 다른 분야라 생각을 해서 그런지. 오히려 다른 세션에서 사람들을 만나고 얘기를 했습니다.

세션에서 만난 중에 Doreen Y. Cheng 이란 분은 산호세의 Samsung Information Systems America 있는 분인데 나이도 있는데 정말 열심히 참여하더군요. 발표를 들었다고 찾아봐서 다시 설명해달라는 관심까지. 분과 많은 얘기를 했습니다. 시맨틱 웹을 많이 연구를 하지 않았지만 앞으로 많이 진행할 계획이라고 합니다. 좋은 일이 있을 같습니다.

Rensselaer Polytechnic Institute 있는 Li Ding 이름은 알았는데 직접 적은 없습니다. Jim Hendler 함께 일하는 친구인데 대화에서 서로 편해져서 얘기 저얘기 수다를 떨었죠. 다행히 친구는 제가 하는 일을 알고 있어서 이야기가 많이 진전이 있었던 같았구요. DERI 얘기도 많이 하고. 구글에 차를 태워줘서 고마웠죠. 시맨틱 웹에 대한 이것 저것을 얘기를 했고 연구자들의 동향에 대해 들을 있는 시간이 되었죠. 최근에 많은 연구자들이 기업체로 간다고 하는군요. 희망이 보이는 얘기죠. 조만간 새로운 일을 시작할 있을 같네요. 친구도 소중한 사람이 같은 느낌

마 지막으로 Benjamin Grosof를 다시 만났죠. ISWC 2007 부산에서 처음 보고 얘기를 해었는데요. 다행히 제 특이한 영어가 감동이 있었는지 (?) 기억을 하고 있더군요. Benjamin은 하루만 머물고 가서 얘기를 많이 하지 못했지만 지금 진행중인 연구에 대해 코멘트해줘서 고마웠죠.

구글.

중국 교수님 (Huajun Chen) 만났는데 Plenary Session 끝나고 구글에 간다며 함께 가겠냐고 묻어군요. 바로 간다고 했죠. 친구가 있어서 친구를 만난다고 했는데 구글, 좋더군요.

우선 규모나 환경이 다르더군요. 식당을 갔는데 엄청 식당이 4~5 있었고 음식은 공짜라고 합니다. 요리도 다양하고. 식사하고 사무실을 둘러보는데 개별 데스크는 정말 자유롭게 일한다 싶더군요.

이불, 배게를 놓고 일하는 사람도 있고, 궁전처럼 꾸며 놓은 자리도 있고, 어항 처럼 만든 곳도 있고. 공간마다 음료수, 과일, 커피 간식을 준비해 놓은 것도 독특해 보이더군요. 아쉽게도 사진 찍으면 안된다고 해서 사진은 출입증으로만 대신합니다.

Mountain View 3000천명 정도 있다고 하니 대단하죠. 사람은 광고 쪽을 맡고 있는데 검색, 광고, 전략에 대한 얘기를 주로 했습니다. 시맨틱 웹에 대해 연구를 본적은 없다고 했는데 관심은 계속 갖고 있다고 하네요. 7월에 샌프란시스코에 다시 있다면 공식적인 약속을 하고 오기로 했습니다. 다시 보고 싶은 곳이죠.

짧은 기간동안 즐거운 일이 많았습니다. 날씨도 좋고, 스탠포드를 봐서 좋았고.

돌아갈 것이 걱정은 되네요.

Written by sonagi

March 31st, 2008 at 10:45 pm

Posted in conference

Tagged with , , ,