정보(情報)에 대한 두 가지 접근

, , ,

코스웍을 시작한지 한달 하고 반이 지났다.

나름 의욕적으로 시작했는데 쉽지 않다. 학업을 놓은 지 10년이 지나서 ‘감’도 떨어진데다 원래 했던 분야가 아니니 더더욱 그렇다. 열심히 따라가고자 하는데도 연구에서 쓰는 용어(Terminology) 같은 기초 지식이 부족한걸 메꾸기가 쉽지 않다.

내가 있는 랩은 기본적으로 지식기반(KB) 시스템에서 좋은 정보를 찾는 방법을 연구하고 이를 위해 데이터 마이닝이나 시맨틱 웹 기술을 이용하고 이를 의생명 데이터에 접목하는 연구를 한다.

이번 학기에 세 과목을 듣는데 그 중 하나가 우리 지도교수님이 티칭 하시는 ‘지식 표현 및 추론(Knowledge Representation and Reasoning)’에 대한 것이고 산공과에 개설된  ‘정보 검색(Information Retrieval)’에 대한 페이퍼 리딩 수업이다. (나머지 하나는 치의학 ‘상식’을 빙자한 특강 수업이라 크게 부담은 없다.)

두 수업을 들으면서 의미 있는 정보를 얻기 위한 두 가지 다른 접근 방법에 에 대해 생각해 보고 있다.

전자의 경우 잘 정의된 지식 기반이 있으면 컴퓨터도 쉽게 지식을 추론할 수 있는 여러 가지 기법에 대해 다룬다.

p->q (p는 q이다)라는 단순한 명제에서 출발해 지식에 대한 기호 표현법 그리고 이를 컴퓨터가 응용할 수 있는 Prolog라는 로직 언어도 배운다. 논리학이랑 이산수학 책도 가끔 뒤적여야 하고 생각 안나는 알고리듬도 꺼내서 봐야 한다.

후자는 무질서한 지식(문서)에서 사용자의 쿼리에 대해 최적의 답을 찾는 방법을 다룬다. 전통적인 IR 알고리듬들 부터 머신러닝 알고리듬, 통계적 분석 법을 다루는 논문들을 읽는 데 거의 외계어 ‘수식’이 나열 되어 있고 옛날 확률책을 뒤적여 봐도 ‘확률적(?)’으로  밖에 이해가 안된다.

다행히 교수님이 50편의 논문을 기본 부터 심화로 매주 편성을 해 두어서 그나마 아! 이런게 있구나 하고 따라가고 있다. 좋은 논문 레퍼런스인것 같다. (Lecture에 가면 두 개로 나눠져 있다.)
사용자 삽입 이미지
쉽게 이야기 하면 웹2.0에서 유행했던 Taxonomy와 Folksnomy 의 차이랄까? 한쪽은 잘 정의된 지식에서 다른 한쪽은 무질서해 보이는 지식에서 의미 있는 지식을 찾는 것이다. 물론 웹 세계에서는 아직까지는 IR이 이긴것 같다. (PageRank가 세상을 바꾼 것처럼.)

하지만, 최근 소셜 데이터 웹이나 LinkedData는 웹에서 KB가 가능하다는 것을 보여 주기도 한다. 최근에 TBL이 띄워줘서 유명해진 DBPedia의 경우 사람들이 만든 위키퍼디아라는 문서 형식에서 데이터 구조를 찾아내서 이를 다른 KB들이 서로 링크해 주는 허브가 되고 있기도 하다.

사실 KB을 만들 때 사람이 만들어 준 정형화 된 도구와 형식이 지식 표현의 자유도를 침해하기도 하고 그렇다고 무작정 원하는 대로 해 준다고 또 잘 되는 것도 아니다. 우리가 원하는 건 그 둘 사이 중간 쯤 어디가 아닐까?

여러분의 생각

  1. 아.. 예전에 제가 다니던 직장에서 지식DB사업을 하고있더래요.. 현재 이래저래 연구사업을 외주주고 있는듯 하던데 .. http://www.krpia.co.kr/index.asp 관계가 있는지는 잘 몰겠지만..ㅎ

    암튼 굉장하고 위대한 도전입니다.. 옆에서 조용히 응원하겠습니다.

  2. 형식적 추론과 발견법적 사고에 대한 이야기군요. 저는 전공이 완전히 다르기는 하지만 개인적으로 관심가지는 분야입니다. 이런 분야에 대한 연구가 활성화되고 관련 서적도 많이 나왔으면 하는 바람입니다.

  3. 조금은 저에게는 아직 어려운 글인 것 같습니다.
    접근 방식에 관한 2가지에 대해 간략하게 생각해볼 수 있는
    글이었던 것 같습니다.^^

  4. 안녕하세요. 논문 레퍼런스 링크가 깨졌는데 혹시 레퍼런스 리스트를 지금도 가지고 계신가요?

의견 쓰기

이름* 이메일* 홈페이지(선택)