함정, 딜레마를 중심으로 시맨틱 모델링을 학습하는 접근법은 일반적인 학습 방법 대비 재미와 능률에 있어 큰 도움이 되는 구성이라 생각한다. 시맨틱과 관련된 조각과 파편을 한 군데 모은 가치도 크다.
시맨틱 모델링이 그러하듯 구현된 시스템이 담고 있는 기본 속성이 그러하듯 시맨틱은 정의부터도 까다롭다.
굳이 정의하자면 의미론
이라는 거창한 뜻을 니면서도 사람들이 세상이라는 환경에서 상호작용하는 데 있어 사용하는 기호, 단어, 부호 등(책에서는 기표라고 표현한다)과 존재, 컨셉, 아이디어(책에서는 사물이라 표현한다)등 과의 관계나 의미
를 연구하는 분야이다.
너무 추상적인 설명이기에 시맨틱 모델링이 활용되는 분야의 한 예를 책을 빌려 설명하자면 저자가 몸담고 있는 회사에서 만든 ESCO 시스템을 예로 들 수 있을듯 하다.
인사담당자가 데이터과학자를 채용하고자 하는데 해당 직군에 필요한 스킬이 무엇인지 파악하고 싶을 때 시맨틱 모델링이 좋은 해결책이 될 수 있다.
사전에 일자리 컬럼에 해당하는 의미들이 필수 기술이라는 컬럼과 관계를 맺는 그래프를 모델링 해왔다면 쉽게 인사담당자의 질의에 도움을 줄 수 있는 시스템으로 활용할 수 있을 것이다.
시맨틱은 언어, IT, 나아가 철학을 연구하는 사람들은 좋든 싫든 간에 한번은 숙명적으로 접해온 지식 분야이기도 하다. 나 같은 경우에는 NLP, 검색엔진, 분류 시스템 등에 관심이 많고 그 분야를 다루면서 늘 꼬리표처럼 따라 다니던 연구 분야이자 주제이기도 하다.
이런 점을 토대로 책의 첫번째 장점을 추릴 수 있는데 시맨틱에 관련된 조각난 파편들을 한 번에 모아볼 수 있다
는 점이 바로 그러한 장점이라 표현할 수 있겠다.
여기서 찔끔 저기서 찔끔 나타나 도대체 뭐지 하고 제대로 공부하려들면 쉬운 레퍼런스 하나 찾기가 어렵고 정의부터 애매성이 가득한 이 분야를 언젠가 기회가 되면 제대로 정리해보고 싶은 욕구가 들곤 하였는데 마침 적절한 시기에 그런 책이 등장한 셈이다.
또한 시맨틱과 관련된 책은 별로 흔하지 않을 뿐더러 대부분 원론적 개념의 수준이 언어학이나 철학을 전공해야 이해가능할 정도로 그 깊이에 끝이 없고 그 이해의 과정에서 지루함과 반복됨 그리고 방향을 잃은 듯 학습과정에 지쳐 나가떨어지기 일쑤이다.
또한 학습에 투자한 시간 대비 얻는 것이 매우 미약할 뿐만 아니라 그마저도 IT 수단으로 가시화된 구현에 이르기는 또 다른 상당량의 지식을 요하기에 거의 불가능에 가깝다. 그렇게 세월이 흐르며 애쓴 과정은 다시 물거품처럼 사라진다.
이런 측면에서 책의 두번째 장점을 찾을 수 있었다. 굳이 표현하자면 블랙리스트적 접근방
식이라고 해야할까?
확실히 이 분야는 화이트리스트 정공법식 학습보다는 블랙리스트 성격의 접근방식으로 학습하는 것이 유리한 분야이다.
“어떻게 해야해?”라는 주제로 나아가기 보다는 “이렇게 하면 왜 안돼
?”, “애써봤는데 이건 왜 안되는거야?” 등 거꾸로 접근하는 방식이 이 분야의 주제를 빠르게 이해하고 습득하는데 의미있는 이정표 역할을 하는 듯 하다.
영화속의 주인공처럼 스승의 어깨너머로 지루한 인내와 맹목적인 신념을 가지고 이유도 모르고 배우고 익히고 따라하다 영화 끝날 때 즈음 내가 하던 일이 우주에서나 보일듯한 거대한 코끼리 석상을 조각하는 일이었다는 것을 깨닫게 되는 것도 의미있겠지만 처음부터 방향과 목표를 분명히 알고 출발했다면 주인공의 따분함과 괴로움을 해소하는데 큰 도움이 되지 않을까?
물론 이러한 방식의 구성은 스승, 즉, 경험이 풍부한
마스터만이 시전할 수 있는 구성법이다. 덕분에 이 책은 활용할 수 없는 좋은 예제로만 구성된 시맨틱 모델링 책과는 다른 차별점이 있으며 목표를 향해 나아가는데 덜 지치게 만들고 덜 심심하게 만들어주는 효과가 있는 듯 하다.
시맨틱 분야를 알면 알수록 인간의 사고는 확실히 언어적인 요소에 상당부분 지배된다는 것을 깨닫게 된다. 보다 철학적인 분야로 올라가면 플라톤의 이데아나 아리스토텔레스의 에이도스라는 개념에 이르를 것이다.
이 책은 이러한 시맨틱현상, 언어적 현상으로도 불리는 모델링을 어렵게 만드는 요소를 단계적으로 살펴본다. 1부에서는 일반적인 언어적 현상을 2부에서는 그로인해 발생하는 함정을 3부에서는 선택의 단계에 맞닥드리게 되는 딜레마를 다룬다.
앞서 시맨틱의 정의를 내리기가 쉽지 않음을 언급했는데 모델링을 위한 시작부터 이미 순조롭지 않다. 유사 분야의 온톨로지, 지식 그래프 등의 용어와 혼용되어 사용되는 것을 시작으로 데이터베이스 개발자, 온톨로지 공학자, 언어학 전공자
가 바다로 향해 나아가는 삼각주에서 만난다.
같은 주제나 현상을 두고 데이터베이스 진영은 테이블, 필드, 기본키, 외래키 등의 용어로 표현하고, 온톨로지 진영은 객체, 클래스, 데이터 형식 속성 등의 단어를, 언어학 전공자는 유의어, 표제어, 동의어, 하위어라는 표현을 사용할 것이다.
시작부터 쉽지 않은 항해이다. 앞서 이데아, 에이도스에 비유하던 개념은 아래 그림처럼 구상, 추상 엔터티로 나뉠 수 있다. 사람이라는 추상은 홍길동, 김개똥,..등의 구상으로 변할 수 있다.
어떤 두 엔터티가 같은 것인지 판단하는 절차조차 쉽지 않다. 수학적 연산에 있어 가장 쉽다고 말할 수 있는 비교연산자조차 이 세계에서 활용되기는 쉽지 않다.
N원 관게 패턴의 복잡함은 각 엔터티가 가질 수 있는 함정과 딜레마의 첫 출발선이기도 하다.
시맨틱 현상으로는 대표적으로 모호성, 불확실성, 애매성
등을 들 수 있다.
모호성은 두가지 이상의 그럴듯한 해석이 가능한 상황이다. 예를 들어 “내가 트리폴리에서 태어났다”고 할 때 그 지역이 리비아, 레바논, 그리스 아르카디아 지방을 말하는 것으로 각기 해석될 수 있다.
불확실성은 진실을 결정할 수 없는 상태이다. 예를 들어 “지금 비가 올 것 같다.”는 잘 모르겠다는 의미를 내포한다.
애매성은 애매한 경계사례가 대표적인 예이다. “큰 키만 입장 가능”이라는 표지판에서 그 큰 키가 180cm를 말하는 것인지 200cm를 말하는 것인지 등의 문제이다.
나아가 잘못 정의되거나 잘못된 의미를 부여한 일의 여파, 규격이나 지식 측면에서 잘못된 모형을 구축하는 일 등의 함정
등을 고려해야 하고, 0 ~ 1사이의 실수로 피지화할지 하위 클래스로 보낼지의 여부, 세분화와 일반화의 정도 등 시맨틱 모델링이 가지는 딜레마
에 이르기까지 저자의 경험을 기반으로 한 뛰어난 모델링을 위한 저자의 경험이 아낌없이 전개된다.
이 책은 또 하나의 이슈에서도 흥미로운 주제이기도 하다. 페드로 도밍고스가 저술한 “마스터 알고리즘”의 책에 등장하는 머신러닝의 다섯
종족 기호주의자, 연결주의자, 진화주의자, 베이즈주의자, 유추주의자에 관한 이야기의 연속이다.
시맨틱 진영만 놓고 본다면 기호주의자 대 나머지 머신러닝 진영의 대립으로 보여지기도 한다. 기호주의자의 의미론, 분류, 추론, 의미 연결 등의 아이디어는 시맨틱 진영에 고스란히 녹아있다.
반면 다른 머신러닝 진영은 알파고가 보여준 무한에 가까운 표현력에 가능성을 건다. 확실한 것은 무엇이 더 뛰어난가의 질문은 우매한 질문이다.
개인적으로는 시맨틱 진영의 해석가능함과 머신러닝 진영의 무한의 표현력이 만나게 되는 날
이 인간이 진정으로 원하는 AI를 얻게 되는 날이 아닐까 싶다.
추가로 시맨틱의 전반적인 시스템 인프라 구축과 관련된 지식을 얻길 원하는 독자라면 이 책에서 관련 지식을 얻기는 힘들다. 대신 저자가 본문에서 추천하는 책을 참고하면 된다.
시맨틱 모델링의 전반적인 구성과정과 일반적 지식 역시 방대하게 다루진 않는다. 다만, 5장이 전체 설계에 있어 큰 그림을 그릴 수 있는 수준의 도움은 준다.
끝으로 이 책의 내용은 가벼운 언어학적 상식으로 접근하자면 어렵지 않고 흥미롭게 읽을 수 있는가 하면 반대로 시맨틱 모델링에 대한 본격적인 접근을 위해서는 다소 난이도가 있는 책이기도 하디.
후자라면 NLP, 언어학에 어느 정도의 경험고 지식이 있는 독자여야 내용을 무리없이 파악하는데 도움이 될 것이다. 물론 시맨틱 진영이나 NLP 머신러닝 진영의 꿈을 가진 일반 독자라 할지라도 언어의 특성 등을 개념적으로 파악하고 나아갈 긴 여정의 지도를 그리는데 큰 도움이 될 수 있을듯하다.