"Machine-readable"의 사전적 정의는 기계가 읽을 수 있는 또는 기계가 판독할 수 있는 정도입니다. 비교되는 용어가 "human-readable"입니다. 손으로 직접 필기한 내용은 사람이 읽을 수 있지만, 일반적인 컴퓨터가 쉽게 읽지 못합니다 (요즘은 인식하는 기계가 있긴 합니다).
여권을 보면 "machine-readable"과 “human-readable” 구역이 구분되어 있습니다. 아래 그림에서 빨간색 박스에 해당되는 영역은 특정한 기계로 판독해서 읽을 수 있는 정보이고, 나머지 정보는 사람이 읽을 수 있는 정보입니다.
https://www.idenfy.com/wp-content/uploads/2020/09/mrz-1.png
데이터 관점으로 보면 "machine"은 터미네이터와 같은 로봇을 의미하기 보다 일반적인 기능의 컴퓨터 또는 조금 구체적으로 "소프트웨어"로 해석하는 것이 적합합니다 (@선은택). 즉, machine-readable data는 소프트웨어를 이용해서 읽을 수 있는 데이터입니다. 우리가 사용하는 소프트웨어는 읽을 수 있는 파일 형식이 이미 정의되어 있습니다. 크롬에서 한글 파일을 열면, 읽지 않고 (못하고) 다운로드를 바로 합니다. 읽지 못하니 처리도 하지 못하게 됩니다 (machine-processable). @HyeonJiKim
데이터를 처리할 때, “기계가 읽을 수 있는” 조건은 출발점이고 전제조건입니다. 이 개념이 본격적으로 논의된 것이 20년 전인데, 오픈 데이터가 활성화되면서 다시 주목 받고 있기도 합니다. “기계가 읽을 수 있는” 데이터는 여러 수준으로 구분하는데, 가능하면 특정한 소프트웨어가 아닌 웹 표준으로 제공하는 것을 권장합니다. 예를 들어, 엑셀 파일보다 CSV가 휠씬 더 기계 판독이 수월하고 접근성이 높습니다. 웹 브라우저나 노트패트만 있어도 읽을 수 있으니까요 (너무 크면 한계가 있지만).
반면, 기계가 읽고 처리하는 것과 기계가 이해하는 것은 구분할 필요가 있습니다. 'understandable"은 기계가 읽은 데이터의 의미를 이해 (사람처럼)하는 것입니다. 예를 들어, 기계가 읽은 정보가 다음과 같습니다. @ChaeeunSong
- 서울은 한국의 수도다.
- 뉴욕은 미국의 수도다.
웹브라우저나 워드 프로세서에서 두 문장을 읽을 수 있지만, 기계는 한글로 조합된 텍스트만 갖고 있을 뿐 의미에 대한 고려는 하지 않습니다.
두 문장을 이해하려면, 서울, 뉴욕은 도시, 한국과 미국은 국가, 수도는 한 국가의 정치, 행정의 중심도시와 같은 개념과 문장에 있는 도시, 국가의 관계를 이해해야 합니다. 상식적으로 1번은 옳은 문장이지만, 2번은 사실 정보가 틀립니다.
기계가 이해할 수 있다는 것은 사람이 생각하는 정보를 기계가 이해할 수 있도록 표현 (representation)해야 하는데, 기계와 사람 사이의 인터페이스로 인공 언어 (artificial language)가 필요합니다. 책에서 소개하는 RDF, OWL과 같은 언어가 대표적인 예입니다.
지식그래프는 사람의 지식체계를 인공언어로 표현한 결과라고 이해할 수 있습니다. 지식그래프에서 다루는 데이터는 읽을 수 있고 동시에 의미를 이해할 수 있습니다. 지식그래프가 인공지능을 위한 데이터라고 해석하는 데 이런 배경이 있습니다.