Machine-readable은 무엇일까요?

선은택 · 1월 26, 2022, 2:55오전

machine-readable의 정확한 의미는 무엇이라고 생각하시나요??
직역하면 '기계가 읽을 수 있는’이라는 뜻이 있습니다.
그렇다면 데이터를 기계가 읽을 수 있게 만들기 위해서는 어떤 조건들이 갖춰져야 할까요??

추가 궁금증으로 보통 이 단어에서 기계라고 하면 컴퓨터를 많이 떠올리는데, 컴퓨터 외 기계에서도 이 단어를 적용할 수 있을까요…?

이 외에도 'machine-readable’이라는 단어에 대해 다양한 생각이나 의견이 있으시다면 자유롭게 적어주세요!!

HyeonJiKim · 1월 26, 2022, 3:22오전

위키피디아에는 machine readable data를 컴퓨터와 기계가 읽어들일 수 있는 데이터로 기계가 사람의 개입 없이 내용을 추출, 변환, 처리할 수 있는 데이터라고 하네요. 정형 데이터(structured data)여야 한다고도 해요.

컴퓨터 외의 기계라면 어떤 게 있을까요? 예시를 들어줄 수 있나요??

추가로 저는 machine readable 과 machine processable이 헷갈려요ㅠㅠ

ChaeeunSong · 1월 26, 2022, 4:31오전

저는 machine-readable과 machine-understandable의 차이를 구별하면, machine-readable을 더 쉽게 이해할 수 있다고 생각합니다.
기계가 읽을 수 있는 데이터는 @HyeonJiKim 님이 말씀하신것처럼 기계가 내용을 이해하는게 아니라 컴퓨터가 데이터가 있다는 것을 인식하고 처리하는 것으로 생각합니다.
하지만, 이 책에서 다루는 시맨틱 웹 기반의 데이터 처리는 machine-understandable의 개념을 아는 것도 좋을 것 같네요. 물론 저도 부정확하지만, 제가 이해하기에 machine-understandable하다는 것은 '사람’이라는 텍스트가 있을 때, 사람의 정의, 역할 등을 이해하여 처리할 수 있도록 하는 것이라고 생각합니다.

jwon · 1월 26, 2022, 2:43오후

정말 오래된 웹 페이지 이지만 LOD, RDF/XML, 5 Star 내용을 참고해보면 Knowledge Graph 까지 이어져온 Open, machine-readable 등의 개념의 초기 컨셉을 확인할 수 있을 것 같아요.

Linked Open Data

Open Data Handbook

haklaekim · 1월 26, 2022, 3:27오후

"Machine-readable"의 사전적 정의는 기계가 읽을 수 있는 또는 기계가 판독할 수 있는 정도입니다. 비교되는 용어가 "human-readable"입니다. 손으로 직접 필기한 내용은 사람이 읽을 수 있지만, 일반적인 컴퓨터가 쉽게 읽지 못합니다 (요즘은 인식하는 기계가 있긴 합니다).

여권을 보면 "machine-readable"과 “human-readable” 구역이 구분되어 있습니다. 아래 그림에서 빨간색 박스에 해당되는 영역은 특정한 기계로 판독해서 읽을 수 있는 정보이고, 나머지 정보는 사람이 읽을 수 있는 정보입니다.

https://www.idenfy.com/wp-content/uploads/2020/09/mrz-1.png

데이터 관점으로 보면 "machine"은 터미네이터와 같은 로봇을 의미하기 보다 일반적인 기능의 컴퓨터 또는 조금 구체적으로 "소프트웨어"로 해석하는 것이 적합합니다 (@선은택). 즉, machine-readable data는 소프트웨어를 이용해서 읽을 수 있는 데이터입니다. 우리가 사용하는 소프트웨어는 읽을 수 있는 파일 형식이 이미 정의되어 있습니다. 크롬에서 한글 파일을 열면, 읽지 않고 (못하고) 다운로드를 바로 합니다. 읽지 못하니 처리도 하지 못하게 됩니다 (machine-processable). @HyeonJiKim

데이터를 처리할 때, “기계가 읽을 수 있는” 조건은 출발점이고 전제조건입니다. 이 개념이 본격적으로 논의된 것이 20년 전인데, 오픈 데이터가 활성화되면서 다시 주목 받고 있기도 합니다. “기계가 읽을 수 있는” 데이터는 여러 수준으로 구분하는데, 가능하면 특정한 소프트웨어가 아닌 웹 표준으로 제공하는 것을 권장합니다. 예를 들어, 엑셀 파일보다 CSV가 휠씬 더 기계 판독이 수월하고 접근성이 높습니다. 웹 브라우저나 노트패트만 있어도 읽을 수 있으니까요 (너무 크면 한계가 있지만).

반면, 기계가 읽고 처리하는 것과 기계가 이해하는 것은 구분할 필요가 있습니다. 'understandable"은 기계가 읽은 데이터의 의미를 이해 (사람처럼)하는 것입니다. 예를 들어, 기계가 읽은 정보가 다음과 같습니다. @ChaeeunSong

서울은 한국의 수도다.

뉴욕은 미국의 수도다.

웹브라우저나 워드 프로세서에서 두 문장을 읽을 수 있지만, 기계는 한글로 조합된 텍스트만 갖고 있을 뿐 의미에 대한 고려는 하지 않습니다.
두 문장을 이해하려면, 서울, 뉴욕은 도시, 한국과 미국은 국가, 수도는 한 국가의 정치, 행정의 중심도시와 같은 개념과 문장에 있는 도시, 국가의 관계를 이해해야 합니다. 상식적으로 1번은 옳은 문장이지만, 2번은 사실 정보가 틀립니다.

기계가 이해할 수 있다는 것은 사람이 생각하는 정보를 기계가 이해할 수 있도록 표현 (representation)해야 하는데, 기계와 사람 사이의 인터페이스로 인공 언어 (artificial language)가 필요합니다. 책에서 소개하는 RDF, OWL과 같은 언어가 대표적인 예입니다.

지식그래프는 사람의 지식체계를 인공언어로 표현한 결과라고 이해할 수 있습니다. 지식그래프에서 다루는 데이터는 읽을 수 있고 동시에 의미를 이해할 수 있습니다. 지식그래프가 인공지능을 위한 데이터라고 해석하는 데 이런 배경이 있습니다.