국립국어원 우리말샘 데이터

국립국어원에서 제공하는 우리말샘 데이터가 필요하여
수집하는 코드와 수집한 결과를 트리플로 변환한 데이터를 공유합니다.

4개의 좋아요

우리말샘 데이터를 활용해서 자연어 처리나 지식그래프 활용에 적용이 된 사례가 있을까? 좋은 데이터 같은데 어떻게 활용되고 있는지 궁금합니다.

안녕하세요 김박사님
다른 분들의 활용사례는 잘 모르겠지만, 개인적으로는 용어간의 관계를 사용하려고 수집을 하였습니다. 그리고 ETRI에서 제공하는 언어분석API를 사용하다보니 분석된 결과에 대해 의미번호를 제공하는데, 그 의미번호에 대한 데이터가 필요하여 살펴보던 중 국립국어원에서 제공하는 서비스가 제공하여 활용하고자 합니다.
문제는 국립국어원에서 제공하는 서비스가 우리말샘 사전 서비스가 있고 표준국어대사전이 있는데 동일한 단어에 대한 의미번호가 서로 달라 이를 연결해주는 정보를 생성해 놓으려고 합니다. ETRI에서 제공하는 API에서 사용하는 단어의 의미번호는 표준국어대사전의 단어 의미번호를 제공하고 있고, 국립국어원의 우리말샘 사전의 의미번호와는 상이합니다. 지금은 우리말샘 사전만 수집했는데, 추후에는 표준국어대사전도 수집하여 동일한 단어 의미번호를 연결시켜주고자 해요. 그리고 난 후 NER의 정확도를 높이는데 사용해보려고 합니다.

^^ NER이나 우리말 기준의 분류체계를 만들 때 활용하기 좋겠네요. 대부분의 분류체계에서 사전적 정의를 제공하고 있지 않은데 개체 추출하고 관련 정의를 연결해서 사용하면 좋겠습니다.

1개의 좋아요