본문 바로가기

데이터제작

TagTog Result

TagTog로 annotation을 하면 끝난게 아닙니다. IAA 를 계산하기 위해선 , id, text ,subj,obj, label의 schema 형태의 파일로 저장을 해주어야 합니다.  TagTog의 output은 json파일 인데 , 각각의 key 가 어떤 것을 의미하는지 살펴보도록 하겠습니다.

 

anndoc format · tagtog

 

anndoc format

anndoc is a standoff format for document annotations consisting of two files: File Description ann.json Annotations-only, part of the format. plain.html Content-only, part of the format. {% capture version %}Version: {{ page.version }}{% endcapture %} {% i

docs.tagtog.net

위 사이트에 들어가면 tagtog의 output json 파일의 key값에 대한 정보가 나와 있습니다. 이 key 값들을 살펴 보도록 하겠습니다.

{   //v3.6

    "annotatable": {
        "parts": [string...] //Array of of partId's
    },
    "anncomplete": boolean,

    "sources": [
        { //Source prototype
            "name": string,
            "id": string, // `null` for unknown
            "url": string // `null` for unknown or not given
        }, ...
    ],

    // Map object with Document Labels
    "metas": {
        "m_<uniq>": {
            "value": boolean/number/string,
            "confidence": { //Confidence prototype
                "state": string, //in {"", "pre-added", "pre-removed"} ; "" or null == regular state
                "who": [string...], //prefixed by either "ml:" (machine learning) or "user:"
                "prob": double //in [0, 1] -- aggregated probability between all actors;
            }
        }, ...
    },

    // Array of entities annotated in the document
    "entities": [
        {
            "classId": "e_<uniq>",

            "part": string,

            "offsets": [{"start": int, "text": string}, ...],

            "confidence": Confidence,

            //Map object with Entity labels
            "fields": {
                "f_<uniq>": {
                    "value": string,
                    "confidence": Confidence
                }, ...
            },

            //Map object with Normalizations
            "normalizations": {
                "n_<uniq>": {
                    "source": Source,
                    "recName": string, //currently, this property might be empty
                    "confidence": Confidence
                }, ...
            }
        }
    ],

    //Array of relations annotated in the document
    "relations": [
        {
            "classId": "r_<uniq>",
            "type": string, //in standards={linked, part-of, anaphora} or user-defined
            "directed": boolean, //true if A->B or B<-A, false if A<->B
            "entities": [string, string], //entities related hashed
            "connectingWords": [{"start": int, "text": string}, ...],
            "confidence": Confidence
        }
    ]
}

 

annotatable 

이것은 어떤 document의 어떤 passage를 했는지 나타내는 고유 id라는거 같다.  사실, 필자가 했을 때는 s1v1 하나만 나와서 별 의미가 없었다.

 

anncomplete

annotation을 했는지 안했는지 알려주는 boolean flag이다.

 

soruce

이 문서로 갈수 있는 URL이라는데, 필자의 경우 없엇다.

 

meta 

이 document의 meta정보라는데 필자가 따로 지정을 안했는지 아무것도 없었다.

 

entities

entity 의 list가 들어있다. 

 

  • classid 
class id는  predefiend 된 entity type중 어떤건지 나타내는 것이다. legend를 통해 확인할 수 있다.
  • offsets
entity의 start 위치와 start로 부터의 변위를 나타낸다. start indexentity text가 주어진다.
  • confidence
확률값 이라고 하는데 잘 모르겟음. 설정을 안해서인지 필자는 1이엿음

 

fields

 

normalization

 

relation

 

  • classid
predefiend 된 relation 중 어떤 것인지 알려준다. legend에서 이를 key-value로 매칭이 되어있다.
  • type
어떤 type인지 알려준다. 필자의 경우 relation이기 때문에 linked 라 되어있다.
  • directed
방향을 바꿧을 때 관계가 성립하는지 알려준다. relation은 sub,obj가 달라지면 관계가 달라지기에 true가 되어야하는데, 필자가 뭘 잘못 설정 했는지 false가 되어있다.
  • entities
partId|e_id|start,end 의 format이다.   E.g.  ["s1p1|e_1|9,17", "s1p1|e_3|55,62"]
  • confidence

 

Plain.html

그냥 input으로 줬던 txt이다. 별 특별한 것은 없다.

 

 

 

이 외에도 많이 있는데, 추가할 수 있게 되면 추가하겠다.

 

 

'데이터제작' 카테고리의 다른 글

Pilot Tagging  (0) 2021.11.19
Tagtog  (0) 2021.11.13