TagTog로 annotation을 하면 끝난게 아닙니다. IAA 를 계산하기 위해선 , id, text ,subj,obj, label의 schema 형태의 파일로 저장을 해주어야 합니다. TagTog의 output은 json파일 인데 , 각각의 key 가 어떤 것을 의미하는지 살펴보도록 하겠습니다.
위 사이트에 들어가면 tagtog의 output json 파일의 key값에 대한 정보가 나와 있습니다. 이 key 값들을 살펴 보도록 하겠습니다.
{ //v3.6
"annotatable": {
"parts": [string...] //Array of of partId's
},
"anncomplete": boolean,
"sources": [
{ //Source prototype
"name": string,
"id": string, // `null` for unknown
"url": string // `null` for unknown or not given
}, ...
],
// Map object with Document Labels
"metas": {
"m_<uniq>": {
"value": boolean/number/string,
"confidence": { //Confidence prototype
"state": string, //in {"", "pre-added", "pre-removed"} ; "" or null == regular state
"who": [string...], //prefixed by either "ml:" (machine learning) or "user:"
"prob": double //in [0, 1] -- aggregated probability between all actors;
}
}, ...
},
// Array of entities annotated in the document
"entities": [
{
"classId": "e_<uniq>",
"part": string,
"offsets": [{"start": int, "text": string}, ...],
"confidence": Confidence,
//Map object with Entity labels
"fields": {
"f_<uniq>": {
"value": string,
"confidence": Confidence
}, ...
},
//Map object with Normalizations
"normalizations": {
"n_<uniq>": {
"source": Source,
"recName": string, //currently, this property might be empty
"confidence": Confidence
}, ...
}
}
],
//Array of relations annotated in the document
"relations": [
{
"classId": "r_<uniq>",
"type": string, //in standards={linked, part-of, anaphora} or user-defined
"directed": boolean, //true if A->B or B<-A, false if A<->B
"entities": [string, string], //entities related hashed
"connectingWords": [{"start": int, "text": string}, ...],
"confidence": Confidence
}
]
}
annotatable
이것은 어떤 document의 어떤 passage를 했는지 나타내는 고유 id라는거 같다. 사실, 필자가 했을 때는 s1v1 하나만 나와서 별 의미가 없었다.
anncomplete
annotation을 했는지 안했는지 알려주는 boolean flag이다.
soruce
이 문서로 갈수 있는 URL이라는데, 필자의 경우 없엇다.
meta
이 document의 meta정보라는데 필자가 따로 지정을 안했는지 아무것도 없었다.
entities
entity 의 list가 들어있다.
- classid
class id는 predefiend 된 entity type중 어떤건지 나타내는 것이다. legend를 통해 확인할 수 있다.
- offsets
entity의 start 위치와 start로 부터의 변위를 나타낸다. start index와 entity text가 주어진다.
- confidence
확률값 이라고 하는데 잘 모르겟음. 설정을 안해서인지 필자는 1이엿음
fields
normalization
relation
- classid
predefiend 된 relation 중 어떤 것인지 알려준다. legend에서 이를 key-value로 매칭이 되어있다.
- type
어떤 type인지 알려준다. 필자의 경우 relation이기 때문에 linked 라 되어있다.
- directed
방향을 바꿧을 때 관계가 성립하는지 알려준다. relation은 sub,obj가 달라지면 관계가 달라지기에 true가 되어야하는데, 필자가 뭘 잘못 설정 했는지 false가 되어있다.
- entities
partId|e_id|start,end 의 format이다. E.g. ["s1p1|e_1|9,17", "s1p1|e_3|55,62"]
- confidence
Plain.html
그냥 input으로 줬던 txt이다. 별 특별한 것은 없다.
이 외에도 많이 있는데, 추가할 수 있게 되면 추가하겠다.
'데이터제작' 카테고리의 다른 글
Pilot Tagging (0) | 2021.11.19 |
---|---|
Tagtog (0) | 2021.11.13 |