me2day

KLT 로 법령 본문 을 돌립니다. 전체 파일을 모두 처리하고 나면 이것저것 해볼 수 있겠죠. 09.02.15 03:48

미투 0

4 개의 댓글이 있습니다.

kz kz

별 전처리 없이 xml 원문을 그대로 돌렸더니 뭔가 결과가 이상하네요. 헌법 xml에 '悠久한'이 1427 번이나 등장한다고 나오는데 본문에는 딱 한 번만 등장..;; 그냥 텍스트 처리하는데 문제가 될 부분이 뭐가 있는지 모르겠습니다 orz

09.02.15 12:41
kz kz

원문이 EUC-KR 이었는데 UTF-8로 바꿔서 처리하니까 제대로 집계가 되네요. -_-; 로케일이랑 문제가 있었던 모양입니다.

09.02.17 14:32
kz kz

이것저것 돌려보려니 아무래도 SQL이 편할 거 같아서 파일을 읽어다가 필드 두 개짜리 테이블에 몽땅 밀어넣고 있습니다. mysql cli로 넣었더니 한글이 깨져서 --default-character-set=utf8 옵션으로 땜빵.

09.02.22 00:47
kz kz

별로 복잡한 쿼리는 아닌데 한참 돈다. 언제나 끝나려나.

09.02.22 15:58