KLT 로 법령 본문 을 돌립니다. 전체 파일을 모두 처리하고 나면 이것저것 해볼 수 있겠죠. 09.02.15 03:48
두근두근 _ 근데 제대로 하려면 법률 용어 학습 사전 있어야 되지 않나 싶은데 일단 몰라
4 개의 댓글이 있습니다.
별 전처리 없이 xml 원문을 그대로 돌렸더니 뭔가 결과가 이상하네요. 헌법 xml에 '悠久한'이 1427 번이나 등장한다고 나오는데 본문에는 딱 한 번만 등장..;; 그냥 텍스트 처리하는데 문제가 될 부분이 뭐가 있는지 모르겠습니다 orz
원문이 EUC-KR 이었는데 UTF-8로 바꿔서 처리하니까 제대로 집계가 되네요. -_-; 로케일이랑 문제가 있었던 모양입니다.
이것저것 돌려보려니 아무래도 SQL이 편할 거 같아서 파일을 읽어다가 필드 두 개짜리 테이블에 몽땅 밀어넣고 있습니다. mysql cli로 넣었더니 한글이 깨져서 --default-character-set=utf8 옵션으로 땜빵.
별로 복잡한 쿼리는 아닌데 한참 돈다. 언제나 끝나려나.
별 전처리 없이 xml 원문을 그대로 돌렸더니 뭔가 결과가 이상하네요. 헌법 xml에 '悠久한'이 1427 번이나 등장한다고 나오는데 본문에는 딱 한 번만 등장..;; 그냥 텍스트 처리하는데 문제가 될 부분이 뭐가 있는지 모르겠습니다 orz
09.02.15 12:41원문이 EUC-KR 이었는데 UTF-8로 바꿔서 처리하니까 제대로 집계가 되네요. -_-; 로케일이랑 문제가 있었던 모양입니다.
09.02.17 14:32이것저것 돌려보려니 아무래도 SQL이 편할 거 같아서 파일을 읽어다가 필드 두 개짜리 테이블에 몽땅 밀어넣고 있습니다. mysql cli로 넣었더니 한글이 깨져서 --default-character-set=utf8 옵션으로 땜빵.
09.02.22 00:47별로 복잡한 쿼리는 아닌데 한참 돈다. 언제나 끝나려나.
09.02.22 15:58