데이터

모든 비속어/욕설 판별기의 대한 성능을 비교합니다. Compare the performance of all profanity/cursive discriminator.

korean-malicious-comments-dataset: 한국어 악성댓글 데이터셋 (10,000문장)
Curse-detection-data: 각종 커뮤니티 사이트의 댓글의 욕설 여부를 분류한 한글 데이터셋 (5,825문장)
kmhas_korean_hate_speech: 온라인 뉴스의 댓글를 8가지로 세분화하여 분류한 데이터셋 (78,978문장)
Korean Extremist Website Womad Hate Speech Data: 한국 극단주의 웹사이트의 데이터를 분류한 데이터셋 (2,081문장)
LGBT-targeted HateSpeech Comments Dataset (Korean): 네이버 뉴스 성소수자 관련 댓글을 분류한 데이터셋 (8,837문장)
korean-hate-chat-data: korcen으로 분류한 korcen-ml의 학습 파일 중 일부(3,000,000문장)

모델

PYHTON

C

JAVA

JAVASCRIPT

etc....

데이터와 결과가 일치한 개수 / 전체 데이터 개수

	korean-malicious-comments-dataset	Curse-detection-data	kmhas_korean_hate_speech	Korean Extremist Website Womad Hate Speech Data	LGBT-targeted HateSpeech Comments Dataset (Korean)	평균 처리 속도
korcen	0.7121	0.8415	0.6800	0.6305	0.4479	9ms
korcen-ml(kogpt2)	0.7545	0.7824		0.7055	0.6875	45ms
korcen-ml(llama2)	0.8322	0.8420	0.7837	0.7120	0.7477	38ms
badword_check	0.5829	0.6761		0.6410	0.4738	43ms
CurseDetector	0.5679			0.5785		267ms
Cenkor		0.8317		0.6275		0.2ms

i7-11800H @ 2.30GHz 32GB 3200MHZ RTX 3060 Laptop

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
README.md		README.md