ChunkLab
#Python#FastAPI#React#multilingual-e5-large#Docker
ChunkLab adalah browser-based sandbox untuk menguji, memvisualisasikan, dan memvalidasi strategi chunking teks — sebelum diterapkan ke pipeline RAG. Mendukung 7 strategi chunking (termasuk legal_id khusus dokumen hukum Indonesia dan sentence_id dengan NLP bahasa Indonesia), quality metrics per chunk, simulasi retrieval semantik via multilingual-e5-large, mode perbandingan side-by-side, dan ekspor JSON/JSONL/YAML.
Dokumen hukum punya struktur sendiri — pasal, ayat, frase definisi, lampiran. Generic chunking memutus konteks. ChunkLab lahir dari kebutuhan itu.
v0.2.0 — Docker Compose siap pakai. 137 test, type-check bersih.