Mihenkaçıkta Türkçe LLM değerlendirmesi.
Mihenk, Clastrum'un açık kaynak Türkçe LLM değerlendirme paketidir. Türkçe büyük dil modellerini akıl yürütme, talimat takibi ve alan doğruluğu genelinde değerlendiren standart kıyaslamalar sunar; böylece kurumlar bir modeli pazarlamaya değil, kanıta dayanarak seçebilir.
Mihenk, Clastrum'un değerlendirme paketidir — Hugging Face'deki ilgisiz Mihenk-LLM model ailesiyle karıştırılmamalıdır. İsim Türkçe bir sözcüktür: altını sınadığınız standart, mihenk taşı.
Mihenk neyi ölçer
Mihenk, Türkçe LLM'leri üç eksende kıyaslar: akıl yürütme (Türkçe çok adımlı mantıksal ve matematiksel görevler), talimat takibi (istem ile yanıt arasındaki uyum, Türkçe sözdizimsel örüntülerine göre kalibre edilmiş) ve alan doğruluğu (finans, hukuk ve tıp terminolojisi ile kullanımı). Sonuçlar, eksen başına normalleştirilmiş puanlar olarak raporlanır; böylece ekipler modelleri kullanım durumlarına göre önemli olan boyutlarda karşılaştırabilir.
Mihenk nasıl çalıştırılır
Mihenk açık kaynaktır ve GitHub'da github.com/clastrum/mihenk adresinde mevcuttur. Değerlendirme paketi, OpenAI uyumlu bir API veya yerel çıkarım sunucusu aracılığıyla erişilebilen herhangi bir modele karşı yerel olarak çalışır. Tam talimatlar, veri kümesi dosyaları ve puanlama betikleri depo README'sinde yer almaktadır.
Türkçeye özgü değerlendirme neden önemli
MMLU, HumanEval, GSM8K gibi küresel İngilizce sıralamalar, Türkçe metin performansını yansıtmaz. Türkçe morfolojik açıdan zengin ve çekimlidir; İngilizce'de yüksek puan alan bir model, Türkçe akıl yürütme veya talimat görevlerinde önemli ölçüde düşebilir. Mihenk, baştan sona Türkçe olarak oluşturulmuş ve puanlanan kıyaslamalarla bu boşluğu kapatır.
Mihenk'in TR-MMLU ve Cetvel'den farkı
TR-MMLU, İngilizce MMLU veri kümesinin doğrudan çevirisidir — kapsam açısından kullanışlıdır ancak çeviri eserlerinin sınırlılıklarını taşır ve Türkçeye özgü alan içeriğinden yoksundur. Cetvel, Türkçe dil doğruluğuna odaklanır. Mihenk, kurumsal karar verme için tasarlanmıştır: alan doğruluğu ekseni, gerçek tedarik kararlarını belirleyen finans, hukuk ve düzenlenmiş sektör görevlerini kapsar. Üçü birbirini tamamlar, rekabet etmez.
- Mihenk nedir?
- Mihenk, Clastrum'un açık kaynak Türkçe LLM değerlendirme paketidir. Türkçe büyük dil modellerini akıl yürütme, talimat takibi ve alan doğruluğu genelinde kıyaslar; böylece kurumlar İngilizce küresel sıralamalara güvenmek yerine, Türkçede bir modeli nesnel bir temele göre seçebilir.
- Mihenk ile Mihenk-LLM aynı şey mi?
- Hayır. Mihenk (bu proje), github.com/clastrum/mihenk adresinde barındırılan, Clastrum'un Türkçe LLM'ler için açık kaynak değerlendirme paketidir. İlgisiz Mihenk-LLM ise Hugging Face'deki ayrı bir model ailesidir ve Clastrum ile herhangi bir bağlantısı bulunmamaktadır.
- Mihenk'in lisansı nedir?
- Mihenk açık kaynaklı bir lisansla yayınlanmıştır. Mevcut lisans koşulları, veri kümesi kredileri ve alıntı kılavuzu için github.com/clastrum/mihenk deposuna bakınız.
Bir proje için → Clastrum ile bir brief başlatın
Son güncelleme: Haziran 2026.