Sahaf: PDF ve EPUB'ı Yapay Zeka İçin Markdown'a Dönüştürmek

Okumayı seviyorum. Hep sevdim. Özellikle "rafa kaldırılmış" kitaplarla arkadaşlık ederim. Fiziksel olarak kitapları edinmek bir hayli zorken, dijital kaynak aramak eli boş bi tarafı yaş geri döndürüyor adamı. Türkçe kaynaklar, özellikle dijital ulaşılabilirlikleri açısından çok kısıtlı. Bir noktadan sonra İngilizce kaynaklara yönelmek zorunda kaldım ve doğrusu bambaşka bir dünyaya adım atmış oldum.

Ama yeni bir sorun doğdu. Anlayamamak :).

Heyecanla bulduğum ingilizce kitapların kimisi ağır terminoloji içeriyor kimisi çok eski, bazıları yüz yaşını geçmiş. O sayfalardaki İngilizce bugünkü gibi değil, ağır, arkaik, yoğun. Kelime haznesi meselesi bile değil aslında, metnin ait olduğu çağı çözmek gerekiyor. Hepsini baştan sona okuyacak/öğrenecek vaktim hiç olmadı.

Bir de benim için tamamen erişilmez olan kitaplar var. Rusça, Endonezce, Arapça... Rafta duruyorlar, güzeller ama okunamıyorlar. "Belki bir gün" diye saklıyordum hepsini.

Yapay Zeka Bir Kapı Açtı

Büyük dil modelleri kullanılabilir hale gelince tabii ki hemen kitapları raftan indirdim. Metni verip açıklatabilirim, çevirttirilebilirim, özetletebilirim... Yıllardır dokunulmaz duran o kitaplara sonunda ulaşabilirim. Denemeye başladım hemen: Metni kopyala, yapıştır, çeviri iste, yorum iste.

İşe yaradı. Kısmen.

Sorun formattaydı. Kitaplarımın çoğu taranmış PDF. Bazıları seçilebilir metinli dijital PDF ama formatlama berbat. Metin az çok temiz olsa bile bu sefer başka bir şey oluyordu: Yapay zeka ne yaptığını unutuyordu. Çok fazla metin verince bağlamı kaybediyor, konuları birbirine karıştırıyor, yüzeysel cevaplar vermeye başlıyordu. Mesele metni bir pencereye sığdırmak değil sadece. Yapay zekaya gerçekten odaklanabileceği bir şey vermek gerekiyor.

Neden Markdown

Markdown'ın yapay zeka için en temiz formatlardan biri olduğunu keşfettim. Ağır formatlama yükü yok, kapalı yapı yok. Başlıklar, paragraflar, vurgular. Bir kitap için fazlasına gerek yok zaten.

Kitaplarımı temiz Markdown'a çevirebilsem, gürültüye boğmadan yapay zekaya verebilirdim. -Tek tek kitaplardan pasajlar çıkarıp markdowna el yordamıyla dönüştürmeyi de denedim. Detaya girmeyeyim, çok yorucu.- Temiz formatla kitabın yapısını koruyan çeviriler alabilirdim. Kitaplar arasında arama ve çapraz referans yapabilirdim. Her şeyi yerel ve düzenli tutabilirdim.

Sahaf fikri böyle doğdu.

İsim Nereden Geliyor

Sahaf işte, o eski kitapçılar. Dar, tozlu, yerden tavana kitap yığılmış, kimsenin artık istemediği kitaplarla dolu (içinde gezmek hazine avına çıkmak gibi :)). Ne bulacağını bilmeden giriyorsun. Sahibi her kitabın sülalesini ezbere biliyor.

Bu araç da eski, unutulmuş kitapları alıp modern dünyanın çalışabileceği bir formata dönüştürüyor. Dijital bir sahaf.

Sahaf'ın çıkış noktası eski kitaplardı ama kullanım alanı bununla sınırlı değil.

Herhangi bir PDF veya EPUB'ı temiz Markdown'a çevirmek istiyorsan işe yarıyor. A**kademik makaleler, teknik dokümanlar, e-kitaplar... **Yapay zekayla çalışırken format engeline takılmak istemiyorsan, Sahaf o engeli kaldırıyor.

Nasıl Çalışıyor

PDF veya EPUB'ı tarayıcıya sürükle bırak yap. Sahaf dosyanın ne tür olduğunu kendisi anlıyor: dijital metin mi, taranmış görüntü mü, karışık mı... Sayfa aralığı seçebiliyorsun (mesela sadece 3. bölüm), dönüştüre bas, temiz Markdown al. Çıktıyı parçalara da bölebiliyorsun, başlık ve paragraf sınırlarından kesiyor, cümle ortasından değil.

Güzel bir detay: PDF içindeki resimler (diyagramlar, çizimler, tablolar) varsa Sahaf bunları çıkarıp Markdown'a base64 olarak gömüyor. Çıktı tamamen bağımsız. Ayrı resim klasörü yok, kırık link yok. Tek .md dosyası, her şey içinde.

EPUB desteğini sonradan ekledim ve beklemediğim kadar iyi çalıştı. GPU gerektirmiyor, neredeyse anında bitiyor.

Her şey kendi makinende çalışıyor. Bulut yok, üçüncü taraf sunucu yok. Kitapların senden çıkmıyor.

Neden Marker

Dönüştürme motoru olarak Marker kullanıyorum. Karışık dokümanlarda %95.67 doğruluk yapıyor ve 90+ dil destekleyen Surya OCR ile birlikte geliyor. Bu son kısım benim için kritikti. Türkçe, İngilizce, Arapça, Rusça. Dil bazlı yapılandırma gerektirmeyen, yerel çalışan, temiz çıktı üreten bir şeye ihtiyacım vardı. Marker hepsini karşıladı.

Akıllı Bölme

Aracı kullanmaya başlayınca ihtiyacım olduğunu fark ettiğim bir özellik bu. Kitabı Markdown'a dönüştürmek birinci adım. Ama çıktı 200 sayfalık tek bir dosyaysa onunla verimli çalışamazsın. Hepsini birden yapay zekaya ver, odağını kaybeder. Detaylar gömülür, cevaplar yüzeyselleşir, bölümler arası bağlam birbirine girer.

Bunun için akıllı bir bölme özelliği ekledim. *5 parçaya böl *diyorsun, doğal sınırları buluyor: Başlıklar, yatay çizgiler, paragraf sonları. Cümle ortasından kesim yok.

Bu özellik tüm iş akışını pratik hale getirdi. Dönüştür, bölüm büyüklüğünde parçala, yapay zekayla tek tek üzerinden geç. Çevir, not al, tartış. Okuma tarzım bile değişti.

Neden Yerel

Bulut OCR servisi de kullanabilirdim, bazı durumlarda belki daha iyi sonuç verirdi. Ama tercih etmedim. Bunun birkaç sebebi var:

Gizlilik. Başka birinin sunucusunda durmasını istemediğim bazı belgeler konusunda rahat olmak istedim.

Maliyet. Bulut OCR sayfa başına ücret alıyor. Komple bir kitabı işlemenin maliyeti anlamsız oluyor. Sahaf (~2-3GB) tamamen bedava.

Bağımsızlık. Servisler kapanıyor, API'lar değişiyor, fiyatlar değişiyor. Yerel araç donanımın çalıştığı sürece çalışır.

Limitasyonlar

Dürüst olayım.

GPU olmadan yavaş. Marker'ın OCR modelleri ağır (ilk çalıştırmada ~2-3GB indirme). CPU'yla 27 sayfalık taranmış bir PDF'i dönüştürmek i5 + 40GB RAM'de bir saatten fazla sürdü. CUDA GPU ile aynı dosya dakikalar içinde hallolur. EPUB anında bitiyor ama taranmış PDF'lerle çalışıyorsan GPU'suz acı çekersin.

Prototip aşamasında. Çekirdek çalışıyor, kullanıyorum ama cilalanmış bir yazılım değil. Arayüz işlevsel, süslü değil. Bazı PDF yapıları temiz dönüşmeyebilir. Vakit buldukça geliştirmeye devam ediyorum.

Toplu işleme yok. Tek tek. Kütüphane çapında dönüştürme yapacaksan, sırayla yapmalısın.

İleride

Sahaf'a çeviri özelliği eklemek istiyorum. Şu an kitabı Markdown'a çevirip çeviri için ayrıca yapay zekaya götürüyorsun. Bu döngüyü Sahaf'ın içinde kapatmak istiyorum: Dönüştür, böl, çevir, hepsi tek akışta.

Özetle

Sahaf kişisel bir ihtiyaçtan doğdu. Okuyamadığım kitaplarım vardı, onları okunabilir kılmanın bir yolunu buldum. Ama aslında daha büyük bir meseleye bağlanıyor: Var olan bilgi ile erişilebilir bilgi arasındaki uçurum.

Dünyada çoğu insanın okuyamadığı dillerde, çoğu aracın işleyemediği formatlarda milyonlarca kitap var. Kütüphanelerde, kişisel koleksiyonlarda öylece duruyorlar. OCR ve yapay zekanın birleşimi bu kilitleri açabilir. Okumayı değiştirmek için değil, okumayı engelleyen bariyerleri kaldırmak için.

Sahaf buna küçük bir katkı. Kitapları modern dünyanın işleyebileceği hale getiren yerel, açık kaynak bir araç. 7/24 açık dijital bir sahaf.

Sahaf GPL-3.0 ile açık kaynak. GitHub'da bulabilirsin.

İşine yaradıysa repoya bir yıldız bırakman yeter.

Önerin veya sorun varsa tıkla

Email Telegram X GitHub

Sahaf: PDF ve EPUB'ı Yapay Zeka İçin Markdown'a Dönüştürmek

Ama yeni bir sorun doğdu. Anlayamamak :).

Bir de benim için tamamen erişilmez olan kitaplar var. Rusça, Endonezce, Arapça... Rafta duruyorlar, güzeller ama okunamıyorlar. "Belki bir gün" diye saklıyordum hepsini.

Yapay Zeka Bir Kapı Açtı

İşe yaradı. Kısmen.

Neden Markdown

Sahaf fikri böyle doğdu.

İsim Nereden Geliyor

Bu araç da eski, unutulmuş kitapları alıp modern dünyanın çalışabileceği bir formata dönüştürüyor. Dijital bir sahaf.

Sahaf'ın çıkış noktası eski kitaplardı ama kullanım alanı bununla sınırlı değil.

Nasıl Çalışıyor

EPUB desteğini sonradan ekledim ve beklemediğim kadar iyi çalıştı. GPU gerektirmiyor, neredeyse anında bitiyor.

Her şey kendi makinende çalışıyor. Bulut yok, üçüncü taraf sunucu yok. Kitapların senden çıkmıyor.

Neden Marker

Akıllı Bölme

Bunun için akıllı bir bölme özelliği ekledim. *5 parçaya böl *diyorsun, doğal sınırları buluyor: Başlıklar, yatay çizgiler, paragraf sonları. Cümle ortasından kesim yok.

Bu özellik tüm iş akışını pratik hale getirdi. Dönüştür, bölüm büyüklüğünde parçala, yapay zekayla tek tek üzerinden geç. Çevir, not al, tartış. Okuma tarzım bile değişti.

Neden Yerel

Bulut OCR servisi de kullanabilirdim, bazı durumlarda belki daha iyi sonuç verirdi. Ama tercih etmedim. Bunun birkaç sebebi var:

Gizlilik. Başka birinin sunucusunda durmasını istemediğim bazı belgeler konusunda rahat olmak istedim.

Maliyet. Bulut OCR sayfa başına ücret alıyor. Komple bir kitabı işlemenin maliyeti anlamsız oluyor. Sahaf (~2-3GB) tamamen bedava.

Bağımsızlık. Servisler kapanıyor, API'lar değişiyor, fiyatlar değişiyor. Yerel araç donanımın çalıştığı sürece çalışır.

Limitasyonlar

Dürüst olayım.

Toplu işleme yok. Tek tek. Kütüphane çapında dönüştürme yapacaksan, sırayla yapmalısın.

İleride

Özetle

Sahaf buna küçük bir katkı. Kitapları modern dünyanın işleyebileceği hale getiren yerel, açık kaynak bir araç. 7/24 açık dijital bir sahaf.

Sahaf GPL-3.0 ile açık kaynak. GitHub'da bulabilirsin.

İşine yaradıysa repoya bir yıldız bırakman yeter.

Önerin veya sorun varsa tıkla

Email Telegram X GitHub

Sahaf: PDF ve EPUB'ı Yapay Zeka İçin Markdown'a Dönüştürmek

İlişkili Bölüm

Sahaf: PDF ve EPUB'ı Yapay Zeka İçin Markdown'a Dönüştürmek

Yapay Zeka Bir Kapı Açtı

Neden Markdown

İsim Nereden Geliyor

Sahaf'ın çıkış noktası eski kitaplardı ama kullanım alanı bununla sınırlı değil.

Nasıl Çalışıyor

Neden Marker

Akıllı Bölme

Neden Yerel

Limitasyonlar

İleride

Özetle

Yorumlar

Sahaf: PDF ve EPUB'ı Yapay Zeka İçin Markdown'a Dönüştürmek

İlişkili Bölüm

Sahaf: PDF ve EPUB'ı Yapay Zeka İçin Markdown'a Dönüştürmek

Yapay Zeka Bir Kapı Açtı

Neden Markdown

İsim Nereden Geliyor

Sahaf'ın çıkış noktası eski kitaplardı ama kullanım alanı bununla sınırlı değil.

Nasıl Çalışıyor

Neden Marker

Akıllı Bölme

Neden Yerel

Limitasyonlar

İleride

Özetle

Yorumlar