'Yazma Eserlerin OCR Teknolojileri Geliştirilerek Sayısallaştırılması' Projesi
Projeyle el yazması eserlerin OCR teknolojisiyle sayısallaştırılarak bilgisayar ortamına aktarılması ve kolay bir şekilde erişilmesi amaçlanıyor IRCICA Genel Direktörü Dr. Eren: 'Tüm dünyadaki araştırma kurumlarına ve üniversitelere hizmet edecek bu projenin İslam tarihi ve medeniyetine dair çok sayıda kıymetli koleksiyonu barındıran İstanbul'da gerçekleşmesi ve yine İslam ülkeleriyle ilgili eşsiz koleksiyonları bulunduran IRCICA tarafından yürütülmüş olması, bu çalışmaya özel bir anlam katmaktadır'
İslam Tarih, Sanat ve Kültür Araştırma Merkezi'nin (IRCICA) İstanbul Kalkınma Ajansı (İSTKA) desteğiyle gerçekleştirdiği ''Yazma Eserlerin Optik Karakter Tanıma (OCR) Teknolojisiyle Geliştirilerek Sayısallaştırılması'' projesi tanıtıldı.
Merkezin Cağaloğlu'ndaki binasında gerçekleştirilen tanıtım toplantısında, nesih, rika, talik ve nestalik gibi yazı tipiyle yazılmış yazma eserlerin OCR teknolojileri geliştirilerek sayısallaştırılması programı uygulamalı olarak gösterildi.
IRCICA Genel Direktörü Dr. Halit Eren, burada yaptığı konuşmada, merkezin 2011'den beri sürdürdüğü ve dünya çapında ilk kez gerçekleştirilen Osmanlıca OCR çalışması ile sayısallaştırma sürecinde önemli bir aşamayı tamamladıklarını söyledi.
Bu çalışmayla tüm Osmanlıca matbu eserlerin metin içi aramaya açık hale geldiğini ifade eden Eren, ''Şimdi de bu projeyle yazma eserler için aynı teknolojiyi kullanacağız. Tüm dünyadaki araştırma kurumlarına ve üniversitelere hizmet edecek bu projenin İslam tarihi ve medeniyetine dair çok sayıda kıymetli koleksiyonu barındıran İstanbul'da gerçekleşmesi ve yine İslam ülkeleriyle ilgili eşsiz koleksiyonları bulunduran IRCICA tarafından yürütülmüş olması, bu çalışmaya özel bir anlam katmaktadır.'' diye konuştu.
- "İstanbul'un belleğini oluşturan temel değerlerin ve kültürel mirasın korunmasına önem veriyoruz"
İSTKA Genel Sekreteri Özgül Özkan Yavuz da küreselleşen dünyada kültür konusunun, sürdürülebilir kalkınmanın ekonomik, sosyal ve çevresel boyutlarıyla birlikte dördüncü ayağı olarak kabul edildiğini belirtti.
İstanbul'un belleğini oluşturan temel değerlerin ve kültürel mirasın korunmasına önem verdiklerini dile getiren Yavuz, şunları kaydetti:
''Bu hedefle kültürel mirasın erişilebilirliğinin arttırılmasında, yenilikçi yöntemlerin, bilgi ve iletişim teknolojilerinin kullanılmasını teşvik ediyoruz. Tarihimize ışık tutan el yazmalarının OCR teknolojisi denilen Optik Karakter Tanıma yöntemiyle sayısallaştırılarak bu kültürel mirastan en etkin şekilde yararlanılmasını sağlamak için yürekten destekliyoruz. Toplam bütçesi 630 bin lira. Biz de yüzde 90 oranında hibe desteği sağladık. Proje başarıyla yürütüldü. Kültürel mirasımızın gelecek nesillere taşınmasında çok önemli adım olduğuna inanıyorum.''
Projenin teknik ekip sorumlusu Sinan Kuşdoğan ise OCR sistemiyle ilgili yaptığı sunumda, Optik Karakter Tanımanın bir imaj üzerinden çeşitli sembollerin değiştirilebilir hale getirilmesi olduğunu belirterek, imaj şeklinde olan metinleri sayısal ortama aktarmayı amaçladıklarını söyledi.
Türkiye'de yaklaşık 400 bin yazma eser olduğunu aktaran Kuşdoğan, ''600 yıllık Osmanlı tarihinde araştırma, tarih ve eğitimle ilgili yazılmış eserler var. Modern dünyada araştırmacılar ve Osmanlıca uzmanları dışında bunlara kimse erişemiyor. Oysa sayısal bir kütüphanede metin taraması yapıldığında çok daha hızlı bir şekilde bu bilgilere ulaşma imkanınız oluyor.'' ifadelerini kullandı.
OCR sistemini geliştirirken son teknoloji yapay sinir ağları ve yapay zeka ile derin öğrenme metodları kullandıklarını anlatan Kuşdoğan, şöyle konuştu:
''Türkçe alfabemizde 29 harf var. Yani Türkçe olan bir eseri bilgisayara aktardığınızda 29 tane farklı ihtimali arıyorsunuz. Fakat Osmanlıca eserlerde 300'ün üzerinde kalıp var. Biz bu yapay zeka ağlarla 300 kalıbın doğru bir şekilde dizilişlerini arıyoruz. Yazma eserler, matbu gibi sıralanmış kalıpların çıktıları değiller, elle yazılmışlar. Satırları düz değil, birbirlerine girmiş durumda. Sayısallaştırma aşamasında ilk önce eserleri seçiyoruz, tarıyoruz ve bir örneklendirme işlemi yapmış oluyoruz. İkinci aşamada, yazılıma bunu nasıl tanıyacağını, harfleri nasıl bulacağını ve diğerlerinden nasıl ayıracağını öğretiyoruz. Son aşamada da bir önceki aşamada elde ettiğimiz algoritmaları örnekler dışındaki kitap ve eserlere öğretiyoruz. Sonra bu imajları işliyoruz, yani karakterlerini tanıtıyoruz. Daha sonra katalogluyoruz ve yayınlıyoruz. Tüm bu işler, yazma eserlerin dijital hali üzerinden yapılıyor.''
Projeyle, el yazması eserlerin OCR teknolojisiyle sayısallaştırılarak bilgisayar ortamına aktarılması ve kolay bir şekilde erişilmesi amaçlanıyor. Bu çerçevede bilgisayar ortamına aktarılan yazma eserler üzerinden metin araması yapılabilecek, eserler koleksiyonlar ve başlıklar kategorisinde görülebilecek. Bu sisteme yüklenmiş eserlerde herhangi bir kelime aratıldığında, eserin neresinde geçtiği bilgisine ulaşılabilecek.
Kaynak: AA
Merkezin Cağaloğlu'ndaki binasında gerçekleştirilen tanıtım toplantısında, nesih, rika, talik ve nestalik gibi yazı tipiyle yazılmış yazma eserlerin OCR teknolojileri geliştirilerek sayısallaştırılması programı uygulamalı olarak gösterildi.
IRCICA Genel Direktörü Dr. Halit Eren, burada yaptığı konuşmada, merkezin 2011'den beri sürdürdüğü ve dünya çapında ilk kez gerçekleştirilen Osmanlıca OCR çalışması ile sayısallaştırma sürecinde önemli bir aşamayı tamamladıklarını söyledi.
Bu çalışmayla tüm Osmanlıca matbu eserlerin metin içi aramaya açık hale geldiğini ifade eden Eren, ''Şimdi de bu projeyle yazma eserler için aynı teknolojiyi kullanacağız. Tüm dünyadaki araştırma kurumlarına ve üniversitelere hizmet edecek bu projenin İslam tarihi ve medeniyetine dair çok sayıda kıymetli koleksiyonu barındıran İstanbul'da gerçekleşmesi ve yine İslam ülkeleriyle ilgili eşsiz koleksiyonları bulunduran IRCICA tarafından yürütülmüş olması, bu çalışmaya özel bir anlam katmaktadır.'' diye konuştu.
- "İstanbul'un belleğini oluşturan temel değerlerin ve kültürel mirasın korunmasına önem veriyoruz"
İSTKA Genel Sekreteri Özgül Özkan Yavuz da küreselleşen dünyada kültür konusunun, sürdürülebilir kalkınmanın ekonomik, sosyal ve çevresel boyutlarıyla birlikte dördüncü ayağı olarak kabul edildiğini belirtti.
İstanbul'un belleğini oluşturan temel değerlerin ve kültürel mirasın korunmasına önem verdiklerini dile getiren Yavuz, şunları kaydetti:
''Bu hedefle kültürel mirasın erişilebilirliğinin arttırılmasında, yenilikçi yöntemlerin, bilgi ve iletişim teknolojilerinin kullanılmasını teşvik ediyoruz. Tarihimize ışık tutan el yazmalarının OCR teknolojisi denilen Optik Karakter Tanıma yöntemiyle sayısallaştırılarak bu kültürel mirastan en etkin şekilde yararlanılmasını sağlamak için yürekten destekliyoruz. Toplam bütçesi 630 bin lira. Biz de yüzde 90 oranında hibe desteği sağladık. Proje başarıyla yürütüldü. Kültürel mirasımızın gelecek nesillere taşınmasında çok önemli adım olduğuna inanıyorum.''
Projenin teknik ekip sorumlusu Sinan Kuşdoğan ise OCR sistemiyle ilgili yaptığı sunumda, Optik Karakter Tanımanın bir imaj üzerinden çeşitli sembollerin değiştirilebilir hale getirilmesi olduğunu belirterek, imaj şeklinde olan metinleri sayısal ortama aktarmayı amaçladıklarını söyledi.
Türkiye'de yaklaşık 400 bin yazma eser olduğunu aktaran Kuşdoğan, ''600 yıllık Osmanlı tarihinde araştırma, tarih ve eğitimle ilgili yazılmış eserler var. Modern dünyada araştırmacılar ve Osmanlıca uzmanları dışında bunlara kimse erişemiyor. Oysa sayısal bir kütüphanede metin taraması yapıldığında çok daha hızlı bir şekilde bu bilgilere ulaşma imkanınız oluyor.'' ifadelerini kullandı.
OCR sistemini geliştirirken son teknoloji yapay sinir ağları ve yapay zeka ile derin öğrenme metodları kullandıklarını anlatan Kuşdoğan, şöyle konuştu:
''Türkçe alfabemizde 29 harf var. Yani Türkçe olan bir eseri bilgisayara aktardığınızda 29 tane farklı ihtimali arıyorsunuz. Fakat Osmanlıca eserlerde 300'ün üzerinde kalıp var. Biz bu yapay zeka ağlarla 300 kalıbın doğru bir şekilde dizilişlerini arıyoruz. Yazma eserler, matbu gibi sıralanmış kalıpların çıktıları değiller, elle yazılmışlar. Satırları düz değil, birbirlerine girmiş durumda. Sayısallaştırma aşamasında ilk önce eserleri seçiyoruz, tarıyoruz ve bir örneklendirme işlemi yapmış oluyoruz. İkinci aşamada, yazılıma bunu nasıl tanıyacağını, harfleri nasıl bulacağını ve diğerlerinden nasıl ayıracağını öğretiyoruz. Son aşamada da bir önceki aşamada elde ettiğimiz algoritmaları örnekler dışındaki kitap ve eserlere öğretiyoruz. Sonra bu imajları işliyoruz, yani karakterlerini tanıtıyoruz. Daha sonra katalogluyoruz ve yayınlıyoruz. Tüm bu işler, yazma eserlerin dijital hali üzerinden yapılıyor.''
Projeyle, el yazması eserlerin OCR teknolojisiyle sayısallaştırılarak bilgisayar ortamına aktarılması ve kolay bir şekilde erişilmesi amaçlanıyor. Bu çerçevede bilgisayar ortamına aktarılan yazma eserler üzerinden metin araması yapılabilecek, eserler koleksiyonlar ve başlıklar kategorisinde görülebilecek. Bu sisteme yüklenmiş eserlerde herhangi bir kelime aratıldığında, eserin neresinde geçtiği bilgisine ulaşılabilecek.