Uzun yıllar boyunca insanlar, insan zekasının özelliklerine sahip, insan gibi düşünebilen ve hareket edebilen makineler yaratmayı hayal etmişlerdir. En büyüleyici fikirlerden biriyse bilgisayarlara çevrelerindeki dünyayı “görme” ve yorumlama yeteneği vermek olmuştur. Çünkü görme yeteneği yalnızca canlı varlıklarda bulunur ve bunu mümkün kılan gözlerin yapısı ise oldukça karmaşıktır. Aslında görmenin önemli bir kısmı gördüğümüzü anlamaktır. Aksi takdirde yalnızca önümüzdeki nesnelerden yansıyan ışığı görmüş olurduk. Bu yüzden gördüklerimizin beynimizde işlenmesi burada kilit noktadır.
Bilgisayarların gözleri de kameralardır. Bilgisayar görüşü, görüntülerdeki binlerce pikseli işlerken beyin görevi görür ve böylece makinelerin gördüklerini anlamalarını sağlar. Yani tıpkı insanların yaptığı gibi görsel verileri işleyebilen, analiz edebilen ve anlamlandırabilen dijital sistemler oluşturmaya odaklanır.
Bilgisayar görüşü; sürücüsüz arabalar, yüz tanıma ve artırılmış gerçeklik gibi birçok teknolojik yeniliğin geliştirilebilmesi için kritik öneme sahiptir. Ürettiğimiz görüntü verilerinin giderek artması, yapay zeka alanlarının katlanarak büyümesinin ve veri bilimcilerin algoritmaları bu konuda eğitmesinin en önemli sebeplerinden biridir.
Bilgisayar görüşü sistemlerinin kullanıldığı en önemli görevlerden birkaçı şöyledir:
- Nesne sınıflandırması: Sistem görsel içeriği ayrıştırır ve bir fotoğraf veya video üzerindeki nesneyi tanımlanan kategorilere göre sınıflandırır. Örneğin bilgisayar görüşünü kullanan bir sistem, görüntüdeki tüm nesneler arasından bir köpeği bulabilir.
- Nesne tanımlama: Sistem görsel içeriği ayrıştırarak bir fotoğraf veya video üzerindeki tek bir nesneyi tanımlar. Örneğin sistem, görüntüdeki köpekler arasından belirli bir köpeği bulabilir.
- Nesne izleme: Sistem videoyu işler ve arama kriterlerine uyan nesneyi (veya nesneleri) bulur ve hareketini takip eder.
Bilgisayar görüşü nasıl çalışır?
Bilgisayarla görme teknolojisi, insan beyninin çalışma şeklini taklit etme eğilimindedir. Peki, beynimiz görsel nesneleri nasıl tanıyor? Bu konudaki popüler hipotezlerden biri, beynimizin tek tek nesnelerin kodunu çözmek için kalıplara güvendiğidir. Bu konsept bilgisayarlı görüş sistemlerini oluşturmak için de kullanılır. Yani bilgisayarlar beynin çalışma şeklini taklit eder.
Günümüzde kullanılan bilgisayarlı görme algoritmaları, örüntü tanımaya dayanmaktadır. Bilgisayarlar, büyük miktarlarda görsel veriler üzerinde eğitilir yani görüntüleri işler, üzerlerindeki nesneleri etiketler ve bu nesnelerdeki kalıpları bulurlar. Örneğin bir milyon çiçek görüntüsü gönderirsek, bilgisayar bunları analiz edecek, tüm çiçeklere benzeyen desenleri belirleyecek ve bu işlemin sonunda bir “çiçek” modeli oluşturacaktır. Bunların sonucunda bilgisayar, gördüğü görüntünün bir çiçek olup olmadığını, onlara her görüntü gönderdiğimizde doğru bir şekilde tespit edebilecektir. Bunu yaparken teknik kısımda neler olduğuna da bir bakalım. Makineler görüntüleri, her biri farklı renk değerlerine sahip bir dizi piksel olarak yorumlar. Örneğin, Abraham Lincoln’ün aşağıdaki görüntüsüne bir bakalım. Bu görüntüdeki her pikselin parlaklığı, 0 (siyah) ile 255 (beyaz) arasında değişen farklı renklerden oluşur ve bunlar da farklı sayılarla temsil edilir. Bu sayılar bir görüntü girdiğinizde yazılımın görseli yorumlamasıyla oluşur. Bilgisayar tarafından yorumlanan bu veriler, analiz etme ve karar vermeden sorumlu olan bilgisayar görüşü algoritmasına bir girdi olarak sağlanır.
Son zamanlarda teknoloji ve yapay zeka alanında kaydettiğimiz büyük ilerlemelere rağmen, aslında hala bilgisayarla görmeyi çözmeye yakın bile değiliz. Yine de görüntü tanıma modellerinin hata oranları her geçen gün önemli ölçüde düşüyor. Nesne algılamadan insan yüzlerini hassasiyetle tanımlamaya kadar çok yol kat ettik. Her geçen gün gelişen teknolojiyle gerçek bilgisayar vizyonuna ulaşmak, büyük olasılıkla insanlar kadar zeki ve üretken robotlar yaratmanın yapı taşlarından biri olacaktır.
İlginizi çekebilir: Pembe Yakalı İşçiler: İş Hayatının Cinsiyetçi Yönü