Ses analizi, dijital cihazlar tarafından kaydedilen ses sinyallerini dönüştürme, keşfetme ve yorumlama sürecidir. Ses verilerini anlamayı amaçlayan bu süreç, son teknoloji derin öğrenme algoritmaları da dahil olmak üzere bir dizi teknolojiyi uygular. Ses analizi, eğlenceden sağlık hizmetlerine ve üretime kadar çeşitli sektörlerde geniş çapta benimsenmiştir.
Konuşma tanıma, bilgisayarların doğal dil işleme teknikleriyle konuşulan kelimeleri ayırt etme yeteneğiyle ilgilidir. Bilgisayarları, akıllı telefonları ve diğer cihazları sesli komutlarla kontrol etmemizi ve metinleri elle girmek yerine makinelere dikte etmemizi sağlar. Apple’ın Siri’si, Amazon’un Alexa’sı, Google Assistant ve Microsoft’un Cortana’sı teknolojinin günlük hayatımıza ne kadar derinlemesine nüfuz ettiğinin popüler örnekleridir.
Ses tanıma
Ses tanıma, ayrı kelimeleri izole etmek yerine insanları seslerinin benzersiz özelliklerine göre tanımlamayı amaçlamaktadır. Bu yaklaşım, kullanıcı kimlik doğrulaması için güvenlik sistemlerinde uygulama alanı bulmaktadır. Örneğin, Nuance Gatekeeper biyometrik motoru, bankacılık sektöründe çalışanları ve müşterileri sesleriyle doğrulamaktadır.
Müzik tanıma:
Müzik tanıma, bilinmeyen şarkıları kısa bir örnekten tanımlamanıza yardımcı olan Shazam gibi uygulamaların popüler bir özelliğidir. Müzikal ses analizinin bir başka uygulaması da tür sınıflandırmasıdır: Örneğin Spotify, parçaları kategorilere ayırmak için tescilli algoritmasını çalıştırıyor (veritabanlarında 5.000’den fazla tür bulunuyor).
Çevresel ses tanıma:
Çevresel ses tanıma, çevremizdeki seslerin tanımlanmasına odaklanarak otomotiv ve imalat endüstrilerine bir dizi avantaj vaat etmesiyle birlikte IoT uygulamalarında çevreyi anlamak için hayati önem taşımaktadır.
Audio Analytic gibi sistemler aracınızın içindeki ve dışındaki olayları “dinleyerek” sürücünün güvenliğini artırmak için aracın ayarlamalar yapmasını sağlar. Bir başka örnek de Bosch’un makine seslerini analizi edebilen ve ekipman sağlığını izlemek ve maliyetli arızaları önlemek için kestirimci bakımı kolaylaştıran SoundSee teknolojisidir.
Sağlık hizmetleri, çevresel ses tanımanın kullanışlı olduğu bir başka alandır. Düşme gibi olayları tespit etmek için non-invaziv bir uzaktan hasta izleme türü sunar. Bunun yanı sıra, öksürme, hapşırma, horlama ve diğer seslerin analizi ön taramayı, bir hastanın durumunu belirlemeyi, kamusal alanlarda enfeksiyon seviyesini değerlendirmeyi vb. kolaylaştırabilir.
Bu tür bir analizin gerçek hayattaki bir kullanım örneği, uyku sırasında diş gıcırdatma ve horlama seslerini tespit eden Sleep.ai’dir. AltexSoft tarafından Hollandalı bir sağlık girişimi için oluşturulan çözüm, diş hekimlerinin bruksizmi tanımlamalarına ve izlemelerine yardımcı olarak sonunda bu anormalliğin nedenlerini anlamalarını ve tedavi etmelerini sağlıyor.
Ne tür sesleri analiz ederseniz edin, her şey ses verilerini ve belirli özelliklerini anlamakla başlar.
Ses verisi nedir?
Zaman periyodu, belirli bir sesin ne kadar sürdüğü veya başka bir deyişle, bir titreşim döngüsünü tamamlamak için kaç saniye gerektiğidir.
Genlik, ses yüksekliği olarak algıladığımız desibel (dB) cinsinden ölçülen ses yoğunluğudur.
Hertz (Hz) cinsinden ölçülen frekans, saniyede kaç ses titreşiminin gerçekleştiğini gösterir. İnsanlar frekansı alçak veya yüksek perde olarak yorumlar.
Frekans nesnel bir parametre iken, ses perdesi özneldir. İnsanların işitme aralığı 20 ila 20.000 Hz arasındadır. Bilim insanları çoğu insanın 500 Hz’in altındaki tüm sesleri – uçak motoru gürültüsü gibi – düşük perde olarak algıladığını iddia etmektedir. Buna karşılık, bizim için yüksek perde 2,000 Hz’in ötesindeki her şeydir (örneğin, bir ıslık).
Ses veri dosyası formatları:
WAV veya WAVE (Waveform Audio File Format) Microsoft ve IBM tarafından geliştirilmiştir. Kayıpsız veya ham bir dosya formatıdır, yani orijinal ses kaydını sıkıştırmaz;
Apple tarafından geliştirilen AIFF (Audio Interchange File Format). WAV gibi, sıkıştırılmamış ses ile çalışır;
Ücretsiz multimedya formatları ve yazılım araçları sunan Xiph.Org Vakfı tarafından geliştirilen FLAC (Free Lossless Audio Codec). FLAC dosyaları ses kalitesini kaybetmeden sıkıştırılır.
MP3 (mpeg-1 audio layer 3) Almanya’daki Fraunhofer Topluluğu tarafından geliştirilmiş ve tüm dünyada desteklenmektedir. Müziğin taşınabilir cihazlarda saklanmasını ve İnternet üzerinden ileri geri gönderilmesini kolaylaştırdığı için en yaygın dosya formatıdır. Mp3 sesi sıkıştırmasına rağmen yine de kabul edilebilir bir ses kalitesi sunar.
Bilinmesi gereken ses verisi dönüştürme temelleri:
Ses dosyalarının işlenmesine daha derinlemesine dalmadan önce, ses verilerinin toplanmasından makine öğrenimi tahminlerinin elde edilmesine kadar yolculuğumuzun neredeyse her adımında karşılaşacağınız belirli terimleri tanıtmamız gerekiyor. Ses analizinin dinlemekten ziyade görüntülerle çalışmayı içerdiğini belirtmek gerekir.
Dalga formu, bir ses sinyalinin, genliğin zaman içinde nasıl değiştiğini yansıtan temel bir görsel temsilidir. Grafik, yatay (X) eksende zamanı ve dikey (Y) eksende genliği gösterir ancak bize frekanslara ne olduğunu söylemez.
Spektrogram, sesin üç özelliğini de kapsayan bir sinyalin ayrıntılı bir görünümüdür. X ekseninden zaman, y ekseninden frekanslar ve renkten genlik hakkında bilgi edinebilirsiniz. Olay ne kadar yüksek olursa renk o kadar parlak olurken, sessizlik siyah ile temsil edilir. Tek bir grafikte üç boyuta sahip olmak çok kullanışlıdır: frekansların zaman içinde nasıl değiştiğini izlemenize, sesi tüm doluluğuyla incelemenize ve çeşitli sorunlu alanları (gürültüler gibi) ve desenleri görerek tespit etmenize olanak tanır.
Mel’in melodi anlamına geldiği mel spektrogramı, insanların ses özelliklerini nasıl algıladıklarını açıklayan mel ölçeğine dayalı bir spektrogram türüdür. Kulağımız düşük frekansları yüksek frekanslardan daha iyi ayırt edebilir. Bunu kendiniz de kontrol edebilirsiniz: Önce 500 ila 1000 Hz, sonra da 10.000 ila 10.500 Hz arasında tonlar çalmayı deneyin. İlk frekans aralığı ikincisinden çok daha geniş görünecektir, ancak aslında aynıdırlar. Mel spektrogramı, Hertz cinsinden değerleri mel ölçeğine dönüştürerek insan işitme duyusunun bu benzersiz özelliğini bir araya getirir. Bu yaklaşım, tür sınıflandırması, şarkılarda enstrüman tespiti ve konuşma duygusu tanıma için yaygın olarak kullanılmaktadır.
Fourier dönüşümü (FT), bir sinyali farklı genlik ve frekanslardaki sivri uçlara ayıran matematiksel bir fonksiyondur. Aynı sinyale farklı bir açıdan bakmak ve frekans analizi yapmak için dalga formlarını karşılık gelen spektrum grafiklerine dönüştürmek için kullanırız. Sinyalleri anlamak ve bunlardaki hataları gidermek için güçlü bir araçtır.
Ses analizi yazılımı
- Ses verilerini içe aktarma ek açıklamalar (etiketler) ekleyin.
- Kayıtları düzenleyin ve parçalara ayırın.
- Gürültüyü giderin.
- Sinyalleri ilgili görsel temsillere (dalga formları, spektrum grafikleri, spektrogramlar, mel spektrogramlar) dönüştürür.
- Ön işleme işlemlerini gerçekleştirir.
- Zaman ve frekans içeriğini analiz edin.
- Ses özelliklerini ve daha fazlasını ayıklayın.
Çoğu platform ayrıca makine öğrenimi modellerini eğitmenize ve hatta size önceden eğitilmiş algoritmalar sağlamanıza olanak tanır.
Ses verisi analiz adımları:
Artık ses verileri hakkında temel bir anlayışa sahip olduğumuza göre, uçtan uca ses analizi projesinin temel aşamalarına bir göz atalım.
- Standart dosya formatlarında saklanan projeye özel ses verilerini elde edin.
- Yazılım araçlarını kullanarak verileri makine öğrenimi projeniz için hazırlayın.
- Ses verilerinin görsel temsillerinden ses özelliklerini çıkarın.
- Makine öğrenimi modelini seçin ve ses özellikleri üzerinde eğitin.
Ses Verisi Etiketleme