Sentetik Hasta Verisi: Klinik Çalışmalarda Kullanım ve Kalite Standartları

Sentetik Hasta Verisi_ Klinik Araştırmalarda Kullanım ve Kalite

Giriş

Bu bölümde sentetik hasta verisi kavramı, tarihsel gelişimi ve klinik araştırmalardaki önemi kısaca açıklanmaktadır. Sentetik hasta verisi, gerçek hasta kayıtlarının istatistiksel özelliklerini taklit eden, ancak hiç bir gerçek hastaya ait olmayan yapay olarak üretilmiş verilerdir. Gizlilik kaygıları ve büyük veri alanındaki gelişmeler, araştırmacıları gerçek veriler yerine bu tür yapay veri setleri kullanmaya yöneltmiştir. Aslında bilgisayar tabanlı sentetik veri üretimi yeni bir fikir değildir; Monte Carlo simülasyonlarıyla 1940’lara kadar uzanan bir geçmişi vardır. Ancak özellikle yapay zekâ ve makine öğreniminin sağlıkta yükselişiyle, sentetik hasta verisine ilgi son yıllarda katlanarak artmıştır. 

Sentetik verinin klinik araştırmalar için önemi giderek belirginleşmektedir. Gerçek dünyada elektronik sağlık kayıtları ve klinik deneme verileri gibi kaynaklar muazzam araştırma potansiyeli barındırsa da, kişisel verilerin korunmasına dair katı düzenlemeler ve etik endişeler, bu verilerin erişimini zorlaştırmaktadır. Sentetik veriler, gerçek hasta bilgilerine dayalı hassas verileri paylaşmadan, istatistiksel olarak benzer sanal hastalar oluşturarak bu sorunu aşmayı vaat etmektedir. Bu sayede hasta mahremiyetini ihlal etmeden kişiselleştirilmiş tedaviler, halk sağlığı politikaları ve yapay zekâ uygulamaları için ihtiyaç duyulan çeşitli ve kapsamlı veri setleri elde edilebilir. Nitekim, sentetik verilerin veriye erişimi hızlandırıp maliyetleri düşürerek klinik araştırmalarda çığır açabileceği düşünülmektedir. Gartner şirketinin öngörüsüne göre 2030 yılına gelindiğinde yapay zekâ modellerini eğitmekte kullanılan verilerin çoğunluğunu sentetik veriler oluşturacaktır. Özetle, sentetik hasta verisi kavramı kısa sürede sağlık Ar-Ge ekosisteminin önemli bir parçası haline gelmiş olup, bu yazının devamında yasal-etik çerçeveden kalite standartlarına ve uygulama örneklerine kadar kapsamlı bir inceleme sunulacaktır.

Yasal & Etik Çerçeve

Bu bölümde sentetik hasta verisinin mevcut düzenlemelerdeki yeri ve kullanımıyla ilgili yasal ve etik hususlar ele alınmaktadır. Kişisel verilerin korunması mevzuatı, sentetik veri kullanımını şekillendiren temel faktördür. Avrupa Birliği Genel Veri Koruma Tüzüğü (GDPR) ve Türkiye’deki Kişisel Verilerin Korunması Kanunu (KVKK) gibi yasalar, kimliği belirli veya belirlenebilir gerçek kişilere ilişkin her türlü bilgiyi kişisel veri olarak tanımlar. Bu tanım gereği, başarılı şekilde anonim hale getirilmiş sentetik veriler bir gerçek kişiye ait olmadığından teorik olarak kişisel veri kapsamı dışında kalabilir. Nitekim sentetik veriler, gerçek bireylerin mahremiyetine müdahaleyi önleyen bir mahremiyet mühendisliği yöntemi olarak değerlendirilmektedir. Örneğin ABD’de sağlık bilgi gizliliğini düzenleyen HIPAA, uygun biçimde üretilmiş sentetik veriyi Korunan Sağlık Bilgisi (PHI) saymamaktadır; bu da sentetik verinin ek sözleşme veya kısıt olmaksızın ikincil amaçlar için özgürce paylaşılabileceği anlamına gelir. 

Bununla birlikte, sentetik verinin yasal statüsü henüz tam olarak netleşmiş değildir. Özellikle gerçek hasta verilerinden türetilen sentetik verilerin oluşturulma süreci, ham verinin kullanımı aşamasında yine veri koruma yasalarına tabi olabilir. Örneğin GDPR, kişisel verilerin anonim hale getirilmesini desteklemekle birlikte, yapay veriye dönüştürme sürecinin de meşru bir dayanağa sahip olmasını gerektirebilir. Bu alandaki düzenleyici boşluklar literatürde “hukuki bir boşluk” olarak nitelenmiş ve kötüye kullanıma açık olabileceği belirtilmiştir. Arora ve Arora (2022), sentetik hasta verilerinin mevcut yasal çerçevelerde açık bir şekilde tanımlanmamasının, veriyi üreten ve kullananlara beklenmedik bir serbesti alanı yaratabileceğine dikkat çekmektedir. Benzer şekilde Türkiye’de KVKK özel nitelikli kişisel verilerin (örneğin sağlık verilerinin) işlenmesine sıkı kısıtlar getirmekte; Sağlık Bakanlığı’nın 20 Ekim 2016 tarihli yönetmeliği, sağlık verilerinin ancak ilgili kişinin açık rızası ile veya kanunda belirtilen istisnai hallerde işlenebileceğini şart koşmaktadır. Bu durum, gerçek veriden sentetik veri üretme aşamasında da kurumların hukuki yükümlülükleri göz ardı etmemesi gerektiğine işaret eder. 

Etik boyut, sentetik veri kullanımında en az yasal düzenlemeler kadar kritik bir rol oynar. Sentetik verilerin en büyük vaadi, veri sahiplerinden bağımsız olması sayesinde birey mahremiyetini korumasıdır; ancak bu durum bazı yeni etik soruları gündeme getirmektedir. Birincisi, sentetik veriye dayalı çalışmalar hala gerçek hastalardan elde edilen dağılımsal bilgilere dayanır ve “mahremiyet paradoksu” denilen durum ortaya çıkabilir: Eğer sentetik veri üretim modeli orijinal verilere çok benzer veriler üretirse, bu verilerden gerçek bireylerin bazı özel bilgilerini geri çıkarmak mümkün olabilir. Nitekim yakın tarihli bir kapsamlı inceleme, incelenen çalışmaların çoğunda sentetik verilerin sağladığı gizlilik korumasının ölçülmediğini, ölçenlerin de yeniden kimliklendirme riskini genellikle hafife aldığını ortaya koymuştur. Bu bulgu, “sentetik veri tamamen güvenlidir” şeklindeki rehavete kapılmamak gerektiğini göstermektedir. İkinci olarak, sentetik verilerin doğruluk ve güvenilirliği etik bir endişe konusudur: Eğer yapay üretilen veriler gerçek popülasyonun özelliklerini hatalı veya önyargılı yansıtıyorsa, bu verilerle yapılan analizler yanıltıcı sonuçlara yol açabilir. Örneğin, nadir görülen bir alt popülasyonu temsil eden veriler yetersiz veya hatalı sentetikleştirilirse, o grup için geliştirilen tedaviler risk altında kalabilir. Bu nedenle sentetik veri setlerinin temsil kabiliyeti titizlikle değerlendirilmeli ve araştırmacılar kritik kararları doğrulamadan önce mümkünse gerçek veri ile çapraz kontrol yapmalıdır. Üçüncü olarak, hakkaniyet ve katılım meselesi gündeme gelir: Sentetik veriler anonim olduğundan hastalarla doğrudan ilişkisi yokmuş gibi düşünülebilir, ancak hastaların verilerinden türetilen yapay verilerden elde edilen kazanımlar konusunda veri sahiplerinin beklentileri göz ardı edilmemelidir. Hastings Center raporunda vurgulandığı üzere, sentetik veri üretimi süreçlerine ve değerlendirme aşamalarına hasta temsilcilerinin ve etik kurulların dahil edilmesi, şeffaflık ve hesap verebilirlik ilkelerinin korunmasına katkı sağlayacaktır. Son olarak, sentetik veriler mevcut yasal boşluklardan faydalanılarak kötü amaçlarla kullanılabilir veya denetimsiz bırakılırsa, toplum nezdinde güven erozyonuna yol açabilir. Bu nedenle, düzenleyici kurumların sentetik verinin kullanımına ilişkin rehberler ve standartlar geliştirmesi, hukuki boşlukları kapatarak inovasyonu desteklerken suistimali önlemesi beklenmektedir.

Kalite Standartları & Doğrulama Metrikleri

Bu bölümde sentetik hasta verilerinin kalite standartları ve doğrulama metrikleri tartışılmaktadır. Kaliteli bir sentetik veri seti, hem orijinal verinin kullanım amacı için yeterli ölçüde gerçekliğe sadık (doğru ve tutarlı) olmalı, hem de gizlilik açısından güvenli olmalıdır. Dolayısıyla, sentetik veri kalitesini değerlendirirken üç temel boyut öne çıkar: fidelite (aslına uygunluk)kullanılabilirlik (yarar) ve gizlilik koruması.

  • Veri Doğruluğu (Fidelite): Sentetik verinin gerçek veriyle istatistiksel benzerliği, onun araştırma için ne kadar geçerli olacağının ilk göstergesidir. Bu kapsamda, sentetik veri setinin temel istatistikleri ve dağılımı orijinal veriyle uyumlu olmalıdır. Örneğin sentetik verideki hasta yaş ortalaması veya belirli bir ilacı kullananların oranı, gerçek veriyle makul düzeyde tutarlılık göstermelidir. Fideliteyi ölçmek için birçok yöntem kullanılır: Betimleyici istatistiklerin karşılaştırılması, histogram ve korelasyon analizleri, istatistiksel hipotez testleri (örn. Ki-kare, t-testi, Kolmogorov-Smirnov) gibi teknikler yaygındır. Örneğin, Washington Üniversitesi’nde yapılan bir çalışmada sentetik omurga cerrahisi verisi ile gerçek veri arasında dağılım ve sonuçlar açısından anlamlı fark bulunmadığı, iki veri kümesinin “neredeyse özdeş” dağılımlar sergilediği rapor edilmiştir. Bu tür karşılaştırmalar, sentetik verinin gerçek dünyayı ne derece doğru yansıttığını ortaya koyar. Yüksek fidelite, sentetik verinin gerçek veri yerine analizlerde kullanılabilmesi için ön şarttır. Ancak burada dikkat edilmesi gereken nokta, fidelitenin çok yüksek olmasının bazen gizlilik aleyhine olabileceğidir; zira gerçek veriye birebir çok benzeyen sentetik kayıtlar, orijinal verideki bir kişiyi ifşa edebilecek ipuçları barındırabilir. Dolayısıyla fidelite değerlendirmesi, gizlilik metriğiyle birlikte dengeli ele alınmalıdır.
  • Kullanılabilirlik ve Model Performansı (Utility): Bir sentetik veri setinin asıl değeri, onu kullanarak elde edilen model ve analiz sonuçlarının gerçek veriyle elde edilecek sonuçlara yakın olmasıdır. Bu amaçla literatürde Train on Synthetic, Test on Real (TSTR) gibi metrikler geliştirilmiştir. Örneğin, bir makine öğrenimi modeli sentetik veride eğitilip gerçek veride test edildiğinde başarım oranı kabul edilebilir düzeydeyse, bu sentetik verinin analitik olarak işe yarar olduğunu gösterir. Model performansı tabanlı metrikler, sentetik verinin pratik faydasını ölçmede etkilidir. Sentetik verinin kullanımıyla modellerin eğitimi daha hızlı ve çeşitli uç durumlar dahil edilerek yapılabilir; bu da modelin genelleme kabiliyetini artırabilir. Hatta bazı durumlarda sentetik veriler, orijinal veri setindeki dengesizlikleri gidererek (ör. azınlık sınıfları çoğaltarak) model doğruluğunu yükseltebilir. Örneğin küçük örneklemli nadir hastalıklarda sentetik veri üretip mevcut veriyle birleştirerek geliştirilen bir model, sadece gerçek veriye dayalı modele kıyasla daha yüksek tahmin performansı sergileyebilir. Bununla birlikte, sentetik verinin kullanımıyla elde edilen bulguların geçerliliği mutlaka gerçek veri ile doğrulanmalıdır. Kokosi ve Harron (2022), sentetik verilerin resmi analizlerde ne derece güvenilebileceği, üretim maliyet-etkinliği ve açıklık riskinin nasıl değerlendirileceği konularında daha fazla araştırmaya ihtiyaç duyulduğunu vurgulamıştır. Dolayısıyla, sentetik veriyle yapılan modellemelerin sonuçları mümkün mertebe orijinal veri veya altın standartlarla karşılaştırılmalı, sentetik verinin işlevsel faydası bu şekilde teyit edilmelidir.
  • Gizlilik Koruması: Sentetik veri kalitesinin üçüncü ayağı, veri setinin kişisel bilgileri ifşa etmeme güvencesidir. Her ne kadar sentetik veriler gerçek bireyleri birebir yansıtmasa da, yeterince özen gösterilmemiş bir sentetikleştirme süreci, orijinal veriyle yüksek benzerlik taşıyan kayıtlar üretebilir. Bu durumda saldırganlar, belirli bir sentetik kaydı gerçek bir kişiye eşleştirme yoluyla yeniden kimliklendirme yapabilir. Gizlilik riskini ölçmek için çeşitli metrikler geliştirilmiştir: Üyelik çıkarım testi (membership inference) bunların en yaygınlarındandır. Bu test, sentetik verinin üretildiği eğitim verisinde belirli bir kişinin olup olmadığının tahmin edilebilirliğini ölçer; eğer bir saldırgan sentetik veriden yola çıkarak “Ali Bey’in verisi bu sentetik setin üretiminde kullanılmış” diyebiliyorsa, gizlilik zafiyeti var demektir. Yapılan derlemelere göre sentetik veri çalışmalarında en sık uygulanan gizlilik testi üyelik çıkarımı olup incelenen vakaların 28’inde bu risk değerlendirilmiş, 9’unda ise özellik çıkarımı (attribute inference) riski ele alınmıştır. Özellik çıkarımı, sentetik veriden yola çıkarak gerçek bir bireyin bilinmeyen bir hassas özelliğini (örn. genetik bir hastalık taşıyıp taşımadığını) tahmin etmeye çalışmayı ifade eder. Gizlilik değerlendirmesinde ayrıca ayırt edilebilirlik yöntemleri kullanılır: Örneğin, orijinal veri setinden ayrılmış bir hold-out test kümesi ile sentetik veriyi ayırt etmeye çalışan bir makine öğrenimi modeli eğitilir; model sentetik ile gerçek veriyi yüksek doğrulukla ayırt edebiliyorsa, sentetik veri muhtemelen orijinale çok benzemiş, dolayısıyla bazı gizlilik riskleri taşıyor demektir. Bir diğer yaklaşım da her bir sentetik kaydın en yakın gerçek kaydına olan mesafesini ölçmektir; eğer bu mesafeler çok düşük ise sentetik kayıtlar neredeyse gerçek kopyalar olabilir. Bu tip metrikler literatürde özgünlük (novelty) ölçümleri olarak da anılır. Son yıllarda, sentetik veriye differential privacy (diferansiyel mahremiyet) ilkelerini entegre eden yöntemler geliştirilmektedir. Diferansiyel mahremiyet, basitçe bir bireyin veride yer alıp almamasının çıktı üzerinde istatistiksel olarak fark edilemez olmasını sağlar. Bazı sentetik veri üreticileri, modele öğrenme sırasında kontrollü rastgelelik ekleyerek her bir orijinal veri noktasının katkısını gizler ve böylece matematiksel gizlilik garantileri sunar. Bunun avantajı, veri korumasının nicel olarak ispatlanabilir olmasıdır; ancak dezavantajı, fideliteyi bir miktar düşürmesidir (veri kalitesinde taviz). Özetle, sentetik veri setlerinin gizlilik korumasını sağlamak için hem uygun algoritmaları seçmek, hem de yeniden kimliklendirme testleri ile bunu doğrulamak şarttır. Kaabachi ve arkadaşlarının (2025) kapsamlı incelemesi, henüz gizlilik ve fayda değerlendirmelerinde standart bir yaklaşım oluşmadığını, çoğu çalışmanın faydaya odaklanırken gizlilik analizini ihmal ettiğini ve mevcut gizlilik değerlendirmelerinin de riskleri küçümseme eğiliminde olduğunu ortaya koymaktadır. Bu durum, önümüzdeki dönemde sentetik veri kalite standartlarının geliştirilmesi ve alandaki en iyi uygulamaların belirlenmesi gerektiğine işaret etmektedir.

Klinik Kullanım Senaryoları

Bu bölümde sentetik hasta verisinin sağlık alanındaki başlıca kullanım senaryoları incelenmektedir. Model eğitimiveri paylaşımı ve saklama ile nadir hastalık verilerinin sentetikleştirilmesi gibi konular ön plana çıkmaktadır.

  • Yapay Zekâ Model Eğitimi: Sentetik veri, makine öğrenimi ve yapay zekâ modellemesinde çok değerli bir araç haline gelmiştir. Özellikle sağlıkta veri gizliliği nedeniyle veri setlerinin sınırlı kaldığı durumlarda, sentetik veriler model eğitimi için yeni bir ufuk açmaktadır. Örneğin bir hastanenin elinde bir yapay zekâ algoritmasını eğitmek için yeterli görüntü ya da hasta geçmişi yoksa, üretici yapay zekâ teknikleriyle benzer ek veriler oluşturulabilir. Generative Adversarial Network (GAN) veya benzeri derin öğrenme tabanlı üretici modeller kullanarak sentetik radyoloji görüntülerielektronik sağlık kayıtları ya da genomik veriler sentez etmek mümkündür. Elde edilen bu veriler, modelin gördüğü örnek çeşitliliğini artırarak genelleme performansını yükseltebilir. Brad Davis’in de belirttiği gibi, sentetik veri sayesinde AI modelleri daha “sıkı” ve çeşitli uç durumlarla eğitilebilir, bu da nihayetinde modellerin doğruluk ve hızını artırır. Örneğin, bir klinik karar destek modeli gerçek veriyle eğitildiğinde nadir görülen komplikasyonları öğrenemeyebilir; ancak sentetik veriyle bu senaryolar çoğaltılarak modele öğretilebilir. Bunun bir yansıması olarak, SMOTE gibi teknikler uzun zamandır veri bilimi dünyasında azınlık sınıfları çoğaltmak için kullanılagelmiştir ve sentetik veri üretiminin ilk basit örnekleri sayılabilir. Günümüzde daha sofistike GAN tabanlı yaklaşımlar, orijinal verinin yapısını koruyarak rastgele varyasyonlar üreterek modeli olası önyargılardan da arındırmaya yardımcı olabilir. Sentetik veriler ile eğitilen modellerin gerçek veriye uygulandığında benzer performansı göstermesi, bu yaklaşımın başarısı için kritik bir ölçüttür; literatürde bu amaçla sentetik-veri eğitimli modellerin gerçek dünyada test edildiği çalışmalar artmaktadır. Örneğin, sentetik veriyle eğitilen bir derin öğrenme modelinin gerçek hasta verileri üzerinde tanı doğruluğunun korunduğu birçok vaka rapor edilmiştir. Yine de, modelleri sadece sentetik veriyle eğitmenin getirdiği sorumluluklar vardır: Üretilen verideki olası yapay örüntüler modelin yanlış genellemeler yapmasına neden olabilir, bu nedenle uzman doğrulaması ve gerçek veri ile karşılaştırma adımları sürece dahil edilmelidir.
  • Veri Paylaşımı ve Saklama: Sağlık sektöründe veri paylaşımı büyük bir ihtiyaç olmakla birlikte mahremiyet engelleri nedeniyle zordur. Sentetik veriler bu engeli aşmak için kurumlar arası güvenli bir köprü işlevi görebilir. Örneğin birden fazla hastanenin bulunduğu bir sağlık grubunda, hastanelerden biri diğerine gerçek hasta verisi göndermek yerine sentetik olarak türetilmiş bir veri seti paylaşabilir. Böylece hasta mahremiyeti ihlal edilmeden makine öğrenimi modelleri farklı merkezlerin verileriyle eğitilebilir veya birleştirilmiş analizler yapılabilir. Nitekim İngiltere’de NHS tarafından yürütülen bir pilot projede, Acil Servis verilerinin sentetik versiyonu (“SynAE”) üretilerek araştırmacılara açılmış ve bu yolla hasta gizliliği kaybı olmadan veri paylaşımının mümkün olduğu gösterilmiştir. Benzer şekilde ABD’de bir sağlık sigortası şirketi, sentetik veri tabanlı bir paylaşım platformu kurarak üçüncü taraf teknoloji geliştiricilerine gerçek veriye erişim vermeden inovasyon yapma imkânı sağlamıştır. Sonuç olarak 8’den fazla yeni dijital sağlık ürünü bu platform üzerinden geliştirilebilmiştir. Bu örnek, sentetik verinin veri silolarını kırarak işbirlikçi inovasyonu tetikleyebileceğinin altını çizmektedir. Veri saklama konusunda ise sentetik veriler, yasal saklama süreleri dolan veya anonimleştirilerek kullanılamaz hale gelen verilerin bilgisini yaşatmak için kullanılabilir. Örneğin klinik bir araştırma sona erdiğinde, ham veriler KVKK/GDPR gereği imha edilse bile, bu verilerden üretilmiş sentetik bir kopya gelecekte yeni hipotezlerin testinde kullanılmak üzere elde tutulabilir. Sentetik veri, kişisel veri sayılmayacağı için daha uzun süre muhafaza edilebilir veya bulut ortamlarında daha rahat depolanabilir. Bu sayede sağlık kurumları, veri yok olma riskini azaltıp bilgi sürekliliğini sağlayabilir. Ayrıca sentetik veriler geliştirme ve test ortamlarında gerçek verinin yerine kullanılarak operasyonel kolaylık da sunar. KVKK’nın 2021 tarihli Biyometrik Veri Rehberi’nde açıkça belirtildiği üzere, bir veri sorumlusu yeni bir sistemi devreye almadan önce veya mevcut sistemde değişiklik yaparken test ortamlarında sentetik veriler aracılığıyla sistemi sınamalıdır. Bu, regülatörün de sentetik verinin yazılım test süreçlerinde kullanımını teşvik ettiğini göstermektedir. Özellikle hastane bilgi sistemleri, yapay zekâ karar destek sistemleri veya mobil sağlık uygulamalarının geliştirme aşamalarında gerçek hasta verisini kullanmak ciddi riskler barındırır; buna karşın sentetik verilerle yapılan testler, hem mahremiyeti korur hem de yazılımların gerçekçi senaryolarla değerlendirilmesini sağlar.
  • Nadir Hastalıklar ve Az Temsil Edilen Gruplar: Sentetik hasta verisinin belki de en kritik kullanım alanlarından biri, nadir görülen hastalıklar veya demografik olarak az temsil edilen hasta gruplarıdır. Gerçek dünyada bu gruplara ait veri az olduğu için, araştırmacılar hem istatistiksel güç hem de gizlilik açısından sıkıntı yaşar. Örneğin çok nadir görülen bir genetik hastalığın ülke genelinde sadece birkaç düzine kayıtlı vakası varsa, bu kişilerin verilerini anonimleştirip yayınlamak bile onları tanınabilir kılabilir. Böyle durumlarda sentetik veri adeta can simidi işlevi görür. Citeline tarafından aktarılan bir örnekte, nadir bir hastalığa sahip ve spesifik bir tedavi alan hastalar, veriler anonimleştirilse bile kendilerine özgü birleşik özellikler nedeniyle kolaylıkla teşhis edilebilirken, aynı verilerin sentetik olarak türetilmesiyle hem tıbbi öyküler korunmuş hem de sahte kimlikler yaratılarak hastaların yeniden tanınma riski minimize edilmiştir. Bu sayede, nadir hastalık verileri araştırmalara açılabilmiş ve daha fazla işbirliği mümkün olmuştur. Sentetik veri kullanımı, içerik kaybı olmadan gizlilik kazanımı sağladığı için, özellikle farmasötik şirketlerin az hasta bulunan hastalıklarda AR-GE yapabilmesini ve akademik araştırmacıların bu popülasyonlar üzerine çalışabilmesini kolaylaştırır. Dahası, sentetik veriler demografik dengeyi iyileştirmek için de kullanılabilir. Örneğin, büyük bir klinik veri setinde belirli bir etnik gruba ait hasta sayısı çok azsa, generatif bir model kullanılarak o gruba ait sentetik vakalar üretilebilir ve böylece yapılan analizlerde veri dengelenmesi sağlanabilir. Bu yaklaşım, tıp araştırmalarında görülen sistematik önyargıları azaltma potansiyeline de sahiptir.
  • Klinik Deneme Tasarımı ve Simülasyon: Sentetik hasta verilerinin heyecan verici kullanım senaryolarından biri de santratik klinik deneme kolları ve dijital ikizler oluşturmaktır. Geleneksel randomize kontrollü çalışmaların en zor yanlarından biri, plasebo veya standart tedavi koluna hasta almaktır – özellikle ağır hastalığı olan veya deneysel tedaviye ihtiyaç duyan popülasyonlarda bu etik bir ikilem yaratır. Sentetik veri burada devreye girerek, sanal plasebo kolları oluşturulmasına imkân tanır. Geçmiş klinik veri ve gerçek dünya kayıtları kullanılarak, belirli bir hastalık için tedavi görmemiş hastaların sonuçlarını yüksek doğrulukla taklit eden sentetik kontrol kolları oluşturulabilir. Örneğin, osteoartrit ağrısı üzerine yapılan klinik deneylerde, geçmiş benzer çalışmaların verilerinden üretilen sentetik bir kontrol grubu kullanılarak yeni çalışmada plasebo verilen gerçek hasta sayısı minimize edilebilir. Bu yaklaşım hem zaman ve maliyet tasarrufu sağlar, hem de daha az hastayı plasebo almaya zorlayarak etik açıdan daha kabul edilebilir bir araştırma tasarımı sunar. FDA ve EMA gibi düzenleyici otoriteler de son dönemde iyi tasarlandığı takdirde sentetik kontrol kolu kullanımına sıcak bakmaya başlamıştır. Bunun ilk örnekleri onkoloji alanında görülmekte, tarihsel hasta verilerinden türetilen sentetik kolların, yeni onay süreçlerinde destekleyici kanıt olarak kullanılması tartışılmaktadır. Öte yandan dijital ikiz (digital twin) konsepti, sentetik verinin gelecekteki bir uzantısı olarak karşımıza çıkmaktadır. Dijital ikiz, gerçek bir bireyin sağlık verilerinin yüksek sadakatli bir sentetik modelidir; bu model üzerinde o bireyin gelecekteki sağlık seyri simüle edilebilir. Örneğin, kronik bir hastanın dijital ikizi yaratılarak, farklı tedavi senaryolarının bu sentetik hasta üzerinde denenmesi ve en optimal tedavi planının gerçek hastaya uygulanmadan önce öngörülmesi mümkün olabilir. Henüz gelişiminin erken aşamalarında olan bu teknoloji, önümüzdeki yıllarda kişiselleştirilmiş tıp uygulamalarında heyecan verici ufuklar açabilir.

Başarılı Uygulama Örnekleri

Bu bölümde Türkiye’den ve dünyadan sentetik hasta verisi kullanımına dair başarılı uygulama örnekleri, kullanılan yöntemler, elde edilen sonuçlar ve çıkarılan derslerle birlikte ele alınmaktadır. 

Dünya Genelinden Örnekler: Sentetik verinin sağlıkta pratik faydasını gösteren pek çok uluslararası örnek bulunmaktadır. Bunlardan biri, İsrail’deki Sheba Tıp Merkezi’nin uygulamasıdır. Orta Doğu’nun en büyük sağlık kuruluşlarından biri olan Sheba Hastanesi, hasta verilerinin araştırma ve inovasyon amaçlı kullanımında yaşanan gizlilik engellerini aşmak için 2018 yılında bir sentetik veri platformu benimsemiştir. MDClone adlı sentetik veri aracı ile gerçek hasta verilerini hızlıca yapay türevlerine dönüştüren Sheba, hekim ve araştırmacıların aynı gün içinde veri talebinde bulunup sonuç alabilecekleri bir ekosistem oluşturmuştur. Bu sayede Sheba’da araştırma üretkenliğinin belirgin şekilde arttığı, yayın ve çalışma sayılarının iki katına çıktığı bildirilmiştir. Sheba örneği, sentetik verinin büyük bir akademik hastanede iş akışlarına başarıyla entegre edilebileceğini ve veri erişimini hızlandırarak inovasyonu katalize edebileceğini göstermiştir. Bir diğer çarpıcı örnek, Washington Üniversitesi Tıp Fakültesi’nde gerçekleştirilmiştir. Araştırmacılar, iki ayrı omurga cerrahisi hasta kohortu için MDClone aracılığıyla sentetik veri setleri üretmiş ve bunları orijinal anonimize verilerle karşılaştırmıştır. Yapılan istatistiksel analizler (Ki-kare, t-testi, Mann-Whitney U vb.), sentetik veriler ile gerçek veriler arasında 30 günlük yeniden yatış oranları ve komplikasyon oranları açısından anlamlı bir fark olmadığını ortaya koymuştur; dağılımlar neredeyse birebir örtüşmektedir. Çalışmanın yazarları, sentetik veriye dayalı hesaplanan cerrahi sonuçların, gerçek veriyle hesaplanan sonuçlarla eşdeğer olduğunu vurgulayarak, sentetik verinin klinik araştırmalarda geçerliliğine güçlü bir kanıt sunmuşlardır. Bu çalışma, regülatörler ve klinisyenler açısından sentetik veriye olan güveni pekiştiren önemli bir örnek teşkil etmektedir. 

Birleşik Krallık’ta Ulusal Sağlık Servisi (NHS) bünyesinde yürütülen pilot projeler de sentetik verinin başarılı kullanımına işaret etmektedir. Özellikle SynAE Projesi olarak bilinen çalışmada, İngiltere’deki acil servis hasta kayıtlarından üretilen sentetik bir veri seti, araştırmacılarla paylaşılarak değerlendirildi. Sonuçta, sentetik verilerin gerçek veriye çok yakın öngörüler sağladığı ve hasta mahremiyetine ilişkin endişe olmadan veri paylaşımının mümkün olduğu gösterildi. Bu pilot çalışma sonrasında NHS, farklı veri kümeleri için benzer sentetik setlerin oluşturulmasını gündemine almıştır. Yine NHS Digital, sağlık verilerinin inovasyon amaçlı güvenli kullanımı için rehber niteliğinde bir “sentetik veri rehberi” yayınlamış ve sağlık teknolojisi geliştiricilerine bu yaklaşımların aktarıldığı bir bilgi paylaşım platformu kurmuştur. 

ABD’deki sigorta sektöründen de kayda değer bir örnek bulunmaktadır. Ülkenin büyük sağlık sigortacılarından biri, elindeki devasa hak talebi ve hasta kayıtları verisini doğrudan paylaşmak yerine, sentetik veriler üretip bunları bir inovasyon platformunda üçüncü parti iş ortaklarına açmıştır. Bu platform üzerinden start-up’lar ve yazılım geliştiriciler, gerçek hastaların gizli bilgilerine asla erişmeden ihtiyaç duydukları analitik veriye ulaşabilmişlerdir. Sonuç olarak, bu sentetik veri platformu aracılığıyla yeni yapay zekâ tabanlı sağlık çözümleri geliştirilmiş ve şirketin ekosisteminde çok sayıda ürün ortaya çıkmıştır. Bu örnek, sentetik verinin sadece araştırma ortamlarında değil, ticari sağlık hizmetlerinde de değer yaratabileceğini göstermektedir. 

Türkiye’den Örnekler: Türkiye’de sentetik hasta verisi konusu henüz emekleme aşamasında olsa da bazı girişimler ve araştırmalar dikkat çekmektedir. 2022 yılında yayımlanan bir akademik çalışma, Türkiye’deki sağlık verisi kullanımında yaşanan etik, bürokratik ve operasyonel zorluklara dikkat çekerek, “gerçek veriye en yakın şekilde yapay veri üretilmesinin” giderek bir gereklilik haline geldiğini vurgulamıştır. Ahmet Deveci ve M. Fevzi Esen tarafından yürütülen bu çalışmada, farklı sentetik veri üretme teknikleri (SMOTE ve türevleri) karşılaştırılmış ve sentetik verinin sağlık araştırmalarında veri dengesizliğini gidermede etkin bir araç olabileceği gösterilmiştir. Bunun yanı sıra, ülkemizde bazı özel sağlık kuruluşlarının global sentetik veri firmalarıyla (MDClone gibi) işbirliği olanaklarını değerlendirdiği, Ar-Ge birimlerinde pilot projeler planladığı duyulmaktadır. Özellikle büyük özel hastane zincirleri, klinik AI modellerini eğitmek için mevcut hasta verilerini kullanamamanın getirdiği kısıtları aşmak üzere sentetik veri opsiyonunu masaya yatırmış durumdadır. Ayrıca Sağlık Bakanlığı nezdinde, COVID-19 gibi geniş ölçekli halk sağlığı verilerinin anonimleştirilemeyecek kısımlarını sentetikleştirerek araştırmacılara açma fikri tartışılmıştır. Henüz kamuya yansımış büyük ölçekli bir sentetik veri uygulaması olmamakla birlikte, KVKK’nın rehberlerinde sentetik veri kullanımına yapılan vurgular ve uluslararası başarılı örnekler, Türkiye’de de bu alana yatırım yapılmasının önünü açmaktadır. 

Dersler ve Sonuçlar: Mevcut başarılı uygulamalardan çıkarılan ortak ders, sentetik veri projelerinin başarısı için hem teknolojik hem kültürel unsurların yönetilmesi gerektiğidir. Örneğin Sheba Hastanesi örneğinde, sadece bir yazılım satın alınması değil, kurum içinde veri erişim süreçlerinin yeniden tanımlanması ve araştırmacıların bu yeni yönteme alıştırılması söz konusu olmuştur. Washington Üniversitesi örneği ise sentetik verinin güven kazanması için somut doğrulama çalışmalarının şart olduğunu göstermektedir; bu sayede ilgili klinisyen ve yöneticiler sentetik veriye dayalı analizlere güven duyabilmiştir. Bir diğer ders, sentetik veri platformlarının getirdiği hız ve esnekliğin kurumlarda veri yönetimi kültürünü olumlu yönde değiştirebileceğidir. Gerçek veriyle aylar süren onay süreçleri gerektiren bir analiz, sentetik veri ile günler içinde yapılabildiğinde, yöneticilerin karar alma süreçleri de dönüşüme uğramaktadır. Nihayetinde, bu örnekler sentetik verinin “yapay” olmasına rağmen gerçek dünyada elle tutulur değer yaratabildiğini ve sağlık kurumlarına yeni bir hareket alanı kazandırdığını kanıtlamıştır.

Karşılaşılan Zorluklar & Çözüm Stratejileri

Bu bölümde sentetik hasta verisinin uygulanmasında ortaya çıkan başlıca zorluklar ve bunlara yönelik çözüm stratejileri tartışılmaktadır. Teknolojikdüzenleyici ve  organizasyonel engeller ile bunların aşılması için yaklaşımlar değerlendirilmektedir.

  • Teknolojik Zorluklar: Sentetik veri üretimi ileri düzeyde veri bilimi ve hesaplama gücü gerektiren bir süreçtir. Özellikle derin öğrenme tabanlı sentetik veri modelleri (GAN, varyasyonel oto-enkoder, difüzyon modelleri vb.), büyük veri kümelerinde eğitilirken yüksek işlem gücü talep eder. Bu altyapı ihtiyacı, kurumlar için bir engel teşkil edebilir. Ayrıca üretilen sentetik verinin kalitesi ve temsil kabiliyeti her zaman garanti olmayabilir. Kara-kutu niteliğindeki üretici modeller, hangi desenleri öğrendiğini tam açıklamadığı için, ortaya çıkan sentetik veride önemli bazı alt grupların dağılımlarının bozulması riski vardır. Örneğin bir GAN modeli genel popülasyonu iyi taklit ederken nadir bir komplikasyonu atlayabilir. Bu durumda sentetik veri önemli bir bilgiyi barındırmıyor olacaktır. Teknik bir diğer zorluk, aşırı uyum (overfitting) riskidir: Model, orijinal veriyi fazla öğrenirse sentetik veriler neredeyse aynısını kopyalayabilir. Bu da gizlilik ihlali demektir. Çözüm stratejisi olarak, düzenliizasyon teknikleri ve diferansiyel mahremiyet entegrasyonu ile modelin birebir kopyalama yapması engellenebilir. Veri önyargıları da kritik bir sorundur: Eğer orijinal veri önyargılıysa (örneğin sadece belirli bir etnik kökene ağırlık veriyorsa), sentetik veri bu önyargıyı farkında olmadan pekiştirebilir. Hatta GAN gibi modeller eğitim verisindeki baskın desenleri yeniden üretmeye meyilli olduğundan, var olan eşitsizlikleri büyütebilir. Bu sorunu çözmek için veri sentezleme sürecinde adalet kısıtları uygulamak veya sonrasında sentetik veriyi adillik metrikleriyle değerlendirmek gerekir. Teknolojik zorluklara karşı çözüm stratejilerinin başında XAI (Açıklanabilir Yapay Zekâ) tekniklerinin kullanımı gelir. Sentetik veri üreten modellerin karar mantığını kısmen de olsa açıklayabilmek, sentetik verideki olası hataları veya yanlılıkları fark etmeyi kolaylaştırır. Örneğin, üretilen veride belirli bir değişkenin dağılımı orijinale göre tutarsız ise, XAI yöntemleriyle modelin o değişkene gereğinden fazla önem verip vermediği anlaşılabilir. Bir diğer strateji, gelişmiş denetleme ve değerlendirme yöntemleri geliştirmektir. Standart istatistiksel karşılaştırmaların ötesinde, sentetik verinin temsil gücünü ölçmek için ileri teknikler önerilmektedir: Dağılım benzerliğini ölçen olasılık uzaklık metrikleri, çok boyutlu ilişkileri karşılaştıran ortak entropi veya maksimum olasılık tahmin testleri, ya da sentetik ve gerçek veri ayırt edilemezliğini ölçen özel ayrımcı modeller kullanılabilir. Örneğin bir öneri, sağlık özelinde geniş kapsamlı benchmark (kıyaslama) veri setleri ve değerlendirme yarışmaları düzenleyerek farklı sentetik veri üretim tekniklerini çok boyutlu kriterlerle yarıştırmaktır. Böylece alandaki en iyi uygulamalar belirlenecek ve yeni yöntemlerin gelişimi hızlanacaktır. Son olarak, kurumların bu teknolojik zorlukları tek başına aşması zor olabileceğinden, dış uzmanlarla işbirliği yapması değerlidir. Üniversitelerle ortak projeler, sentetik veri girişimleriyle pilot çalışmalar veya açık kaynak topluluklarına katkı gibi adımlar, teknolojik engelleri aşmada yardımcı olacaktır.
  • Düzenleyici Zorluklar: Sentetik veri kullanımındaki belirsiz düzenleyici konum, başlı başına bir engel teşkil etmektedir. Birçok ülkede mevcut veri koruma yasaları sentetik veriden doğrudan bahsetmez; bu da kurumların “acaba bu veri gerçekten serbestçe paylaşılabilir mi” tereddüdü yaşamasına yol açar. Örneğin, bir ilaç firmasının Ar-Ge departmanı sentetik hasta verisi kullanarak bir model eğittiğinde, bunu ilaç otoritesine sunarken yasal geçerliliği konusunda soru işaretleri oluşabilir. Benzer şekilde, hastanelerdeki etik kurullar, sentetik veri kullanan araştırma protokollerini değerlendirirken standardize bir kıstas bulamayabilirler. Bu belirsizlik ortamı, yenilikçi projelerin onay süreçlerini uzatabilir veya engelleyebilir. Ayrıca, eğer sentetik veri üretimi gerçek hasta verilerinden yapılıyorsa, bu işlem sırasında verinin yasal durumu ne olacaktır? Bu soruların net bir cevabı olmayışı, yöneticiler için risk algısını yükseltmektedir. Çözüm olarak, düzenleyici kurumların proaktif rol alması gerekmektedir. Avrupa Birliği düzeyinde GDPR uygulama rehberlerine sentetik verinin dahil edilmesi, ülkemizde KVKK’nın sentetik veriyle ilgili bir kamuoyu duyurusu veya kılavuz yayınlaması gibi adımlar bu belirsizliği giderecektir. Nitekim 2022’de Lancet’te yayınlanan bir yorum yazısı, sentetik verilerin mevcut düzenlemelerdeki boşlukları kapatmak için acil bir şekilde ele alınması gerektiğini ve sağlık verisi paylaşımı için yeni bir çerçevenin tanımlanmasını önermiştir. Aynı şekilde, bazı uzmanlar sentetik verilerin “anonim veri” olarak kabul edilip edilmeyeceğinin resmi olarak açıklığa kavuşturulmasını talep etmektedir. Düzenleyici zorluklar arasında bir diğeri de, kalite ve güven standartlarının eksikliğidir. Örneğin bir kurum “sentetik veri sertifikasyonu” yaptığını iddia edebilir ancak bunun genel kabul görmüş bir standardı olmadığından kafa karışıklığı yaşanabilir. Bu sorunu çözmek için uluslararası standartlaştırma kuruluşları (ISO gibi) veya sağlık bilişimi dernekleri, sentetik veri kalite standartları üzerinde çalışmalar yapmalıdır. Belirlenecek metrik eşik değerleri, asgari gereksinimler veya sınıflandırma sistemleri, kurumların sentetik veriyi güvenle kullanmasına zemin hazırlar. Ayrıca düzenleyici kurumlar, sentetik veri kullanımını teşvik edici pilot uygulamalar da başlatabilir. Örneğin Sağlık Bakanlığı, belirli bir alanda (diyelim ki diyabet araştırmaları) sentetik veri kullanımını test eden ve sonuçlarını değerlendiren bir pilot program organize edebilir. Bu, pratikte karşılaşılan düzenleyici sorunları ve çözüm önerilerini belirlemek için faydalı olacaktır. Özetle, net düzenlemeler ve rehberlik olmayışı, sentetik veri adaptasyonunu yavaşlatan bir unsurdur; çözüm ise mevzuat güncellemeleri, resmi kılavuzlar ve standart geliştirme yoluyla hukuki netlik ve güven sağlamaktır.
  • Organizasyonel Zorluklar: Teknoloji ne kadar iyi olursa olsun, bir kurum içinde benimsenmesi ve günlük işleyişe entegre edilmesi insan faktörüne bağlıdır. Sentetik veri konusunda kurumların karşılaşabileceği ilk zorluk, kültürel direnç olabilir. Yıllardır geleneksel veri kullanımı ve katı gizlilik prosedürleriyle çalışan ekipler, “yapay” veriye başlangıçta şüpheyle bakabilir. Klinik yöneticiler veya hekimler, sentetik veriye dayalı analiz sonuçlarına güven duymakta zorlanabilir, “Bu veri gerçek değil ki, sonuçlar ne kadar geçerli olabilir?” şeklinde çekinceler dile getirebilirler. Bu güvensizlik aşılmadığı takdirde, teknik olarak mükemmel sentetik veri çözümleri bile pratikte kullanılmadan rafa kaldırılabilir. Organizasyonel bir diğer zorluk, yetenek eksikliğidir. Sentetik veri üretimi ve kullanımı, veri bilimi, istatistik ve alan bilgisi gerektiren disiplinler arası bir uğraştır. Özel sağlık kurumlarında bu yetkinlikleri barındıran ekipler henüz nadirdir. Mevcut bilgi işlem departmanları genellikle operasyonel IT işleriyle meşgul olup, böylesine ileri analitik projeler için zaman ve beceri ayıramayabilir. Çözüm olarak, kurum içi kapasite geliştirme ve eğitim büyük önem taşır. Üst düzey yöneticiler, sentetik veri alanında uzman veri bilimcileri istihdam etmeyi veya mevcut ekibi bu konuda eğitmeyi gündemlerine almalıdır. Bunun yanı sıra, pilot projelerle başlamak direnç ve belirsizlikleri azaltmak adına iyi bir stratejidir. Örneğin, kurum içinden küçük ölçekli, riski düşük bir kullanım senaryosu seçilerek (mesela sadece bir klinik bölümün verisiyle sınırlı bir model eğitimi) bir sentetik veri pilotu gerçekleştirilebilir. Bu pilotun çıktıları ölçülüp ilgili paydaşlarla paylaşıldıkça, sentetik veriye güven artar ve daha geniş projelere zemin hazırlanır. Bir diğer organizasyonel engel, süreç ve sorumlulukların yeniden tanımlanması ihtiyacıdır. Gerçek verinin kullanımında sıkı onay siloları ve hiyerarşiler mevcutken, sentetik veriyle daha esnek bir erişim ortamı doğar. Kurumlar, “Kim sentetik veri üretebilir? Kim hangi sentetik seti kullanabilir? Hangi senaryoda tekrar izin gerekir?” gibi konularda net politikalar geliştirmelidir. Aksi takdirde kaos veya riskli davranışlar (örn. özensiz veri paylaşımı) yaşanabilir. Bu yüzden, bir veri yönetişim politikası oluşturulmalı ve sentetik veriler de bu politikanın kapsamına alınmalıdır. Örneğin, her sentetik veri talebi için kısa bir risk değerlendirmesi ve kayıt tutulması kuralı konulabilir, böylece sorumluluk ve izlenebilirlik temin edilir. Organizasyonel zorlukların üstesinden gelmede liderlik desteği de kritik önemdedir. Üst yönetimin sentetik veri stratejisini benimsemesi ve bunu kurumsal hedeflerle ilişkilendirmesi, alt kadroların adapte olmasını hızlandırır. Tersine, yönetim düzeyinde sahiplenilmeyen bir girişim, orta kademe tarafından önceliklendirilmez ve başarısızlığa uğrar. Özetle, kurum içinde sentetik veri dönüşümü bir değişim yönetimi meselesi olarak ele alınmalı; insan, süreç ve teknoloji boyutlarında uyumlu bir dönüşüm planı uygulanmalıdır. Başarı hikâyeleri göstermiştir ki, bu dönüşümü yöneten kurumlar rekabet avantajı elde etmekte ve veri odaklı inovasyonda öne çıkmaktadır.

Gelecek Trendleri

Bu bölümde sentetik hasta verisi alanındaki gelecek trendler ve öngörüler ele alınmaktadır. Yakın gelecekte, düzenleyici güncellemeleryeni teknolojik yaklaşımlar (ör. federated learning) ve sentetikten gerçeğe transfer gibi konuların öne çıkması beklenmektedir.

  • Düzenleyici Gelişmeler: Önümüzdeki dönemde global ve yerel düzenleyici otoritelerin sentetik veriye dair daha net pozisyonlar alacağı öngörülmektedir. AB’nin hazırlık aşamasındaki Avrupa Sağlık Veri Alanı (EHDS) girişimi, üye ülkeler arasında sağlık verisi paylaşımını kolaylaştırmayı hedeflerken, sentetik veriyi de potansiyel bir çözüm olarak tartışma gündemine almıştır. Benzer şekilde, yapay zekâ uygulamalarını düzenlemeyi amaçlayan AB Yapay Zekâ Tüzüğü taslağında, yüksek riskli yapay zekâ sistemlerinin eğitiminde kişisel verilerin korunması vurgulanmakta ve sentetik veri gibi tekniklere atıf yapılmaktadır. Türkiye’de KVKK ve Sağlık Bakanlığı cephesinde de, özellikle Ar-Ge odaklı veri paylaşımında sentetik verinin rolü konusunda rehberlik ihtiyacı dillendirilmektedir. Muhtemeldir ki önümüzdeki birkaç yıl içinde KVKK, sıkça sorulan sorular veya sektör rehberleri kapsamında sentetik veriye özel bir bölüm ekleyecek ya da en azından sentetik verinin anonim olup olmadığı meselesini açıklığa kavuşturacaktır. Aynı şekilde, Sağlık Bakanlığı Ar-Ge birimleri etik kurul değerlendirmelerine ışık tutacak şekilde sentetik veri kullanım ilkelerini yayınlayabilir. Regülasyon tarafında bir diğer trend, uluslararası standartlar olacaktır. ISO ve IEC gibi kuruluşların sağlık bilişimi komitelerinde şimdiden sentetik veri terimleri ve sınıflandırmaları tartışılmaktadır. Muhtemelen “sağlık verisi sentezi için rehber ilkeler” şeklinde bir ISO standardı orta vadede kurumların kullanımına sunulacaktır. Bu gelişmeler, sınır ötesi veri işbirliklerinde sentetik verinin daha yaygın ve kabul görür olmasını sağlayacaktır.
  • Federated Learning ile Birlikte Kullanım: Federated Learning (Birleşik Öğrenme veya paylaşımlı öğrenme), verinin farklı kurumlarda yerinde kalmasını sağlayarak ortak model eğitimi yapmaya olanak tanıyan bir makine öğrenimi yaklaşımıdır. Son yıllarda sağlık alanında, birden fazla hastanenin merkezi veritabanı oluşturmadan birlikte yapay zekâ modeli geliştirebilmesi için federated learning yöntemleri sıkça gündeme gelmiştir. Gelecekte, federated learning ile sentetik veri yaklaşımının birbirini tamamlayıcı şekilde kullanılması beklenmektedir. Örneğin, farklı hastanelerde eğitilen yerel modeller federated learning ile bir araya getirilirken, her bir hastane ayrıca kendi verisinden bir miktar sentetik veri üretip global modele ince ayar çekmek için paylaşabilir. Bu sayede, hiç veri paylaşmadan modellere yön veren federated learning ile, minimum kontrollü yapay veri paylaşımını birleştiren hibrid yaklaşımlar doğacaktır. Böylece hem gizlilik en üst düzeyde korunacak, hem de modelin genellemesi için gerekli çeşitlilik sağlanacaktır. Bir diğer senaryoda ise, federated learning sürecinin çıktısı olan global model kullanılarak ortak bir sentetik veri seti üretilebilir. Örneğin, 10 hastanenin katıldığı bir federated öğrenme ile eğitilen model, sonrasında sanal hastalar üretmek için kullanılarak her kurumdaki desenleri yansıtan birleşik bir sentetik veri seti ortaya koyabilir. Bu veri seti, katılımcı tüm kurumların yetkilendirilmiş erişimine açılarak, ileride yapılacak araştırmalarda referans bir veri havuzu görevi görebilir. Sonuç olarak, federated learning ve sentetik veri birbirine rakip değil, bilakis birlikte kullanıldığında sinerji yaratacak araçlardır. Gelecekte büyük sağlık ağları ve konsorsiyumlar, hem federated learning altyapılarını hem de sentetik veri jeneratörlerini entegre ederek kapsamlı veri ekosistemleri oluşturacaktır.
  • Synthetic-to-Real Transfer (Sentetikten Gerçeğe Transfer): Yapay veriden elde edilen bilgilerle gerçek dünyaya etki etme konsepti, önümüzdeki dönemde daha somut hale gelecektir. “Synthetic-to-real transfer” ifadesiyle kastedilen, sentetik veriler üzerinde eğitilen modellerin veya çıkarılan içgörülerin, gerçek veri ve ortamlara başarılı şekilde uygulanabilmesidir. Bir bakıma, simülasyon dünyasında öğrenilenlerin gerçek dünyaya taşınmasıdır. Örneğin, cerrahi operasyonlar için yapay olarak üretilmiş hasta verileri ve senaryolar üzerinde bir makine öğrenimi modeli eğitildiğini düşünelim. Gelecekte bu model gerçek hasta verisiyle karşılaştığında halen yüksek performans gösterebiliyorsa, başarılı bir sentetikten gerçeğe transfer gerçekleşmiş demektir. Bu alanda erken çalışmalar umut vaat etmektedir: Örneğin bazı medikal görüntü analizinde, sentetik X-ray ve MR görüntüleriyle eğitilen derin öğrenme algoritmalarının gerçek görüntülerde de benzer doğruluğa ulaştığı rapor edilmiştir. Bunun yanı sıra, dijital ikizler üzerinden test edilen tedavi protokollerinin gerçek hastalarda öngörüldüğü gibi sonuç verdiği durumlar, sentetikten gerçeğe transferin uç bir örneğini oluşturacaktır. Gelecekteki trend, karmaşık biyolojik sistemlerin modellemesinde simülasyon + sentetik veri kombinasyonunun kullanılması yönünde olacaktır. Örneğin yeni bir ilacın klinik deneme tasarımını optimize etmek için önce kapsamlı bir sentetik hasta popülasyonu üzerinde sanal denemeler yapılabilir; buradan elde edilen optimum tasarım parametreleri gerçek denemeye uygulanarak başarı şansı artırılabilir. Bu yaklaşım, “in silico clinical trials” (bilgisayar ortamında klinik deneme) kavramının gelişmiş bir versiyonu olarak karşımıza çıkacaktır. Transfer öğrenimi teknikleri de sentetikten gerçeğe geçişi kolaylaştıran önemli araçlardır. Özellikle görüntü tanıma veya sinyal analizi gibi alanlarda, model önce bol miktarda sentetik veride ön eğitim (pre-training) yapıp genel desenleri öğrenebilir, ardından az miktardaki gerçek veriyle son katmanlarını ince ayar yaparak (fine-tune) yüksek başarı sağlayabilir. Bu, verinin kısıtlı olduğu pek çok klinik durumda (örneğin yeni ortaya çıkan bir hastalıkta az sayıda vaka olması halinde) işe yarayabilecek bir yöntemdir.
  • Yeni Nesil Generative AI Yöntemleri: Sentetik veri üretiminin kalitesini ve çeşitliliğini artıracak yeni tekniklerin de yükselişe geçmesi beklenir. Özellikle son dönemde çok popüler olan Difüzyon Modelleri ve Büyük Dil Modelleri (LLM) sağlık verisi sentezinde kullanılmaya başlanmıştır. Difüzyon modelleri, özellikle görsel ve sinyal verilerinde yüksek gerçekçilikte sentetik örnekler üretebilir. Örneğin gerçek bir hastanın kalp ritmi sinyalinden yeni sentetik EKG dalgaları üretmek için difüzyon temelli yaklaşımlar geliştirilmiştir ve sonuçlar oldukça başarılıdır. Büyük dil modelleri ise, metin tabanlı sağlık verilerinin (örneğin doktor notları, epikriz raporları) sentetikleştirilmesi için çığır açmaktadır. Nitekim LLM tabanlı bir model olan GPT-4’ün, anonimleştirilmiş klinik notlardan benzer tarzda yapay hasta öyküleri üretebildiği gösterilmiştir. Bu gibi yöntemler, elektronik sağlık kayıtlarındaki serbest metin alanlarını veya hasta geri bildirimlerini paylaşılabilir kılmak için devrimsel fırsatlar sunmaktadır. Gelecekte, uzmanlık alanlarına özel ince ayarlı LLM’ler sayesinde her tıbbi branş için sentetik metin veri tabanları oluşturulabilir (örn. pediatri hasta öyküleri sentetik veri bankası, psikiyatri görüşme notları sentetik veri bankası gibi). Ayrıca çok modlu (multi-modal) sentetik veri üretimi de bir trend olacaktır: Aynı sentetik hastanın hem yapılandırılmış verisi, hem görüntüleri hem de metin notları birlikte tutarlı şekilde üretilebilecektir. Böylelikle bir sanal hastanın tüm boyutlarıyla dijital temsilini oluşturmak mümkün hale gelecektir. Bu gelişmeler, sağlıkta yapay zekâ modellemelerini daha bütüncül ve güçlü kılacaktır. Elbette teknolojinin bu kadar ilerlemesi yeni etik soruları da beraberinde getirebilir; örneğin, gerçeğinden ayırt edilemeyen sanal hasta videoları veya ses kayıtları üretmek mümkün olacaksa, bunların kötüye kullanılmasını önlemek için önlemler geliştirilmesi gerekebilir. Ancak genel iyimser beklenti, yeni üretici yapay zekâ yöntemlerinin kontrollü bir şekilde sağlık inovasyonuna hizmet edeceği yönündedir.

Sonuç & Eylem Adımları

Bu bölümde üst düzey yöneticiler için sentetik hasta verisinden stratejik olarak yararlanma konusunda somut eylem adımları sunulmaktadır. Sağlık sektöründeki yöneticiler, aşağıdaki adımları uygulayarak kendi kurumlarında sentetik veri kullanımını güvenli ve etkili bir şekilde hayata geçirebilir:

  1. Kurumsal Veri Stratejinize Sentetik Veriyi Dahil Edin: Sentetik veriyi, kurumunuzun genel veri yönetimi ve dijital dönüşüm stratejisinin bir parçası haline getirin. Üst yönetim olarak vizyonunuzda sentetik verinin yerini netleştirin ve bunu kurumsal hedeflerle ilişkilendirin. Örneğin, önümüzdeki 2 yıl içinde belirli sayıda sentetik veri pilotu yapmayı veya AR-GE çalışmalarının %X’inde sentetik veri kullanmayı stratejik plana dahil edebilirsiniz.
  2. Pilot Projeler Başlatın ve Erken Başarılar Elde Edin: Küçük ölçekli, ölçülebilir pilot projelerle başlayarak sentetik veri yaklaşımını test edin. Örneğin, kısıtlı bir klinik bölümün verisini kullanarak sentetik veri üretin ve bir makine öğrenimi modelini bu veriyle eğitip gerçek veriyle doğrulayın. Pilot sonuçlarını üst yönetim ve ilgili ekiplerle şeffaf bir şekilde paylaşın. Erken başarı hikâyeleri, kurum içinde güven ve heyecan yaratacak, daha büyük projeler için zemin hazırlayacaktır.
  3. Teknoloji ve İş Ortaklarıyla İşbirliği Yapın: Sentetik veri üretimi konusunda uzmanlaşmış teknoloji sağlayıcıları veya üniversitelerle ortaklıklar kurun. Dış uzmanlık, hem öğrenme eğrinizi kısaltır hem de en iyi uygulamalara erişiminizi sağlar. Örneğin, bir üniversite araştırma laboratuvarıyla birlikte bir TÜBİTAK projesine başvurarak nadir hastalık verilerinin sentetikleştirilmesi üzerine çalışabilirsiniz. Ya da güvenilir bir sentetik veri platformu sağlayıcısıyla anlaşarak kendi verileriniz üzerinde pilot çalışma yürütebilirsiniz. İşbirlikleri, kurumunuza bilgi transferini hızlandıracaktır.
  4. Yetkin Ekipler Oluşturun ve Personeli Eğitin: Sentetik veri alanında uzman veya meraklı mevcut çalışanlarınızı belirleyin ve onları destekleyin. Veri bilimcilere, yazılım geliştiricilere ve klinik bilişim uzmanlarına sentetik veri eğitimi aldırın. Gerekirse yeni yetenekleri istihdam edin. Ayrıca, genel farkındalığı artırmak için tüm ilgili birimlere (etik kurul üyeleri, hukuk müşavirleri, klinik yöneticileri vb.) sentetik verinin ne olduğu, faydaları ve sınırları konusunda seminerler düzenleyin. Kurum içi düzenli paylaşımlarla, sentetik veri konusunun anlaşılmasını ve içselleştirilmesini sağlayın.
  5. Veri Yönetişim Politikalarını Güncelleyin: Mevcut veri gizliliği ve paylaşımı politikalarınıza sentetik veri kullanımına dair hükümler ekleyin. Örneğin, sentetik veri üretimi için onay mekanizmalarını, sorumluları ve denetim süreçlerini tanımlayın. Sentetik verinin kurum dışına çıkarılması, paylaşılması veya kamuya sunulması durumlarında izlenecek adımları önceden belirleyin. Bu politikalar, hem çalışanların kafasındaki soru işaretlerini giderecek hem de dış paydaşlara karşı sorumlu bir duruş sergilemenizi sağlayacaktır.
  6. Kalite ve Güvenlik Standartları Uygulayın: Sentetik veri setlerinin kalite ve gizlilik açısından uygunluğunu garanti altına almak için standart bir değerlendirme prosedürü oluşturun. Her yeni üretilen sentetik veri seti için belirli metrikleri (istatistiksel benzerlik, üyelik çıkarım testi vb.) uygulamayı ve sonuçları dokümante etmeyi kural haline getirin. Belirlediğiniz eşik değerlerin altındaki veri setlerini kullanıma sunmayın. Bu yaklaşım, olası riskleri erkenden tespit etmenizi ve paydaşlara karşı hesap verebilirliği temin eder.
  7. Nadir Vakalar ve AR-GE için Sentetik Veri Programları Geliştirin: Kurumunuzda gerçek veri kısıtı olan veya gizlilik nedeniyle paylaşılamayan yüksek değerli veri alanlarını tespit edin (ör. nadir hastalıklar, pediatrik veriler, genetik veriler). Bu alanlar için özel sentetik veri projeleri başlatın. Örneğin, nadir bir hastalığın kayıtlarını sentetikleştirip üniversitelerle paylaşarak hastalığın daha iyi anlaşılmasını sağlayacak bir AR-GE programını finanse edebilirsiniz. Bu tür odaklı projeler, sentetik verinin doğrudan hasta bakımı ve bilimsel bilgi birikimine katkısını somutlaştıracaktır.
  8. Hastaları ve Etik Kurulları Sürece Dahil Edin: Her ne kadar sentetik veri kişisel veri içermese de, şeffaflık ilkesi gereği bu alandaki girişimlerinizi hasta temsilcileri ve etik kurullarla paylaşın. Hastalara, verilerinden elde edilen bilgilerin sentetikleştirilerek de olsa araştırmalarda kullanılabileceğini anlatan bilgilendirmeler yapın. Etik kurullardan projelerinize görüş alırken sentetik veri kullanım planınızı net bir şekilde izah edin ve onların önerilerini dikkate alın. Bu katılımcı yaklaşım, kurumsal itibarı güçlendirecek ve sentetik veriye yönelik toplumsal güveni artıracaktır.
  9. Gelişmeleri ve Trendleri Takip Edin: Sentetik veri alanı hızla gelişmektedir; yeni çıkan akademik yayınları, düzenleyici duyuruları ve sektör raporlarını yakından takip edin. Özellikle yapay zekâ, mahremiyet teknolojileri ve sağlık bilişimi kesişimindeki yeniliklerden haberdar olun. Gerekirse ekibinizden birine bu konuda izleyici rolü vererek, belirli periyotlarda yönetimi yeni fırsatlar ve riskler konusunda bilgilendirmesini sağlayın. Örneğin, federated learning veya yeni bir farklılaştırılmış gizlilik tekniği gibi sentetik verinizi tamamlayıcı teknolojilerde atılım olduğunda bunu stratejinize adapte edin. Sürekli öğrenen ve uyum sağlayan bir yaklaşım, sizi sektörde öncü konumda tutacaktır.
  10. Hasta Mahremiyetini ve İyiliğini Merkeze Koyun: Son olarak, tüm bu çabaların nihai hedefinin hasta mahremiyetini korurken sağlık hizmetlerini iyileştirmek olduğunu unutmayın. Kurum kültürünüzde veri etiğini ve hasta odaklılığı vurgulayın. Sentetik veri kullanımına geçerken, çalışanlarınıza bunun bir mahremiyet güçlendirme aracı olduğunu, asla mahremiyet engellerini “delmek” için bir hile olmayıp tam tersine hasta haklarını koruyarak inovasyon yapmanın yolu olduğunu anlatın. Bu bilinç, toplumsal güvenin korunmasını ve projelerinizin sürdürülebilirliğini sağlayacaktır.

Sonuç olarak, sentetik hasta verisi teknolojisi sağlık sektöründe veri gizliliği ile inovasyon arasındaki dengeyi kurmada çığır açan bir çözüm olarak hızla olgunlaşmaktadır. Üst düzey yöneticiler için önemli olan, bu dönüşümü proaktif şekilde kucaklamak, riskleri yönetirken fırsatları değerlendirmektir. Uygun strateji ve yatırımlarla, sentetik verinin sunduğu güvenli paylaşım ve sınırsız analiz imkanları sayesinde, hem kurumunuz rekabet avantajı elde edecek hem de toplum genelinde sağlık araştırmaları ve hasta bakımı yeni bir seviyeye taşınacaktır.

Soru / Cevap

1. Sentetik hasta verisi nedir?Sentetik hasta verisi, gerçek hasta kayıtlarının istatistiksel özelliklerini taklit eden fakat hiçbir gerçek kişiye ait olmayan, yapay olarak üretilmiş veri kümeleridir; gizliliği koruyarak araştırma ve yapay zekâ model eğitiminde kullanılır.
2. Sentetik veriler KVKK veya GDPR kapsamında kişisel veri sayılır mı?Kaynak verisi kişisel olduğunda regülatörler “önce kişisel kabul et sonra risk analizi yap” yaklaşımını benimser: Yeniden kimliklendirme riski makul ölçüde giderildiği ispatlanırsa anonim kabul edilebilir; aksi hâlde hâlâ kişisel veridir ve KVKK/GDPR yükümlülükleri sürer.
3. Klinik araştırmalarda sentetik veri neden popülerleşiyor?Sentetik veri, mahremiyet nedeniyle erişilemeyen gerçek kayıtların yerini alarak veri paylaşımını hızlandırır, etik onay süresini kısaltır, maliyeti düşürür ve dijital ikiz gibi yenilikçi yöntemlere kapı açar.
4. Sentetik veri gizliliği gerçekten korur mu?Çoğu durumda evet; ancak kişisel veriden türetilen sentetik setler hâlen yeniden kimliklendirme saldırılarına karşı test edilmeli ve gerekirse diferansiyel mahremiyet gibi ek önlemlerle korunmalıdır.
5. Sentetik verilerle eğitilen yapay zekâ modelleri gerçeğe yakın performans sunar mı?Literatür, sentetik veride eğitilen modellerin gerçek veride test edildiğinde benzer doğruluk yakalayabildiğini; ayrıca nadir senaryoları çoğaltarak modele genelleme avantajı sağladığını gösteriyor.
6. Sentetik hasta verisi nasıl üretilir?Başlıca teknikler; istatistiksel simülasyon, kural tabanlı yöntemler, üretken çekişmeli ağlar (GAN), varyasyonel oto‑enkoderler (VAE) ve ajan temelli modellemedir.
7. Sentetik veri ile federated learning aynı şey mi?Hayır. Federated learning veriyi kurum dışına çıkarmadan ortak model eğitir; sentetik veri ise yapay kayıtlar üreterek güvenli paylaşım sağlar. İkisi birlikte kullanılarak federated araştırmayı zenginleştiren sentetik veri paylaşımları yapılabilir. ga4gh.org
8. Nadir hastalık araştırmalarında sentetik veri ne kazandırır?Sınırlı vaka sayısını gizlilik kaygısı olmadan zenginleştirir, AI modellerinin nadir fenotipleri öğrenmesini sağlar ve uluslararası veri paylaşımını hızlandırır.
9. Türkiye’de sentetik veri kullanmak için hangi yasal adımları izlemeliyim?6698 sayılı KVKK’ya göre kaynağı kişisel veri olan sentetikleşme süreci “veri işleme” kapsamındadır; bu nedenle açık rıza veya kanuni istisna, veri işleme envanteri ve etkili teknik‑organizasyonel tedbirler (ör. risk analizi) şarttır.
10. Sentetik kontrol kolu, plasebo kolunun yerini alabilir mi?FDA ve EMA destekli çalışmalar, geçmiş hasta verilerinden türetilen sentetik kolların plasebo/standart‑tedavi kolu ihtiyacını azaltarak deneme süresini ve maliyeti düşürdüğünü gösteriyor; başarı, veri kalitesi ve istatistiksel uyuma bağlıdır.

Kaynakça

  • Arora, A., & Arora, A. (2022). Synthetic patient data in health care: A widening legal loophole. The Lancet, 399(10335), 1601–1602.  https://doi.org/10.1016/S0140-6736(22)00232-X The Lancet
  • Deveci, A., & Esen, M. F. (2022). Medikal sentetik veri üretimiyle veri dengelemesi. İstatistik ve Uygulamalı Bilimler Dergisi, 5(2), 17–27.  https://doi.org/10.52693/jsas.1105599 DergiPark
  • European Parliament & Council of the EU. (2016). Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation). Official Journal of the European Union, L119, 1–88.
  • Giuffrè, M., & Shung, D. L. (2023). Harnessing the power of synthetic data in healthcare: Innovation, application, and privacy. NPJ Digital Medicine, 6, Article 186.  https://doi.org/10.1038/s41746-023-00927-3 Nature
  • Kaabachi, B., Despraz, J., Meurers, T., Otte, K., Halilovic, M., Kulynych, B., Prasser, F., & Raisaro, J. L. (2025). A scoping review of privacy and utility metrics in medical synthetic data. NPJ Digital Medicine, 8, Article 60.  https://doi.org/10.1038/s41746-024-01359-3 Nature
  • Kokosi, T., & Harron, K. (2022). Synthetic data in medical research. BMJ Medicine, 1(1), e000167.  https://doi.org/10.1136/bmjmed-2022-000167 bmjmedicine.bmj.com
  • Kişisel Verileri Koruma Kurumu [KVKK]. (2016). 6698 Sayılı Kişisel Verilerin Korunması Kanunu. Resmî Gazete, 29677, 1‑17.
  • Kişisel Verileri Koruma Kurumu [KVKK]. (2021). Biyometrik Verilerin İşlenmesinde Dikkat Edilmesi Gereken Hususlar Rehberi. Ankara: KVKK Yayınları.
  • Susser, D., Schiff, D. S., Gerke, S., Cabrera, L. Y., Cohen, I. G., Doerr, M., Harrod, J., Kostick‑Quenet, K., McNealy, J., Meyer, M. N., Price, W. N. II, & Wagner, J. K. (2024). Synthetic health data: Real ethical promise and peril. Hastings Center Report, 54(5), 8–13.  https://doi.org/10.1002/hast.4911 pubmed.ncbi.nlm.nih.gov

Önerilen Makaleler

Mahmut Adnan Akyüz
Gizliliğe genel bakış

Bu web sitesi, size mümkün olan en iyi kullanıcı deneyimini sunabilmek için çerezleri kullanır. Çerez bilgileri tarayıcınızda saklanır ve web sitemize döndüğünüzde sizi tanımak ve ekibimizin web sitesinin hangi bölümlerini en ilginç ve yararlı bulduğunuzu anlamasına yardımcı olmak gibi işlevleri yerine getirir.