Online Deneylerin Şaşırtan Gücü

09 ağustos 2020

2012’de Bing üzerine çalışan bir Microsoft elemanının, arama motorunun reklam başlıklarını görüntüleme biçimini değiştirmeye dair bir fikri vardı. Geliştirmesi fazla çaba gerektirmiyordu (bir mühendisin birkaç gününü alırdı) ama sunulan yüzlerce fikirden bir tanesiydi ve program yöneticileri onu öncelik sıralamasında gerilere attı. Böylece bu fikir, altı aydan uzun süre boyunca süründü; ta ki kodu yazmanın maliyetinin düşük olacağını fark eden bir mühendis, uygulamanın etkisini ölçmek için basit bir online kontrollü deney (bir A/B testi) başlatana kadar. Yeni başlık türü, saatler içinde anormal derecede yüksek gelirler sağlıyor ve bir “gerçek olamayacak kadar iyi” uyarısını tetikliyordu. Genelde böylesi uyarılar bir bug’ın varlığına işaret eder, ama bu sefer öyle olmadı. Yapılan bir analiz gösterdi ki bu değişim, temel kullanıcı deneyimi ölçümlerini etkilemeksizin, gelirleri yüzde 12 gibi dudak uçuklatan bir oranda artırmıştı; ki yıllık hesaba vurulduğunda sadece ABD’de 100 milyon doların üzerinde bir meblağa denk geliyordu. Bu, Bing’in tarihinde en iyi getiri sağlayan fikirdi, ama test edilene kadar değeri yeterince takdir edilmedi.

Yazık! Bu örnek, yeni fikirlerin potansiyelini değerlendirmenin ne kadar güç olabileceğine dikkat çekiyor. Bir o kadar önemlisi de, pek çok testi düşük maliyetli ve eş zamanlı olarak yürütmenin faydasını gözler önüne seriyor. Bu, pek çok şirketin farkına varmaya başladığı bir durum.

Bugün Microsoft ve önde gelen pek çok başka şirketin her biri (bunların arasında Amazom, Booking.com, Facebook ve Google da bulunuyor), milyonlarca kullanıcının yer aldığı pek çok testle birlikte yılda 10 binden fazla online kontrollü deney yürütüyor. Startup’lar ve Walmart, Hertz ve Singapore Airlines gibi dijital kökene sahip olmayan şirketler de bu çalışmaları düzenli olarak yürütüyor, ama daha ufak ölçekli olarak. Bu kurumlar “her şeyle deneme yapma” yaklaşımının şaşırtıcı derecede büyük getirileri olduğunu fark etti. Örneğin Bing’in her ay yapılacak gelirle alakalı onlarca değişikliği belirlemesine yol açtı; bunlar, toplu halde geliri her yıl yüzde 10 ila yüzde 25 oranında artıran gelişmelerdi. Kullanıcı memnuniyetini artıran yüzlerce diğer değişikliğin yanı sıra, Bing’in kâr edebilir olmasının ve ABD’de kişisel bilgisayarlardan yapılan aramalardaki payının faaliyete başladığı 2009’daki yüzde 8 seviyesinden yüzde 23’e yükselmesinin temel nedeni bu iyileştirmeler.

Web’in neredeyse tüm işletmeler için hayati önem taşıdığı bir zamanda, özenli online deneyler standart faaliyet prosedürleri arasında yer almalı. Eğer bir şirket yazılım altyapısı ve bunu kullanmak için organizasyonel beceriler geliştiriyorsa, sadece web siteleri için fikirler değil, potansiyel iş modelleri, stratejiler, ürünler, hizmetler ve pazarlama kampanyaları belirleyebilir; hem de oldukça ucuza. Kontrollü deneyler, karar vermeyi içgüdüsel bir reaksiyondan ziyade bilimsel, kanıta dayalı bir sürece dönüştürebilir. Onlar olmadan çığır açan pek çok yenilik hiç ortaya çıkmazdı ve pek çok kötü fikir de sadece başarısızlıkla sonuçlanıp kaynakları boşa harcamak üzere hayata geçirilirdi.

Oysa öğrendik ki aralarında büyük dijital girişimlerin de bulunduğu çoğu kurum, deneysel yaklaşımlarında gelişigüzel hareket ediyor, özenli bilimsel testler uygulamayı bilmiyor ya da çok az deneme yapıyor.

Deneyler üzerinde çalışıp onları uygulayarak ve geniş bir yelpazedeki sektörlerden şirketlere bu konuda danışmanlık hizmeti sunarak beraberce 35 yıldan fazla zaman geçirdik. Bu sayfalarda bunların nasıl tasarlanıp uygulanacağına dair derlemiş olduğumuz dersleri paylaşacak, doğruluklarından emin olacak, sonuçlarını yorumlayacak ve oluşturabilecekleri güçlükleri ele alacağız. En basit kontrollü deney türü olan A/B testine odaklanacak olsak da, bulgularımız ve tavsiyelerimiz daha karmaşık deneysel tasarımlara da uygulanabilir.

"A/B TESTLERİNİN DEĞERİNİ TAKDİR EDİN"

Bir A/B testinde, deneyi yapan iki deneyim hazırlar: Kontrol grubu olan “A”, genelde mevcut sistemdir ve “şampiyon” olarak kabul edilir; tedavi grubu olan “B” ise bir şeyleri düzeltmeye çalışan bir düzenleme, yani “meydan okuyucu.” Kullanıcılar, gruplara rastgele ayrılır ve temel ölçümler hesaplanıp kıyaslanır. (Aksine, tek değişkenli A/B/C ve A/B/C/D testleri ile çok değişkenli testler ise bir tedaviden fazlasını ya da farklı değişkenlerdeki değişimleri aynı anda değerlendirir.) Bu düzenleme online ortamda yeni bir özellik, kullanıcı arayüzündeki bir değişiklik (yeni bir anahat görünümü gibi), bir back-end değişikliği (mesela Amazon’da kitap tavsiyesinde bulunan bir algoritmadaki bir gelişme) ya da farklı bir iş modeli (bir fırsat ya da ücretsiz teslimat gibi) olabilir. Şirketler operasyonların en çok hangi kısmını önemserse önemsesin (ister satış, tekrar kullanımı, tıklanma oranları isterse de kullanıcıların bir sitede geçirdiği zaman olsun), bunu nasıl optimize edeceklerini öğrenmek için online A/B testlerini kullanabilirler.

Günlük aktif kullanıcılarının sayısı en az birkaç bin olan herhangi bir şirket bu testleri uygulayabilir. Web sitelerinde ve uygulamalardaki kullanıcı etkileşimlerine dair devasa boyutlardaki verileri otomatik olarak toplamak ve eşzamanlı deneyler yürütmek için büyük müşteri örneklerine erişebilme becerisi, şirketlere pek çok fikri hızla, müthiş bir kesinlikle ve her kademeli deney başına önemsiz bir maliyet karşılığında değerlendirebilmeleri için benzersiz bir fırsat sunuyor. Bu da kurumların derhal tekrarlamasına, hızla başarısız olmasına ve toparlanmasına olanak sağlıyor.

Bu avantajların farkına varan bazı lider teknoloji şirketleri, pek çok ürün ekibi tarafından kullanılan bir deneyimleme altyapısının kurulmasına, yönetilmesine ve geliştirilmesine bazı grupların tamamını ayırıyor. Böylesi bir kabiliyet, önemli bir rekabet avantajı olabilir; tabii nasıl kullanacağınızı bildiğiniz takdirde. İşte yöneticilerin anlaması gereken noktalar:

Ufak değişikliklerin büyük etkileri olabilir. İnsanlar çoğunlukla yaptıkları yatırım ne kadar büyükse o kadar büyük bir etki göreceğini düşünür. Fakat başarının daha ziyade pek çok küçük değişikliği doğru anlamakla ilgili olduğu online dünyada işler nadiren öyle yürüyor. Her ne kadar iş dünyası büyük, yıkıcı fikirleri yüceltse de, gerçekte ilerlemenin büyük bölümü yüzlerce ya da binlerce küçük geliştirmenin hayata geçirilmesi ile sağlanıyor.

Sıradaki örneğe bir bakın; yine Microsoft’la ilgili. (Bu yazıdaki çoğu örnek, deneylerin başında Ron’un bulunduğu Microsoft’tan olsa da, aralarında pek çok şirketten alınan dersler de bulunuyor.) 2008’de, Birleşik Krallık’taki bir çalışan görünüşte önemsiz bir öneride bulundu: Ne zaman bir kullanıcı MSN’in ana sayfasındaki Hotmail bağlantısına tıklasa, aynı sekmede Hotmail’i açmak yerine otomatik olarak yeni bir sekmenin açılmasını sağla (daha eski tarayıcılarda ise yeni bir pencere aç). Birleşik Krallık’tan yaklaşık 900 bin kullanıcı ile bir deneme yapıldı ve sonuçlar oldukça cesaret vericiydi: Hotmail’i açan kullanıcıların etkileşimi, MSN’in ana sayfasındaki tıklama sayılarının ölçümüne göre yüzde 8,9 gibi etkileyici bir oranda arttı. (Etkileşime dair pek çok değişikliğin etkisi yüzde 1’den daha az.) Yine de bu fikir tartışmalıydı, çünkü o zamanlar pek çok site bağlantıları yeni sekmelerde açıyordu, bu yüzden değişiklik sadece Birleşik Krallık’ta uygulandı.

Deney, 2010 Haziran’ında 2,7 milyon kullanıcı ile ABD’de tekrarlandı ve benzer sonuçlar verdi, böylece değişiklik dünyaya yayıldı. Ardından Microsoft, bu fikrin başka yerlerde nasıl etkilerinin olacağını görmek için, MSN’de bir arama başlatan insanlara sonuçları yeni bir sekmede açtırma olasılığının peşine düştü. ABD’de 12 milyondan fazla kullanıcı ile gerçekleştirilen bir deneyde, kullanıcı başına tıklar yüzde 5 oranında arttı. Bağlantıları yeni sekmelerde açmak, Microsoft’un bu zamana kadar tanıttıkları içinde kullanıcı etkileşimini artırmanın en iyi yollarından biri ve bunun için tek gereken birkaç satır kodu değiştirmek. Bugün Facebook.com ve Twitter.com’un da aralarında bulunduğu birçok web sitesi bu tekniği kullanıyor.

Microsoft’un deneyimi pek özgün sayılmaz. Örneğin Amazon’un deneyimleri gösterdi ki, kredi kartı seçeneklerini ana sayfasından alışveriş sepeti sayfasına taşımak, yıllık kârlarını milyonlarca dolar artırdı. Küçük yatırımların büyük getiriler sağladığı çok açık. Oysa büyük yatırımların ya çok ufak getirileri oluyor ya da hiçbir getirisi olmayabiliyor. Bing’i sosyal medya entegrasyonunun (böylece Facebook ve Twitter’dan gelen içerik, arama sonuçları sayfasında üçüncü bir pencere açıyor) sağlanması, Microsoft’a 25 milyon dolardan fazlaya mal oldu ve etkileşim ve gelirinde ufak artışlara yol açtı.

Deneyler yatırım kararlarını yönlendirebilir. Online testler, yöneticilerin potansiyel bir geliştirmede ne kadar yatırımın uygun olacağını anlamalarına yardımcı olabilir. Bu, Microsoft’un Bing’in arama sonuçlarını görüntüleme süresini azaltmanın yollarını ararken yöneldiği bir karardı. Elbette ki ne kadar hızlı o kadar iyi, ama bir geliştirmenin değeri nicel olarak ölçülebilir mi? Bu iyileştirme üzerinde çalışmak için üç mü, 10 mu yoksa 50 kişi mi gerekir? Şirket bu sorulara cevap vermek üzere, yükleme hızındaki dakikalık farkların etkileri üzerine çalışmak için sanal gecikmelerin de eklendiği bir dizi A/B testi uyguladı. Veriler, performanstaki her 100 milisaniyelik farkın gelirde yüzde 0,6’lık bir etkisi olduğunu gösterdi. Bing’in yıllık gelirinin 3 milyar doları geçtiği düşünülünce, 100 milisaniyelik bir hızlanma 18 milyar dolar yıllık artan gelir değerinde; bu da büyükçe bir ekibe fon sağlamak için yeterli.

Test ayrıca, Bing’in önemli ödünleşimlerde bulunmasına da olanak sağladı; özellikle de arama sonuçlarının uygunluğunu geliştirebilecek ama yazılımın yanıt verme süresini yavaşlatacak özellikler hakkında. Bing, pek çok küçük özelliğin kümülatif olarak performansta önemli bir düşüşe yol açacağı bir durumu önlemek istedi. Bu yüzden yanıt verme süresini birkaç milisaniyeden fazla yavaşlatan tekil özelliklerin tanıtılması, ekip kendi performansını ya da başka bir birimin performansını iyileştirene kadar ertelendi.

"BÜYÜK ÖLÇEKLİ BİR BECERİ GELİŞTİRİN"

100 yıldan uzun süre önce, büyük mağaza sahibi John Wanamaker’ın bir pazarlama vecizesine dönüşen “Reklama harcadığım paranın yarısı boşa gitti; sorun şu ki, hangi yarısı olduğunu bilmiyorum” sözünü ettiği anlatılıyor. Yeni fikirlerde benzer bir durumun geçerli olduğunu fark ettik: Bunların büyük bölümü deneylerde başarısız oluyor ve hatta uzmanlar bile genelde hangilerinin iyi sonuçlar vereceğini tahmin ederken yanılıyor. Google ve Bing’de deneylerin yaklaşık yüzde 10 ila yüzde 20’si olumlu sonuçlar veriyor. Microsoft’ta bir bütün olarak, üçte biri olumlu çıktı, üçte birinin nötr, üçte birinin de olumsuz sonuçları var. Bunların hepsi, şirketlerin prensi bulana kadar pek çok kurbağa öpmesi (yani bir sürü deney yapması) gerektiğini gösteriyor.

Değişikliklerin ne gerilettiğinden ne de beklenmedik etkileri bulunduğundan emin olmak için her şeyle deneme yapmak çok önemli. Bing’de önerilen değişikliklerin yaklaşık yüzde 80’i ilk etapta kontrollü deney olarak hayata geçiriliyor. (Bazı düşük riskli bug tespitleri ve işletim sistemi güncellemeleri gibi makine düzeyindeki değişiklikler buna dahil değil.)

Neredeyse her fikri bilimsel olarak test etmek için bir altyapı gerekiyor: Araç düzeni (tıklamalar, fare imleci ve etkinlik zamanlarını kaydetmek için), veriler için boru hatları ve veribilimciler. Bazı üçüncü parti araçları ve hizmetler deneylerin yapılmasını kolaylaştırıyor, ama eğer işleri büyütmek isterseniz, beceriyi süreçlere sıkı sıkıya entegre etmeniz gerekiyor. Bu, her deneyin maliyetini düşürecek ve güvenilirliğini artıracaktır. Öte yandan, altyapı eksikliği marjinal maliyetleri yüksek tutacaktır ve kıdemli yöneticilerin daha fazla deney istememesine yol açabilir.

Microsoft, yabana atılmayacak bir test altyapısı örneği sunuyor; ama tabii daha küçük bir şirket ya da işi deneye o kadar da bağlı olmayan bir kurum daha azıyla da idare edebilir. Microsoft’un Analiz & Deney ekibi, herhangi bir günde aralarında Bing, Cortana, Exchange, MSN, Office, Skype, Windows ve Xbox’ın da bulunduğu çeşitli ürünler üzerinde yüzlerce kontrollü deney gerçekleştirilmesine yardımcı olabiliyor. Her deney yüzbinlerce, hatta bazen on milyonlarca kullanıcıyı yeni bir özellikle ya da değişiklikle tanıştırıyor. Ekip, tüm bu testler üzerine titizlikle hazırlanmış istatistiki analizler yürütüyor ve otomatik olarak yüzbinlerce ölçümü kontrol eden ve önemli değişiklikleri işaretleyen puan kartları oluşturuyor.

"En iyi veribilimciler Twyman’ın kanunundan şaşmayanlardır: İlginç ya da farklı görünen herhangi bir figür genelde hatalıdır."

Bir şirketin deney personeli üç şekilde organize olabilir:

Merkezi model. Bu yaklaşımda veribilimcilerden oluşan bir ekip tüm şirkete hizmet veriyor. Avantaj, daha iyi deney araçları oluşturmak ve daha modern istatistiki algoritmalar geliştirmek gibi uzun vadeli projelere odaklanabilmeleri. Temel bir sorun ise gruptan faydalanan iş birimlerinin farklı önceliklerinin olabilmesi; bu durum, kaynakların ve maliyetlerin paylaşımı konusunda anlaşmazlıklara yol açabilir. Bir diğer sorun da veribilimcilerin şirketlerle uğraşırken dışlanmış hissetmesi, bu sebeple de birimin hedeflerine ve domain bilgisine yeterince uyum sağlayamaması olabilir; bu da noktaları birleştirmelerini ve konuya dair görüşlerini paylaşmalarını zorlaştırabilir. Dahası, veribilimciler kıdemli yönetim kadrosunu gerekli araçların geliştirilmesine yatırım yapmak ya da kurumsal ve şirket bünyesindeki yöneticileri deneyin sonuçlarına güvenmeleri konusunda ikna etmek için gereken itibara sahip olmayabilir.

Merkezi olmayan model. Bir diğer yaklaşım da veribilimcileri farklı iş birimlerine dağıtmak. Bu modelin avantajı, veribilimcilerin her iş alanında uzman olabilmesi. Temel dezavantajı ise çalışma arkadaşlarından gelişmelerine katkıda bulunan geribildirimi ve rehberliği de alamayan bu profesyoneller için net bir kariyer yolu çizmemesi. Tekil birimlerdeki deneyler de gereken araçları oluşturmayı haklı kılmaya yetecek çoğunluğa sahip olmayabilir.

Mükemmellik merkezi model. Üçüncü bir seçenek de merkezi bir görevde veribilimcileri, diğer iş birimlerinde ise geri kalanları bulundurmak. (Microsoft bu yaklaşımdan faydalanıyor.) Bir mükemmellik merkezi, kontrollü deneylerin daha çok tasarımına, uygulanışına ve analizine odaklanır. Şirket genelinde bir deney platformu ve ilgili araçları kurarak bu görevlerin gerektirdiği zamanı ve kaynakları önemli ölçüde azaltır. Ayrıca dersler, laboratuvar çalışmaları ve konferanslar düzenleyerek en iyi test uygulamalarının tüm kurumda yayılmasını sağlar. Temel olumsuzluklar, mükemmellik merkezinin ve ürün ekiplerinin ayrı ayrı nelere sahip olduklarının, çeşitli birimler deneylerini artırınca daha fazla veribilimciyi işe almak için paranın kimin cebinden çıkacağının ve sonuçların güvenilir olmadığını gösteren uyarılara ve kontrollere yatırımdan kimin sorumlu olduğunun kesin olmayışı.

Doğru ya da yanlış model diye bir şey yok. Küçük şirketler genelde merkezi modelle başlar ya da bir üçüncü taraf aracı kullanıp büyüdükten sonra diğer modellerden birine geçiş yapar. Birden fazla iş alanında varlık gösteren şirketlerde, test etmeyi bir öncelik olarak gören yöneticiler, kurumsal liderler koordine bir organizasyonel yaklaşım geliştirene dek beklemek istemeyebilir. Böylesi durumlarda, merkezi olmayan bir model mantıklı olabilir, en azından başlangıçta. Eğer online deney kurumsal bir öncelikse, bir şirket bunları iş birimlerinde uygulamaya başlamadan önce merkezi bir birimde uzmanlık geliştirmek ve standartlar belirlemek isteyebilir.

"BAŞARININ TANIMINI BELİRLEYİN"

Her iş grubunun deneyler için stratejik hedefleriyle paralel, uygun (genelde çeşitli) bir değerlendirme ölçüsü belirlemesi gerekiyor. Bu kulağa basit gelebilir, ama uzun vadeli sonuçları hangi kısa vadeli ölçümlerin en iyi tahmin edeceğini belirlemek kolay değil. Çoğu şirket bunu yanlış anlıyor. Bunu doğru anlamak (yani bir genel değerlendirme ölçütü –OEC– ile çıkagelmek) için, dikkatli bir anlayış ve genelde şirket içinde yapılacak kapsamlı görüşmeler gerekiyor. Stratejiyi anlayan üst düzey yöneticilerle ölçümleri ve ödünleşimleri anlayan veribilimciler arasında sıkı bir işbirliği olması gerekiyor. Ayrıca bu, tek seferlik bir uygulama da değil: OEC’nin yıllık olarak uyarlanmasını tavsiye ediyoruz.

Bing’in deneyiminde görüldüğü üzere, bir OEC’ye doğrudan ulaşılamıyor. Uzun vadeli temel hedefleri, arama motoru sorgularını ve reklam gelirini artırıyor. İlginç bir şekilde, arama sonuçlarının uygunluğunu azaltmak, kullanıcıların daha fazla sorgulama yapmasını (böylelikle sorgulama oranını artırmasını) ve daha fazla reklama tıklamasını (böylelikle geliri artırmasını) sağlayacak. Öyle görünüyor ki böylesi kazançlar sadece kısa ömürlü olabiliyor, çünkü insanlar eninde sonunda başka arama motorlarına yöneliyor. Bing yöneticileri ve veribilimciler, OEC tartışmalarında her görev ya da oturumdaki kullanıcı sorgulamalarını minimuma indirmek, kullanıcıların yürüttüğü görev ya da oturumların sayısını da maksimuma çıkarmak istediklerine karar verdi.

Bir OEC’yi bileşenlerine ayırmak ve bu bileşenleri takip etmek de önemli, çünkü bunlar genelde bir fikrin neden başarılı olduğuna dair kavrayış sağlar. Örneğin, eğer tıklama sayısı OEC’nin bütünlüğü için gerekliyse, bir sayfanın hangi bölümlerine tıklandığını ölçmek önemli. Farklı ölçütlere bakmak büyük önem taşıyor, çünkü bu ekiplerin bir deneyin başka bir alanda öngörülemeyen bir etkisinin olup olmadığını keşfetmesine yardımcı oluyor. Örneğin gösterilen ilgili arama sorgularında (diyelim ki “Harry Potter” için yapılan bir arama Harry Potter kitapları, filmleri, bu filmlerin oyuncu kadroları ve buna benzer konulardaki sorgulamaları gösterecektir) değişiklik yapan bir ekip, (ilgili sorgulamalar için yapılan aramaları artırarak) sorgulamaların dağılımını değiştirdiğini fark edemeyebilir; bu da geliri olumlu ya da olumsuz bir şekilde etkileyebilir.

OEC’yi kurma ve uyarlama süreci ile hedefleri ve etkileri anlamak zaman içinde kolaylaşıyor. Şirketler deneyler yaparak, sonuçlardaki hataları gidererek (birazdan bundan bahsedeceğiz) ve bunları yorumlayarak belli test türlerinde hangi ölçütlerin en çok işe yaradığına dair kıymetli bir deneyim kazanmakla kalmıyor, aynı zamanda yeni ölçütler de geliştiriyor. Bing, yıllar içinde deney yapanların kullanabileceği ve testlerin kapsadığı alanlara göre şablonlar halinde gruplandırılan (web aramaları, görsel aramaları, video aramaları, reklamlardaki değişiklikler ve benzeri) 6 binden fazla ölçüt oluşturdu.

"DÜŞÜK KALİTEDE VERİDEN SAKININ"

İnsanlar deneylerin sonuçlarına güvenmiyorsa, değerlendirme kriterinizin ne kadar iyi olduğunun bir önemi yok. Rakamlara ulaşmak kolay; güvenebileceğiniz rakamlara ulaşmak ise zor! Zamanı ve kaynakları, deneyimleme sistemini doğrulamaya ve otomatikleştirilmiş kontrollere ve güvencelere ayırmalısınız. Yöntemlerden biri özenli A/A testleri uygulamak; yani sistemin doğru bir şekilde neredeyse yüzde 95 oranında istatistiki olarak önemli bir fark tespit etmediğinden emin olmak için bir şeyi kendisiyle test etmek. Bu basit yaklaşım, Microsoft’un yüzlerce geçersiz deneyi ve formüllerin hatalı uygulanışını (tüm ölçümlerin bağımsız olmadığı, ama öyle olduğunun varsayıldığı bir bir formülden faydalanmak gibi) tespit etmesini sağladı.

En iyi veribilimcilerin şüpheciler olduğunu ve Twyman’ın kanunundan şaşmadıklarını öğrenmiş bulunuyoruz: İlginç ya da farklı görünen herhangi bir figür genelde hatalıdır. Şaşırtıcı sonuçlar tekrar edilmeli; hem geçerliliklerini ispatlamak hem de insanların şüphelerini gidermek için. Örneğin Bing, 2013’te arama sonuçları sayfasında görüntülenen ve aralarında başlıkların, bağlantıların ve resim altı yazıların da bulunduğu çeşitli metinlerin renkleri ile bir dizi deney yaptı. Her ne kadar renk değişiklikleri belli belirsiz olsa da (soldaki şemaya bakın) sonuçlar beklenmedik biçimde olumluydu: Başlıklarda hafifçe daha koyu maviler ve yeşiller, resim altı yazılarda ise hafifçe daha açık bir siyah gören kullanıcıların aramalarında daha fazla başarılı olduğunu ve ne istediğini bulanların bunu çok daha kısa sürede yapabildiğini gösterdi.

Renk farklılıkları nadiren algılanabildiği için, sonuçlara aralarında tasarım uzmanlarının da bulunduğu bazı disiplinlere göre anlaşılır biçimde şüphecilikle yaklaşılıyor. (Pek çok diğer şirket gibi Microsoft da, kurumsal stil modeli ve renkleri belirlemek için yıllarca gerçek kullanıcıların davranışlarından ziyade uzman tasarımcılara bel bağladı.) Bu yüzden deney, 32 milyon kullanıcı ile daha kapsamlı bir şekilde tekrarlandı ve sonuçlar benzerdi. Analiz gösterdi ki tüm kullanıcılara sunulduğunda, renk değişiklikleri geliri yılda 10 milyon dolardan fazla artırabilir.

Eğer sonuçların güvenilir olmasını istiyorsanız, yüksek kaliteli verinin kullanıldığından emin olmalısınız. Aykırı değerlerin dışarda tutulması, toplama hatalarının tespit edilmesi ve bunun gibi şeyler gerekebilir. Online dünyada bu mesele pek çok sebepten bilhassa önemli. İnternet botlarını ele alalım. Bing’de taleplerin yarısından fazlası botlardan geliyor. Bu veri sonuçları çarpıtabilir ya da “gürültü” ekleyebilir; bu da istatistiki değeri belirlemeyi güçleştirir. Bir diğer sorun da aykırı veri göstergelerinin yaygınlığı. Örneğin Amazon, belli tekil kullanıcıların bütün bir A/B testini çarpıtacak büyüklükte kitap siparişleri verdiğini fark etti; sonra bunların kütüphane hesapları olduğu ortaya çıktı.

Yöneticiler, bazı segmentler diğerlerinden daha büyük ya da daha küçük etkiler deneyimlediğinde de (bazı istatistikçilerin “heterojen tedavi etkileri” olarak adlandırdığı olgu) dikkatli olmalı. Bazı durumlarda tek bir iyi ya da kötü segment, ortalamayı genel sonuçları geçersiz kılmaya yetecek kadar çarpıtabilir. Microsoft’un deneylerinden birinde bu oldu: Internet Explorer 7 kullanıcılarının oluşturduğu bir segment, bir JavaScript bug’ı yüzünden Bing aramalarının sonuçlarına tıklayamıyordu ve öbür türlü pozitif olan genel sonuçlar negatif olarak geldi. Bir deney platformu böylesi sıra dışı segmentleri tespit etmeli; eğer bunu yapmazsa, ortalama bir etki arayan deneyciler, iyi bir fikri kötü gibi görüp eleyebilir.

Şirketlerin bir deneyden diğerine kontrol ve tedavi topluluklarını yeniden kullanması durumunda da sonuçlar etkilenebilir. Bu uygulama, insanların bir deneydeki tecrübelerinin gelecekteki davranış biçimlerini değiştirdiği “taşıma etkisi”ne yol açıyor. Bu durumu önlemek için, şirketlerin deneyler arasında kullanıcıları “değiştirmesi” gerekiyor.

Microsoft’un deney platformunun uyguladığı bir diğer genel karşılaştırma da asıl deneydeki kontrol ve tedavi gruplarındaki kullanıcı yüzdelerinin deneyin amacıyla uyuştuğunu onaylamak. Bunlar birbiriyle uyuşmadığında, genelde sonuçları geçersiz kılan bir “örnek oranı uyumsuzluğu” oluşur. Örneğin 50.2/49.8 (821,588’e karşılık 815,482 kullanıcı) gibi bir oran, öngörülen 50/50’lik bir orandan öyle bir sapıyor ki, şans eseri gerçekleşmiş olması ihtimali 500 binde birden az. Böylesi uyumsuzluklar düzenli olarak ortaya çıkıyor (genelde haftalık olarak) ve ekiplerin nedenini anlamak ve bunları gidermek konusunda gayretli olması gerekiyor.

"NEDENSELLİK KONUSUNDAKİ VARSAYIMLARDAN KAÇININ"

Büyük Veri’ye ilişkin heyecandan dolayı, bazı yöneticiler yanlışa düşerek nedenselliğin önemli olmadığı fikrine kapılıyor. Onlara göre tek yapmaları gereken ilişkiler kurmak ve nedensellik böylece öngörülür. Yanlış!

Sıradaki iki örnek bunun nedenini açıklıyor ve ayrıca kontrol grubu bulunmayan deneylerin eksiklerine dikkat çekiyor. İlk örnekte, Microsoft Office’in iki gelişmiş özelliğine dair gözlem amaçlı ayrı çalışmalar yürüten iki ekip var. Her ikisi de değerlendirdikleri yeni özelliğin kaybı azalttığı sonucuna vardı. Aslında neredeyse tüm gelişmiş özellikler böylesi bir korelasyon gösterecektir, çünkü gelişmiş bir özelliği deneyenler genelde yoğun kullanıcılar olur ve onların da kayıp oranı düşüktür. Bu yüzden yeni bir gelişmiş özellik düşük kayıp oranıyla ilişkili olabilse de, buna sebep olması şart değil. Hata mesajları alan Office kullanıcılarının da kayıp oranları düşük, çünkü onlar da yoğun kullanıcı olma eğiliminde. Peki bu, kullanıcılara daha fazla hata mesajı göstermenin kaybı azaltacağı anlamına mı geliyor? Pek sayılmaz.

İkinci örnek ise Yahoo’nun kendi sitelerinde gösterilen görüntüleme esaslı reklamların marka adı ya da ilgili anahtar kelimeler için yapılan aramaları artırıp artırmayacağını değerlendirmek üzere yaptığı bir araştırma ile alakalı. Çalışmanın gözleme dayalı kısmı, reklamların arama sayısını sayısını yüzde 871 oranında artırarak yüzde bin 198’e ulaştırdığını tahmin etti. Ancak Yahoo kontrollü bir deney yürüttüğünde, artış yalnızca yüzde 5,4 oldu. Kontrol grubu olmasaydı, şirket reklamların inanılmaz bir etkisi olduğu sonucuna varabilir ve aramalardaki artışın gözlem sürecindeki başka değişkenlerden dolayı gerçekleştiğini fark edemeyebilirdi.

"Bazı yöneticiler yanlışa düşerek tek yapmaları gerekenin ilişkiler kurmak olduğunu ve nedenselliğin böylece öngörüleceğini düşünüyor. Yanlış!"

Belli ki gözleme dayalı araştırmalar nedensellik sağlayamıyor. Bu durum tıpta iyi bilinir; ABD Gıda ve İlaç Dairesi şirketlerin ilaçlarının güvenli ve etkili olduğunu kanıtlamak rastgele klinik testleri yapmasını bu yüzden zorunlu kılar.
Testlere gereğinden fazla değişken dahil etmek de nedenselliğe dair fikir edinmeyi güçleştiriyor. Bu tür testlerle sonuçları çözmek ve yorumlamak zor. İdeal halinde, bir deney sebep–sonuç ilişkisinin kolayca anlaşılabileceği kadar basit olmalı. Karmaşık tasarımların bir diğer olumsuz yanı ise deneyleri bug’lar karşısında çok daha savunmasız hale getirmesi. Eğer yeni bir özelliğin testinin iptal edilmesini gerektiren feci bir sorunu tetiklemeye dair yüzde 10 ihtimali varsa, yedi yeni özelliğin dahil olduğu bir değişimin ölümcül bir bug’ı olma ihtimali yüzde 50’nin üzerindedir.

Peki ya bir şeyin bir diğerine neden olduğunu saptayıp da neden olduğunu bilmiyorsanız? Genel mekanizmayı anlamaya mı çalışmalısınız? Kısa cevap “evet.”

1500 ve 1800 yılları arasında, yaklaşık 2 milyon denizci iskorbüt hastalığından dolayı öldü. Bugün iskorbütün beslenme düzeninde C vitamini eksikliğinden kaynaklandığını biliyoruz; ki denizcilerin de uzun yolculuklar sırasında yeterli meyve stoku olamazdı. Kraliyet Donanması cerrahı Dr. James Lind, 1747’de altı potansiyel ilacı test etmek için bir deneme yapmaya karar verdi. Bir yolculukta denizcilere biraz portakal ve limon, diğerlerine ise sirke gibi alternatif ilaçlar verdi. Deney, nedenini kimse bilmese de turunçgillerin iskorbütü önleyebildiğini gösterdi. Lind, yanılgı ile meyvedeki asitliğin iyileştirici olduğunu düşündü ve narenciye suyunu ısıtarak konsantre hale getirip bozulmaya daha dayanıklı bir ilaç hazırlamaya çalıştı, dolayısıyla C vitaminini de yok etti. Isıtılmamış limon suyunun denizcilerin günlük istihkakına eklendiği 50 yıl sonra ise Kraliyet Donanması mürettebatını sonunda iskorbüt illetinden kurtardı. Eğer Lind ısıtılmış ve ısıtılmamış limon suyu ile kontrollü bir deney yapmış olsaydı, tedavi büyük olasılıkla çok daha erken bulunur ve pek çok hayat kurtarırdı.

Yani “ne” bilgisinden faydalanmak için her zaman “neden” ve “nasıl” bilgisine sahip olmak zorunda olmadığınızı belirtmemiz lazım. Konu motivasyonlarını kestirmenin güç olduğu kullanıcıların davranışlarıysa, bu özellikle doğrudur. Bing’de çığır açan yeniliklerin bazıları altında yatan bir teori olmaksızın yapıldı. Örneğin, Bing yazıların renklerindeki belli belirsiz değişikliklerle kullanıcı deneyimini iyileştirebilecek olsa da renge dair bunun nedenini anlamaya yarayacak belli başlı teoriler bulunmuyor. Burada kanıt, teorinin yerini aldı.

ONLINE DÜNYA genelde çalkantılı ve tehlikelerle dolu olarak algılanır, ancak kontrollü deneyler bunu yönlendirmemize yardımcı olabilir. Cevaplar yeterince açık olmadığında ya da insanlar karşıt görüşlere sahip olduğunda veya bir fikrin değerinden emin olamadığında, bize doğru yönü gösterebilirler.

Birkaç yıl önce Bing, reklamcıların reklamlara belli açılış sayfalarına yönlendiren bağlantılar eklemesi için reklamları daha büyük yapıp yapmamak hakkında karar vermeye çalışıyordu. (Örneğin, kredi veren bir şirket, ana sayfaya tek bağlantı vermek yerine “faiz oranlarını karşılaştır” ve “şirket hakkında” gibi bağlantılar da ekleyebilir.) Olumsuz yanı, daha büyük reklamların doğal olarak ekranda daha fazla yer kaplayacak ve hem kullanıcı memnuniyetsizliğini hem de müşteri kaybını artıracak olması. Fikri değerlendirenler ikiye ayrıldı. Böylece Bing ekibi, reklamları için ayrılan genel ekran alanını sabit tutarken reklamların boyutunu artırdı; bu da daha az reklam göstermek anlamına geliyordu. Sonuçlara göre, daha az ama daha büyük reklamlar göstermek büyük bir gelişmeye yol açıyordu. Kazanç, yıllık olarak 50 milyon dolardan fazla arttı; hem de kullanıcı deneyiminin kilit unsurlarına zarar vermeden.

Eğer bir deneyin değerini gerçekten anlamak isterseniz, beklenen sonucu ile gerçek sonucu arasındaki farka bakın. Eğer bir şeyin gerçekleşeceğini düşündüyseniz ve bu gerçekleştiyse, fazla bir şey öğrenmemişsiniz demektir. Eğer bir şeyin gerçekleşeceğini düşündüyseniz ve bu gerçekleşmediyse, önemli bir şey öğrenmişsiniz demektir. Eğer önemsiz bir şeyin gerçekleşeceğini düşündüyseniz ve sonuçlar büyük sürpriz olduysa, ayrıca çığır açan bir yeniliğe yol açtıysa, oldukça değerli bir şey öğrenmişsiniz demektir.

Şirketiniz, yazılımın gücüyle kontrollü deneylerin bilimsel özenini birleştirerek bir eğitim laboratuvarı kurabilir. Elde edeceğiniz kazançlar (maliyet tasarrufu, yeni gelir ve gelişmiş kullanıcı deneyimi olarak) müthiş olabilir. Eğer bir rekabet avantajı elde etmek istiyorsanız, şirketiniz bir deney becerisi geliştirmek ve online testler yapma biliminde uzmanlaşmak mecburiyetinde.

ÖZETLE
İHTİYAÇ ;Web siteleri ve uygulamalar geliştirirken, somut verilerden ziyade öznel görüşleri kullanarak yeni ürün özelliklerinden görünüm ve hissiyata ya da pazarlama kampanyalarına dek her konuda karar veren pek çok şirket olur.

ÇÖZÜM; Şirketler, fikirlerinin değerini ölçmek için online kontrollü deneyler uygulamalı. Potansiyel gelişmeler titizlikle test edilmeli, çünkü büyük yatırımlar karşılığını vermeyebilir ve bazı küçük değişikliklerin büyük getirileri olurken bazıları da şaşırtıcı derecede zarar verebilir.

UYGULAMA ; Liderler A/B testlerini ve diğer kontrollü deneyleri düzgünce tasarlamayı ve uygulamayı bilmeli, doğruluklarından emin olmalı, sonuçlarını yorumlamalı ve gizli tehlikelerini bertaraf etmeli.

dijital blog

Online Deneylerin Şaşırtan Gücü