Product & Tech

Araç Değişkenlerini Kullanarak Nedensel Çıkarım

Veri Bilimciler sıklıkla kendilerini “Korelasyon nedensellik değildir” mantrasını tekrarlarken bulurlar. Paydaşlarımıza – ve kendimize – sürekli hatırlatmak iyi bir şey çünkü veriler aldatıcı olabilir ve insan aklı, istatistiksel kanıtları nedensel olarak yorumlamaktan kendini alamaz. Ama belki de bu bir özelliktir, bir hata değil: içgüdüsel olarak nedensel yorumu ararız çünkü doğru kararlar vermek için eninde sonunda ihtiyacımız olan şey budur. Arkalarında nedensel hikayeler olmadan, korelasyonlar karar vericiler için özellikle yararlı değildir.

Ancak sonuçta, verilerden okuyabildiğimiz tek şey korelasyonlardır ve bu korelasyonlara bağladığımız nedensel hikayenin gerçekten doğru olduğundan emin olmak çok zordur. Ve nedensel hikayeyi yanlış anlamamızın birkaç yolu var. En yaygın hata, yaygın nedenleri veya karıştırıcıları hesaba katmamaktır. Kanonik örneği kullanarak, hastaneye yatış ve ölüm arasında pozitif bir ilişki vardır. Başka bir deyişle, hastaneye kaldırılanların ölme olasılığı, hastaneye kaldırılmayanlara göre daha fazladır. Hasta olmanın hem hastaneye yatışa hem de ölüme neden olabileceği gerçeğini görmezden gelirsek, yanlış bir nedensel hikayeyle karşılaşabiliriz: hastaneler öldürür.

Diğer yaygın tuzak, kafa karıştırıcılardan çok fazla ders aldığımızda ve ortak etkileri veya çarpıştırıcıları hesaba kattığımızda ortaya çıkar. Buradaki örnek, Berkson Paradoksunun açıklamasından uyarlanmıştır. Neden Kitabı Pearl ve Mackenzie. COVID-19 enfeksiyonlarının diyabeti tetikleyip tetikleyemeyeceğini görmeye çalıştığımızı varsayalım. Diyelim ki gerçekte böyle bir nedensellik bağı yok ama diyabetli bir hastanın virüse yakalanması durumunda hastaneye yatma olasılığı daha yüksek. Şimdi, olası karışıklıkları hesaba katma gayretimizle, çalışmamızı sadece hastanede yatan insanlarla sınırlamaya karar verdik. Bu, herhangi bir doğrudan nedensel bağlantı olmasa bile, COVID-19 ile diyabet arasında bir korelasyon gözlemlememize neden olabilir. Ve daha az dikkatli olursak, COVID’in diyabete nasıl neden olduğu hakkında bir fikir verebiliriz.

Yalnızca hastanede yatan nüfusa bakarsak, herhangi bir doğrudan nedensel bağlantı olmasa bile COVID-19 ile diyabet arasında bir korelasyon gözlemleyebilir ve yanlış bir şekilde COVID-19’un diyabete neden olduğu sonucunu çıkarabiliriz.

Nedensel hikayelerin yanlış gitmesinin bir başka yolu da aracıları hesaba katmamızdır. Buraya kadar bu blog yazısının ürkütücü temasıyla devam ederek, diyelim ki sigara içmenin gerçekten erken ölüme neden olup olmadığını araştırıyoruz. Sigara içmenin ölüme yol açabileceği tüm yolları (akciğer kanseri, kalp hastalıkları) hesaba katar/ayarlar/kontrol edersek, o zaman sigara içmenin aslında ölüm oranını artırmasına rağmen, sigara içme ile ölüm arasında çok az veya hiç korelasyon bulabiliriz.

“Peki, bunun nesi bu kadar zor!?” diyebilirsin. “Yalnızca karıştırıcıları ayarlayın ve çarpıştırıcıları ve arabulucuları dışarıda bırakın!” Nedensel çıkarım zordur, çünkü ilk olarak, olası tüm karıştırıcılar için büyük olasılıkla hiçbir zaman veriye sahip değiliz. İkincisi, çarpıştırıcılar, aracılar ve karıştırıcılar arasında ayrım yapmak genellikle zordur. Ve bazen nedensellik her iki yönde de işler ve bu çift yönlü etkileri ayrıştırmak neredeyse imkansız hale gelir.

Bir Roblox Örneği

Peki, bu gerçek zorlukların üstesinden nasıl gelebiliriz? Özellikle teknolojide daha güvenilir çözüm, deneme veya A/B testidir. Ancak, bu her zaman mümkün değildir. Şimdiye kadar hastalıklı örneklerle yeterince uğraşmış olmalısınız, o yüzden eğlenceli bir tane kullanalım. Roblox’ta kullanıcılarımız, Avatar Shop’tan edinebilecekleri farklı öğelerle kendilerini giyerek Avatarları aracılığıyla kimliklerini ve yaratıcılıklarını ifade ederler.

Benim profilim

Tahmin edebileceğiniz gibi bu özelliğin sağlığını korumak bizim için çok önemli. Bu pazara ne kadar kaynak yatırdığımızı anlamak için, bunun şirketimizin hedeflerine nihai olarak ne kadar katkıda bulunduğunu bilmek isteriz. Daha spesifik olarak, Avatar Shop’un topluluk katılımı üzerindeki etkisini tahmin etmek istiyoruz. Ne yazık ki, doğrudan bir deney mümkün değildir.

  1. Avatar Shop’u kullanıcı popülasyonumuzun bir kısmı için kapatamayız çünkü bu, platformumuzdaki kullanıcı deneyiminin gerçekten önemli bir parçası.
  2. Avatar Shop, kullanıcıların alıcı ve satıcı olarak birbirleriyle etkileşime girdiği bir pazar yeridir. Bir kullanıcı grubu için devre dışı bırakılması, kapatılmadığı kullanıcıları da etkiler.

Bu arada, deneysel olmayan verileri kullanarak bu nedensel ilişkiyi tahmin etmek tehlikeli bir yoldur, çünkü (i) ya tam olarak ayarlanamayan ya da gözlemlenemeyen birkaç kafa karıştırıcı belirledik ve (ii) üst sıra metriklerimizdeki hareketlerin de olduğunu bulduk. Mağaza ile etkileşim üzerinde ters bir etki.

Nedensel çıkarım yapmak neden zordur.

Bu nadir görülen bir sorun değildir ve faydalı olabilecek birkaç istatistiksel metodoloji vardır. Örneğin, Farklardaki Farklar veya İki Yönlü Sabit Etkiler (TWFE) tahminleri, zaman içinde bir dizi kullanıcıyı izler ve Avatar Mağazası ile etkileşim kurduktan sonra etkileşim saatlerinin nasıl değiştiğini görür. Bir diğer popüler teknik, Avatar Mağazasını kullanan kullanıcıları çeşitli faktörlere dayanarak kullanmayan kullanıcılarla eşleştirmeye çalışan Eğilim Puanı Eşleştirmedir (PSM). Bu yöntemlerin kendine özgü avantajları ve zorlukları vardır, ancak doğru bir şekilde uygulandıklarında bile genellikle aynı ölümcül kusurdan muzdariptirler: hem Avatar Mağazası ile etkileşimi hem de meşgul olunan saatleri etkileyebilecek gözlemlenmemiş faktörler, yani kafa karıştırıcılar. (Yan not: Farklılıklar-in-Differences’ın sabit karıştırıcılara karşı sağlam olması beklenir, ancak zamanla değişen karıştırıcılara karşı hala savunmasızdır).

Kurtarmaya Yönelik Araçsal Değişkenler

Enstrümantal Değişkenler Yapabilmek diğer nedensel çıkarım tekniklerinin sağlayamadığı, gözlemlenmeyen karıştırıcılar için bir çözüm sağlar. Buradaki vurgu “can” üzerindedir, çünkü en zor kısım, geçerli bir IV tahmini için iki ana koşulu karşılayan o özel değişkeni bulmaktır:

  1. İlk aşama: İlgilenilen değişkenle güçlü bir şekilde ilişkilendirilmesi gerekir (bizim durumumuzda Avatar Mağazası katılımı).
  2. Dışlama: Sonuçla (kullanılan saatler) tek ilişkisi, ilgilenilen değişken aracılığıyladır (Avatar Mağazası katılımı).

Böyle bir aracı tanımlayabilirsek, deneysel olmayan verileri kullanarak nedensel tahminimiz çok daha basit hale gelir: araç (Z) tarafından açıklanan ilgilenilen değişkenin (X) varyasyonu ile ilişkilendirilen sonuçtaki (Y) herhangi bir varyasyon, bir X’in Y üzerindeki nedensel etkisi. Araç değişkenlerin arkasındaki temel fikrin basitleştirilmiş bir örneği için şemaya bakın.

Z, ortalama Avatar Shop etkileşimindeki hareketi X1’den X2’ye tahmin eder. Ve sonuç olarak, ortalama meşgul olunan saatler Y1’den Y2’ye yükselir. O halde eğim, X -> Y ilişkisinin nedensel bir tahminidir.

Yukarıdaki diyagram ayrıca iki koşulun ne kadar önemli olduğunu gösterir. İlk olarak, enstrüman zorunda X1’den X2’ye hareketi güçlü bir şekilde tahmin edin. İkincisi, biz bir tür inanç sıçraması burada Y2’den Y1’e olan hareketin tamamen X1’den X2’ye hareketinden kaynaklandığı. Z’nin Y’yi X dışında bir şekilde etkileme yolu varsa, o zaman Y’deki tüm hareketi X’e yanlış bir şekilde atfedeceğiz.

Anlayabileceğiniz gibi, ikinci koşul, IV tahminlerinin en sık başarısız olduğu yerdir, çünkü karmaşık bir sistemde yapmak oldukça güçlü bir iddiadır. Yani, bizim durumumuzdaki araç tam olarak nedir ve ikinci koşulu yerine getirdiğinden neden eminiz?

Enstrümanımız

Yaklaşık bir yıl önce, Avatar Mağazası için yeni ‘Sizin İçin Tavsiye Edilen’ özelliğimizi değerlendirmek için bir A/B testi yaptık. Avatar Shop etkileşimi üzerinde büyük bir etki gözlemledik. Başka bir deyişle, bir kullanıcının hangi deney grubuna ait olduğu, Avatar mağazasıyla etkileşimlerini güçlü bir şekilde tahmin etti (İlk aşama). Etkisini meşgul olunan saatlerde de gözlemledik. Ve bu deney, Avatar Mağazasındaki bir değişikliği değerlendirmek için özel olarak tasarlandığından ve Roblox’ta başka hiçbir şeye dokunmadığından, meşgul olan saatlerde herhangi bir değişikliğin yalnızca Mağaza etkileşimindeki değişikliklerden kaynaklanmış olması gerektiğine inanmak için güçlü nedenlerimiz var (dışlama).

Öneriler denememiz, mağaza etkileşimi üzerinde güçlü bir etkisi (F-stat > 15000) olduğu için iyi bir araç işlevi görüyor ve başka herhangi bir yolla meşgul olunan saatleri etkilemiş olabileceğine inanmak için hiçbir nedenimiz yok.

İyi bir araca sahip olmak, doğrudan A/B testi olarak bazı kullanıcılarımız için Avatar Shop’u kapatmak zorunda kalmadan Avatar Shop etkileşiminden meşgul olunan saatlere kadar nedensel bağlantıyı tahmin edebileceğimiz anlamına gelir.

bulgular

Yukarıda özetlendiği gibi IV tahminini kullanarak, iki değişkenimiz arasında istatistiksel olarak anlamlı ve pozitif bir nedensel ilişki bulduk. Spesifik olarak, Avatar Mağazası Etkileşimindeki %1’lik artış %0,08 ile sonuçlanır (SE: %0,008, p-değeri

Avatar Shop katılımının, en yeni kullanıcılarımız için topluluk katılımı üzerinde çok daha güçlü bir etkisi olduğunu tahmin ediyoruz.

Bu, en yeni kullanıcılarımız için bir işe alım deneyimi tasarlamamıza yardımcı olabilecek gerçekten faydalı bir içgörüdür. IV’lerin önemli bir sınırlamasını tartışmak için de iyi bir fırsattır: Yerel Ortalama Tedavi Etkileri (LATE) Doğrudan bir deney gibi Ortalama Tedavi Etkileri (ATE) yerine. Diğer bir deyişle, bu tahminler, davranışları aracımızdan etkilenen kullanıcılara özeldir ve bu nedenle genel popülasyona genellenmesi gerekmeyebilir. Ve bu ayrım, yukarıda gördüğümüz gibi, tedavi etkilerinin homojen olmadığını düşündüğümüzde geçerlidir. Uygulamada, tedavi etkisinin heterojen olduğunu varsaymak her zaman güvenlidir ve bu nedenle IV tahminleri, dahili olarak geçerli olsalar bile, deneyler için mükemmel ikameler değildir. Ama bazen yapabileceğimiz tek şey bunlar olabilir.

Sonraki adımlar

IV’lerin LATE sorununa bir panzehir, aslında daha fazla araç bulmak ve bir grup LATE’yi tahmin etmektir. Ve buradaki amaç, bir dizi yerel etki tahminini birleştirerek küresel ortalama tedavi etkisi tahminini oluşturabilmektir. Bundan sonra yapmayı planladığımız şey tam olarak bu ve bunu yapabiliriz çünkü Avatar dükkanının farklı taraflarında çok çeşitli deneyler yapıyoruz. Her biri, amaçlarımız için geçerli bir araç olarak hizmet etmelidir. Tahmin edebileceğiniz gibi, çözülmesi gereken pek çok havalı, zorlu analitik problem var. Ve bunlar sizin için bir fincan çaysa, Roblox’un Veri Bilimi ve Analitiği ekibine katılmanızı çok isteriz.

Enstrümantal Değişkenler Hakkında Son Düşünceler

Umarız bu aşk notu ve Enstrümantal Değişkenlere giriş, gücünü gösterir ve daha fazla ilginizi çeker. Bu nedensel tahmin yöntemi olabilirken belirli ayarlarda aşırı kullanılmış, özellikle enstrüman bir deneyden geldiğinde, varsayımlarının tutma olasılığının çok daha yüksek olduğu teknolojide suçlu olarak yetersiz kullanıldığını düşünüyoruz. Daha iyi haber şu ki, etrafta olduğu için 1920’lerden beri!, ile zengin bir literatür var aktif canlı tartışmalar doğru uygulanması ve yorumlanması hakkında.

— — —

Ujwal Kharel, Roblox’ta Kıdemli Veri Bilimcisidir. Ekonomisinin sağlıklı ve başarılı olmasını sağlamak için Avatar Mağazasında çalışıyor.

Ne Roblox Corporation ne de bu blog herhangi bir şirketi veya hizmeti onaylamaz veya desteklemez. Ayrıca, bu blogda yer alan bilgilerin doğruluğu, güvenilirliği veya eksiksizliği ile ilgili herhangi bir garanti veya söz verilmemektedir.

©2020 Roblox Şirketi. Roblox, Roblox logosu ve Powering Imagination, ABD ve diğer ülkelerdeki tescilli ve tescilsiz ticari markalarımız arasındadır.


Source link

Başa dön tuşu

Reklam Engelleyici Algılandı

Lütfen reklam engelleyiciyi devre dışı bırakarak bizi desteklemeyi düşünün