ما کاربران را نمیشماریم، اما درخواستها به دایرکتوریها که کلاینتها بهطور دورهای فهرست رلههای خود را بهروزرسانی میکنند و تعداد کاربران را بهطور غیرمستقیم از آنجا تخمین میزنند را میشماریم .
نه، ولی ما می توانیم ببینیم چه کسری از فهرستها آنان را گزارش کردند، آنگاه میتوانیم تعداد کل را در شبکه حدس بزنیم.
ما این فرض را داریم که کلاینت به طور متوسط 10 درخواست از این قبیل را در روز انجام میدهد.
یک کلاینت Tor که 24/7 متصل است حدود 15 درخواست در روز ارسال میکند، اما همه کلاینتها 24/7 متصل نیستند، بنابراین ما عدد 10 را برای کلاینت متوسط انتخاب کردیم.
ما درخواستهای دایرکتوری را تقسیم بر 10 میکنیم و نتیجه را به عنوان تعداد کاربر در نظر میگیریم.
روش دیگر بررسی این است که ما فرض کنیم که هر درخواست نشانگر کلاینتی است که یک دهم روز آنلاین میماند، یعنی 2 ساعت و 24 دقیقه.
میانگین تعداد کاربران همزمان، از دادههای جمعآوریشده در طول یک روز تخمین زده میشود. ما نمیتوانیم بگوییم چند کاربر متمایز وجود دارد.
نه، رلههایی که این آمار را گزارش می کنند درخواستها را از کشورهای مبدا و در یک دوره 24 ساعته جمع میکنند.
آماری که نیاز به جمعآوری آن داریم تا بتوانیم تعداد کاربران در ساعت را بگوییم بسیار مشروح خواهد بود و ممکن است کاربران را به خطر بیاندازد.
اینطوری ما آن کاربران را یک کاربر در نظر میگیریم. ما در واقع کلاینتها را می شماریم، ولی برای اکثر افراد اینکه فکر کنند آنها کاربر هستند قابل درکتر است، برای همین است که میگوییم کاربر نه کلاینت.
نه، چون آن کاربر فهرست رلههای خود را به اندازه کاربری که نشانی IP خود را در طول روز تغییر نمی دهد بروزرسانی میکند.
فهرستها نشانیهای IP را به کدهای کشور ترجمه میکنند و این اعداد را در یک فرم تجمعی گزارش میکنند. این یکی از دلایلی است که Tor با یک پایگاهداده GeoIP عرضه میشود.
تعداد کمی از پلها دادههایی در مورد انتقالها و نسخهٔ IP گزارش میکنند، و بهصورت پیشفرض ما فرض میکنیم درخواستها از پروتکل پیشفرض OR و IPv4 استفاده میکنند.
هنگامی که پلهای بیشتری این دادهها را گزارش کنند، اعداد دقیقتر خواهند شد.
رلهها و پلها برخی دادهها را در بازههای ۲۴-ساعتی گذشته گزارش میکنند که ممکن است در پایان روز به اتمام برسد.
و پس از اینکه چنین بازهای تمام شد رلهها و پلها ممکن است ۱۸ ساعت دیگر زمان ببرند تا دادهها را گزارش کنند.
ما دو روز آخر را از گرافها حذف کردیم، چون میخواهیم از اینکه آخرین نقطهٔ داده در یک گراف نشاندهندهٔ یک تغییر روند باشد جلوگیری کنیم که در واقع آرتیفکتی از الگوریتم است.
دلیل آن این است که ما زمانی تعداد کاربران را منتشر می کنیم که مطمئن باشیم که دیگر بهصورت قابلتوجهی تغییر نخواهند کرد.
اما همیشه این احتمال وجود دارد که یک فهرست، دادهها را چند ساعت پس از اینکه ما به اندازه کافی مطمئن بودیم، که این باعث تغییر گراف شده است.
ما آرشیوهای توصیفگرهای مربوط به پیش از این زمان را داریم، اما آن توصیفگرها همهٔ دادههایی را که ما برای تخمین تعداد کاربران استفاده میکنیم، در بر نداشتند.
لطفاً تاربال زیر را برای جزئیات بیشتر پیدا کنید:
Tarball
برای کاربران مستقیم، ما همهٔ شاخهها را در نظر میگیریم، که در رویکرد قدیمی در نظر نمیگرفتیم.
ما از تاریخ هایی استفاده میکنیم که فقط حاوی بایت هستند تا بتوانند به درخواستهای دایرکتوری پاسخ دهند، که از استفاده تاریخهای کلی بایت دقیقتر هستند.
اوه، این داستانی کاملاً متفاوت است. ما یک گزارش فنی ۱۳ صفحهای در توضیح دلایل کنارگذاری رهیافت قدیمی نوشتیم.
بهطور خلاصه: در رهیافت قدیمی چیز اشتباهی را اندازهگیری میکردیم، و حالا چیز درستی را اندازهگیری میکنیم.
ما یک سیستم تشخیص سانسور مبتنی بر ناهنجاری اجرا میکنیم که به تعداد کاربران در چندین روز نگاه میکند و تعداد کاربران را در روزهای آتی پیشبینی میکند.
اگر عدد واقعی بالاتر یا پایینتر باشد، این ممکن است یک رویداد سانسور ممکن یا قطع سانسور را نشان دهد.
برای جزئیات بیشتر، گزارش فنی ما را ببینید.