با رشد روزافزون تکنولوژیهای دیجیتال، حجم عظیمی از دادهها در سطح جهان تولید و جمعآوری میشود. این حجم عظیم دادهها، که به عنوان بیگ دیتا (Big Data) شناخته میشود، به ما امکان میدهد الگوها، روابط و اطلاعات مهمی را کشف کنیم که پیش از این در دسترس نبودهاند. یکی از زمینههایی که کلان داده تأثیر بسزایی در آن گذاشته است، بلاکچین است.
بلاکچین به عنوان یک فناوری مبتنی بر شبکههای دیجیتال، یک دفتر کل توزیع شده است که تمامی تراکنشها را به صورت عمومی و شفاف ثبت میکند. این فناوری میتواند امنیت و شفافیت را در انتقال داراییها و دادهها فراهم کند. اما با حجم بزرگی از تراکنشها و دادههایی که در بلاکچین ثبت میشوند، نیاز به مدیریت و پردازش این دادهها با استفاده از تکنولوژی کلان داده وجود دارد.
در این مقاله از هلدینگ سیمیا، به بررسی بیگ دیتا و کاربردهای آن در بلاکچین میپردازیم.
فهرست محتوا
بیگ دیتا چیست؟
بیگ دیتا (Big Data) که در فارسی به آن کلان داده نیز گفته میشود، به معنای یک پایگاه داده بسیار بزرگ است که میتواند ساختار یافته یا غیرساختار یافته باشد. بیگ دیتا، پایگاهی است که به طور مداوم با استفاده از افزایش اطلاعات بزرگتر میشود. این شبکه اطلاعاتی حاصل یک فرآیند بزرگتر به نام داده کاوی است.
داده کاوی (Data Mining) یک یا چند الگوریتم جمعآوری اطلاعات از منابع مختلف است. فرض کنید که یک کاربر در مسیر خانه تا محل کار، چند بار شبکههای اجتماعی مانند اینستاگرام و توییتر را باز کند، برای پیدا کردن مسیر از گوگل مپ استفاده کند و مدل کفش مورد علاقهاش را هم در گوگل یا یک فروشگاه اینترنتی مانند دیجی کالا جستوجو کند. این اطلاعات به صورت منظم و مداوم توسط گوگل و سایر پایگاههای اطلاعاتی جمعآوری میشود. این اطلاعات تحلیل شده و در آینده به صورت منظم نتایج بهتری به او نشان داده خواهد شد.
حال اطلاعات این کاربر را ضرب در صدها میلیون کاربر فعال در اینترنت کنید. روزانه بیش از ۵ یا ۴ میلیارد بار در گوگل سرچ میشود؛ این یعنی حدوداً ۷۰ هزار سرچ در هر ثانیه. گوگل و سایر سرویسهایی که به کاربران خدمات ارائه میکنند، این اطلاعات را جمعآوری کرده و برای ارائه سرویس بهتر در آینده و تبلیغات از آنها استفاده میکنند.
انواع کلان داده کدام است؟
برای دستهبندی انواع کلان داده معمولا آنها را بر اساس میزان ساختاریافتگی دستهبندی میکنند. بر این اساس کلان داده به سه دسته مختلف تقسیم میشود.
۱- دادههای بدون ساختار
همه دادهها به روش ساختاریافته مرتب نمیشوند. تمام دادههای سازماننیافته شما، «دادههای بدون ساختار» هستند. تقریباً ۸۰٪ از دادههای سراسر جهان ساختار ندارند. هیچکس متن مکالمههای تلفنی خود را یادداشت نمیکند یا هر توییتی که میفرستد را با یک نشانه معنادار مشخص نمیکند. تقریباً هر کاری که شما با کامپیوتر انجام میدهید، دادههای بدون ساختار تولید میکند. این دادهها، ماهیت پیچیدهای دارند، فضای بیشتری را اشغال میکنند و بینظمی و به هم ریختگیشان، مدیریت و درک آنها را دشوار میکند.
اما برای بهدستآوردن اطلاعات مفید، دادهها باید قابل تفسیر باشند. باوجوداینکه تفسیر دادهها زمان و انرژی بیشتری میخواهد، اما نتیجه این تفسیر ارزشمندتر از جمعآوری ساده دادههای بدون ساختار است.
سختترین قسمت تحلیل دادههای بدون ساختار این است که به یک برنامه یاد بدهیم که اطلاعات بهدستآمده را درک کند. برای این کار باید اطلاعات را برای برنامه، به فرمهایی از دادههای ساختاریافته ترجمه کرد. این کار آسانی نیست و از قالبی به قالب دیگر متفاوت است. معمولاً برای این کار از روشهایی مانند تجزیه متن، پردازش طبیعی زبان و… استفاده میکنند.
۲- دادههای نیمهساختاریافته
دادههای نیمهساختاریافته، ترکیبی از دادههای ساختاریافته و بدون ساختار هستند. برای این دادهها الگوهای معنادار و جدولهای مخصوص طراحی نشده است. اما برای دادهها برچسبها و نشانههایی برای معناکردن وجود دارند که دادهها را برای ضبط و طبقهبندی و ساخت پرونده در مجموعههای داده آماده میکند که ذخیرهسازی آن را نسبت به دادههای ساختار نیافته آسانتر میکند.
۳- دادههای ساختاریافته
این نوع دادهها بسیار سازمانیافته هستند. تصور کنید صدها صفحه داده، در ستونها و ردیفهایی مرتب شدهاند. برای تمام عنوانها توضیح وجود دارد، متغیرها را بهراحتی میشود تشخیص داد و اعداد قابلدرک و ملموس هستند. معلوم است که کار با این دادهها آسان است و برای برنامهریزی بهراحتی میتوان دادهها را مرتب و جمعآوری کرد.
دادههای ساختاریافته از الگوها پیروی میکنند. این الگوها مشخص میکنند که هر داده کجاست و معنی آن چیست.
برای مثال، یک پایگاهداده حقوق و دستمزد کارمندان، دادههایی مثل اطلاعات شناسایی کارکنان، نرخ دستمزدشان، ساعت کار، نحوه پرداخت اضافهکاری و غیره را به ما میدهد. الگوی دادههای ساختاریافته، برای هر برنامهای که از آن استفاده میکنیم، هر یک از این موارد را تعریف خواهد کرد. پس این برنامه برای کشف معنای واقعی هرکدام از این موارد، مجبور نیست به جستجوی داده بپردازد، بلکه میتواند مستقیماً به جمعآوری و پردازش آن بپردازد.
کاربردهای بیگ دیتا
کلان داده به عنوان یک منبع ارزشمند از دادهها، در انواع صنایع و زمینهها مورد استفاده قرار میگیرد. در ادامه، به برخی از کاربردهای این تکنولوژی اشاره میکنیم:
- تجارت الکترونیک و بازاریابی: بیگ دیتا میتواند در بهبود استراتژیهای بازاریابی، تحلیل رفتار مشتریان، پیشبینی روند بازار و بهبود تجربه کاربری در سایتها و اپلیکیشنها مورد استفاده قرار گیرد.
- بهداشت و سلامت: استفاده از کلان داده در حوزه بهداشت و سلامت میتواند به تحلیل و پیشبینی شیوع بیماریها، تحلیل اثربخشی درمانها، بهبود سیستمهای پیشگیری و تشخیص بیماریها کمک کند.
- حمل و نقل: بیگ دیتا در حوزه حمل و نقل میتواند در بهبود ترافیک و مدیریت خطوط حمل و نقل عمومی، پیشبینی نیازمندیهای ترابری، بهینهسازی مسیرها و بهبود ایمنی رانندگی مورد استفاده قرار گیرد.
- مالی و بانکداری: Big Data در صنعت مالی و بانکداری میتواند در تحلیل رفتار بازار، تشخیص تقلب و سوء استفاده، مدلسازی ریسک، بهبود عملکرد سیستمهای مالی و بهبود تصمیمگیری مورد استفاده قرار گیرد.
- صنایع تولیدی: استفاده از کلان داده در صنایع مختلف میتواند در بهبود عملکرد خطوط تولید، پیشبینی نیازمندیهای بازار، بهینهسازی زمان تولید و بهبود کیفیت محصولات کمک کند.
- پژوهشهای علمی: بیگ دیتا در علم و پژوهش نقش بسیار مهمی دارد. امکان دسترسی به حجم عظیمی از دادهها و امکانات تحلیلی پیشرفته، به محققان اجازه میدهد تا الگوها، روابط و دانش جدید را کشف کنند. از جمله کاربردهای Big Data در این زمینه میتوان به پیشبینی زمانبندی وقوع پدیدهها، شبیهسازی مدلهای پیچیده، تحلیل شبکههای اجتماعی و بهبود فرآیند تصمیمگیری در زمینههای علمی اشاره کرد.
- خدمات مشتریان: شرکتها میتوانند با استفاده از کلان داده، رفتار مشتریان را تحلیل کرده و الگوهای خرید و ترجیحات آنها را درک کنند. این اطلاعات میتواند در طراحی استراتژیهای بهبود خدمات، بهبود تجربه مشتری و پیشبینی نیازمندیهای آینده کمک کند.
- امنیت و جرمشناسی: با استفاده از کلان داده، میتوان رفتارها و الگوهای مشکوک را شناسایی کرده و فعالیتهای جنایی را پیشگیری کرد. از این طریق، امنیت سایبری، تشخیص تقلب، جرمشناسی دیجیتال و مدیریت ریسک در حوزه امنیت تقویت میشود.
- بلاکچین: کلان داده در حوزه بلاکچین نیز کاربردهای متنوعی دارد مانند تحلیل و پیشبینی رفتار شبکه، تشخیص تقلب، بهینهسازی عملکرد، بهبود امنیت، ردیابی و تأیید منشا تراکنشها، پیشبینی و تحلیل بازار و بهبود تسهیلات ارتباطی.
چرا حریم خصوصی در بیگ دیتا اهمیت دارد؟
هیچ کس دوست ندارد اطلاعات خصوصی از زندگی شخصیاش بدون اطلاع خودش در دسترس دیگران قرار بگیرد؛ به خصوص که نداند این «دیگران» دقیقاً چه کسانی هستند. اما باید متوجه این نکته باشید که واقعاً هیچ چیز کاملاً رایگانی وجود ندارد. اگر یک اپلیکیشن برای ورزش کردن از پلی استور دانلود میکنید یا به همکارتان از طریق Gmail یک ایمیل کاری ارسال میکنید، در واقع از سرویسهایی استفاده میکنید که در ازای ارائه خدمات، از شما اطلاعات دریافت میکنند.
اما داستان به همینجا ختم نمیشود. مشکل اصلی آنجاست که اگر شما اطلاعات خود را با یک سرویس مانند فیس بوک یا گوگل به اشتراک بگذارید، هیچ تضمینی وجود ندارد این سرویسها اطلاعات را بین خود به اشتراک نگذارند. همین چند روز پیش قیمت یک کفش را در گوگل جستوجو نکردید و امروز تبلیغی مشابه با آن را در اینستاگرام ببینید؟
چطور بیگ دیتا حریم خصوصی را به خطر میاندازد؟
فرض کنید در یک اتاق در بسته و کاملاً امن (یا حداقل شما اینطور فکر میکنید) با دوست خود دربارهی مشکلی که با هندزفری موبایلتان دارید، صحبت میکنید. درست فردای همین روز موقع خواندن یک مقاله در یک سایت، تبلیغ یک هندزفری را میبینید. چقدر برایتان این مسئله جالب است؟ چقدر احتمال دارد همان موقع شروع به خرید کنید؟ احتمالاً بسیار زیاد.
ممکن است بگویید خب این ویژگی نیازهای ما را برطرف میکند. اما مشکل ریشهی عمیقتری دارد؛ در صورتی که اینطور به آن نگاه کنید:
- اگر اطلاعات شما به دیگران فروخته شود، عملاً حریم خصوصی شماست که در معرض فروش گذاشته شده است. حتی ممکن است این اطلاعات به دست هکرها یا سارقانی بیفتد که از آن علیه شما و دیگران سوء استفاده کنند. دقت کنید که تامین امنیت کلان دادهها آسان و ارزان نیست.
- اگر نسبت به فروش حریم خصوصی خود به شرکتهای دیگر حساسیت نداشته باشید، کم کم این حساسیت را نسبت به نداشتن حریم خصوصی در برابر دیگران و حتی دولتها از دست خواهید داد.
- رفتارهای آینده شما میتواند جهتدهی شود. برای مثال صفحه سرچ یوتیوب یا اکسپلور اینستاگرام خودتان را ببینید. چقدر این محتواها تصور شما از دنیا را شکل میدهند؟ چقدر این تصور به دنیای واقعی نزدیک است؟
خطر همین جاست! اگر حجم اطلاعاتی که یک سرویس از ما دارد بیش از حد باشد، آن سرویسدهنده میتواند بسیاری از رفتارهای مالی و اجتماعی ما را شکل دهد. این یعنی عملاً سبک زندگی کاربران در اختیار این دست سرویسها قرار میگیرد. به همین دلیل بسیاری از فعالان حوزه حریم خصوصی، با حریم خصوصی در بیگ دیتا (Big Data) به عنوان یک خطر مهم مخالفت میکنند. بلاکچین یک راه حل در برابر حریم خصوصی در بیگ دیتا برای ارائه خدمات به کاربران بدون تهدید حریم خصوصی آنها است.
ویژگیهای حریم خصوصی در بیگ دیتا
پیش از این که به سراغ راه حل بلاکچین برویم، ابتدا به چند ویژگی حریم خصوصی در بیگ دیتا باید اشاره کنیم تا چالش این ابزار در حریم خصوصی روشنتر شود.
تمرکز دادهها
دادهها در بیگ دیتا به صورت متمرکز و توسط یک یا چند سرویس خاص مانند گوگل، فیسبوک یا حتی آمازون و والمارت جمعآوری میشوند. مدیریت و ذخیرهسازی این دیتاها برعهدهی همین سرویسها است.
تنوع دادهها
دادههای ورودی به پایگاه اطلاعاتی، اشکال مختلفی دارند. از تصاویر گرفته تا رفتار کاربر در یک سایت یا محتوای متنی. این دادهها در مجموع کالان دادهها را میسازند.
تحلیل آسان و سریع اطلاعات
اطلاعات در بیگ دیتاها به صورت مستقیم در استراتژیهای خرد و کلان استفاده میشوند. بنابراین به نوعی جمعآوری میشوند که برای تجزیه و تحلیل بهتر، آسانتر و در نتیجه برای تصمیمگیری سریعتر مناسب باشند. بنابراین تلاش میشود که برای تحلیل این دادهها از ابزارهای بصری مانند نمودارها و جدولها بیشتر استفاده شود.
امکان رشد دادههای غلط در حجم دادههای عظیم
زمانی که حجم دادهها بسیار رشد کند، امکان غلط بودن آنها نیز به صورت مداوم بیشتر میشود. حریم خصوصی در بیگ دیتاها با خطر بزرگ رشد دادههای غلط نیز مواجه هستند. یکی از تلاشهای این نوع سیستمها، جلوگیری از شکلگیری این دادهها است.
قابلیت آپدیت
اطلاعات در کلان دادهها مداوم در حال رشد و تغییر هستند. ابزارهای تحلیل حریم خصوصی در Big Data میتوانند خود را با این تغییرات سازگار کنند. اما هزینه نگهداری این اطلاعات بسیار بالا است و نیاز به فضای ذخیرهسازی عظیمی دارد. بسیاری از این پایگاههای داده فقط برای مدت کوتاهی معتبر هستند و بعد ارزش خود را از دست میدهند. بنابراین بهروزرسانی آنها و مدیریت این دادهها یک چالش جدی در این مسیر است.
کاربردهای کلان داده چیست؟
کلان داده کاربردهای متنوعی در حوزههای مختلف زندگی بشر دارد. در حوزه بازاریابی و کسبوکار کلان داده به سازمانها کمک میکنند که رفتار مشتریان را درک و اهداف خود را بر اساس آن تعیین کنند. به دنبال آن فرایندهای تولید و کسبوکار هم بهبود پیدا میکنند.
کاربرد دادهها فقط برای شرکتها، سازمانهای بزرگ و دولتها نیست. امروز بسیاری از ما به صورت روزمره از کلاندادهها استفاده میکنیم. وسایلی مانند ساعتهای هوشمند یا بازوبندهای اندازهگیری کالری، با کمک کلان داده میزان فعالیت ما یا الگوی خوابمان را بررسی و اندازهگیری میکنند.
در دنیای امروز کلاندادهها در ارتقاء دانش و تحقیقات علمی و بسیاری از حوزهها مانند سلامت و بهداشت عمومی، کنترل ترافیک در شهرها، برقراری امنیت و اجرای قانون، بهبود عملکرد ماشینها و دستگاهها، بانکداری و خدمات مالی کاربرد دارند.
در پایان این مطلب مثالهای زیادی از کلان داده در حوزههای محتلف زندگی و کسبوکار ارائه خواهیم داد.
اوراکل و تفاوت آن با بیگ دیتا
اوراکلها یکی از اصلیترین پایههای فناوری بلاکچین هستند که به صورت اختصاصی، مسئولیت دسترسی به دادههای خارج از سیستم شبکه بلاکچین را فراهم میکنند. فناوری بلاکچین و همچنین قراردادهای هوشمند که در این شبکههای بلاکچین غیرمتمرکز (مثل اتریوم) وجود دارند، قادر نیستند که به خودی خود به دادههای بیرون از شبکه بلاکچین دسترسی داشته باشند. در این شرایط است که اوراکل ها میتواند نقش یک شخص ثالث را برای شبکه بلاکچین ایفا کند تا بتوان با استفاده از قابلیتهای آن به دادهها و دیتاهای خارج از شبکه دست یافت.
نکته مهمی که در این میان نهفته شده، این است که اوراکل به عنوان یک منبع داده یا Big Data محسوب نمیشود و باید آن را به عنوان لایهای برای جستوجو و ارسال منابع دادههای خارج از بلاکچین تعریف کرد. به عبارت سادهتر، یک اوراکل وظیفه دارد تا در جستوجوی دیتاها باشد تا پس از تایید و احراز هویت (که مطابق خواستههای شبکه بلاکچین است)، آن را به سوی مقصدی مشخص ارسال کند. این در حالی است که مشخصاً در بحث مربوط به حریم خصوصی در بیگ دیتا، وقتی از کلان داده صحبت میشود، منظور مجموعهای بزرگ و پیچیدهتری از دادهها هستند که هم میتوانند ساختارمند و هم فاقد ساختار باشند.
ویژگیهای بلاکچین و تاثیر آنها روی بیگ دیتا
بلاکچین ویژگیهایی دارد که آن را از حریم خصوصی در بیگ دیتا بسیار متمایز میکند:
غیرمتمرکز بودن
برخلاف حریم خصوصی در بیگ دیتا که تمام اطلاعات کاربران در یک سرور مرکزی و توسط یک یا چند سازمان خاص نگهداری میشوند، بلاکچین یک دفتر کل توزیع شده بین تمامی کاربران و مشارکت کنندگان در شبکه است.
پس برای ثبت اطلاعات یا تغییرات جدید در شبکهی بلاکچین، باید هم اکثر مشارکت کنندگان از آن اطلاع داشته باشند و هم آن را تایید کنند.
مدیریت آسان حجم بالای داده
یکی از مشکلات اصلی کلان دادهها، محل ذخیره و نگهداری آنها است. اگر زمانی به هر دلیلی سرورهای گوگل، فیسبوک یا والمارت آسیب ببینند، تمام این اطلاعات از بین خواهد رفت. اما سیستم توزیع در بلاکچین مدیریت و ذخیره این اطلاعات را آسان میکند. این یعنی اگر یک کاربر از شبکه خارج شد، خدشهای به اصل اطلاعات وارد نمیشود.
رمزنگاری
تکنولوژی بلاکچین معمولاً با رمزنگاری کردن داده، حجم آن را کاهش میدهد و ایجاد اختلال و دزدی در اطلاعات را سخت و غیرممکن میکند. رمزنگاری شدن دادهها باعث میشود امکان دسترسی به اطلاعات و ایجاد تغییر در آن بدون داشتن کلید رمز ناممکن شود.
راه حل بلاکچین برای محافظت از حریم خصوصی کاربران چیست؟
نحوه ذخیرهسازی اطلاعات در بلاکچین به شکل رمزنگاری شده و البته شفاف است. تمام اعضای یک شبکه میتوانند اطلاعات را به یک اندازه در اختیار داشته باشند. البته برخی از بلاکچینها کاملاً حریم خصوصی محور هستند و اطلاعات کاربران را کاملاً به صورت محرمانه ذخیره میکنند. در این بلاکچینها نیز همه به یک اندازه از جزئیات شبکه بی اطلاعاند.
شبکههای بلاکچینی، مانند ترون، اتریوم یا کاردانو که علاوه بر کوین و ارائه سیستم مالی، کاربردهای دیگری هم برای اجرای قراردادهای هوشمند دارند، تلاش میکنند تا حریم خصوصی کاربران حفظ کنند. کاربران با استفاده از یک بلاکچین تا میزانی که قصد دارند اطلاعات خود را به اشتراک میگذارند و به محض خروج از شبکه، اطلاعات خود را نیز از آن خارج میکنند. این ویژگی بلاکچین را به یک تکنولوژی حریم خصوصی محور تبدیل کرده است.
آیا بلاکچین به کمک ما میآید؟
در ۱۳ ماه می ۲۰۲۰ میلادی، خبرگزاری بلومبرگ خبری منتشر کرد که نشان میداد سرویس FBI آمریکا از اطلاعات گوگل برای اهداف مختلف خود استفاده میکند. حریم خصوصی، بیش از آنچه که تصور کنید اهمیت دارد. این که به حریم خصوصی خود در فضای اینترنت بی توجه باشید، مانند این است که در خانهای شیشهای زندگی کنید و تمام کسانی که از کنار خانهی شما میگذرند، از اتفاقات داخل خانه خبردار شوند.
حال این وضعیت را اینطور تصور کنید که یک یا چند شرکت میتوانند سبک لباس پوشیدن یا رفتارهای دیگر شما را نیز شکل دهند. با این تصور دیگر گوگل یا سایر سرویسهایی که هنوز شگفتانگیز هستند، شاید مانند قبل محبوب نباشند.
جمعبندی
بیگ دیتا یا کلان داده به حجم زیادی از اطلاعات گفته می شود که سریع و پیچیده هستند. تنوع این دادهها بسیار زیاد است و می توانید آنها را از منابع مختلف جمعآوری کنید. بیگ دیتا در حوزههای مختلف از جمله آموزش، پزشکی، تبلیغات، محتوای ویدیویی، دیجیتال مارکتینگ و… کاربردهای زیادی دارد. شما به چهار روش توصیفی، تجویزی، پیشبینی و تشخیصی میتوانید بیگ دیتا را تحلیل کنید.