ডেটা অ্যানালিসিস

কাজল সেনগুপ্ত

 

চার নম্বর প্ল্যাটফর্মে ২৫ মার্চ-এর লোকাল ট্রেনে, সব্যসাচী দাস লিখেছিলেন, চামাথ পালিহাপিটিয়ার কথা।

“আপনি প্রোগ্রামড হচ্ছেন। আর আপনি ব্যাপারটা ভেবে উঠতেও পারছেন না।”

যে সাধারণ ভোটার আজ জানছেন, তিনি ম্যানিপুলেটেড হয়েছেন, ভোটটা দেওয়ার সময় তিনি জানতেন ভোটটা তো তিনিই দিলেন। এখন জানছেন না, তাঁকে দিয়ে ভোটটা দেওয়ানো হয়েছে। এটাই সফল প্রোগ্রামিং। আমি যদি বুঝেই যাই অমুকে আমাকে ম্যানিপুলেট করছে, তাহলে সেটা বোকা ম্যানিপুলেশন।

এই আলোচনাটার সূত্রে, স্বর্ণেন্দু (শীল) একটা পয়েন্ট ধরিয়ে দিয়েছিলেন।

আপনি কি এর আগে, অমুক ঠাকুরের ছবি সার্কুলেট করেছেন, যেটা করলে কিছুদিনের মধ্যেই ভালো খবর পাবেন, আর না করলে আপনার ওলাউঠোর থেকেও খারাপ কিছু হবে? তাহলে খুব সম্ভব, মুসলমানদের বেশি বাচ্চা হয় বলে তারা অচিরেই সংখ্যাগুরু হয়ে উঠবে, এই মেসেজটাও আপনি সার্কুলেট করবেন। এই ধরণের বাণীপ্রচারের ক্ষেত্রে আপনি একজন ভালো কেরিয়ার।

ওই মেসেজটাকে পাত্তা দেননি? কিন্তু একটি ফুটফুটে শিশু জটিল কোনও রোগে আক্রান্ত। আপনি মেসেজটা দশজনকে ফরওয়ার্ড করেছেন। কারণ আপনি যত বেশি ফরওয়ার্ড করবেন, ফেসবুক বা হোয়াটসঅ্যাপ তত বেশি কন্ট্রিবিউট করবে। তাহলে সম্ভবতঃ, একটি হিন্দু বাচ্চাকে কত নির্মমভাবে মারা হয়েছে, এই মর্মে কোনও খবর আপনি বেশি শেয়ার করবেন।

ডেটা আপনার ভালনারেবিলিটির জায়গা চিহ্নিত করে। আপনার দুর্বলতা। কোন ভাবে কোথায় টোকা মারলে আপনি কতটা কোঁকান!

স্বর্ণেন্দু যেমন বলেছেন, ‘আপনার সরকারবিরোধী কথা বলার সম্ভাবনা আছে কিনা?”, “আপনি সামাজিক ইস্যুতে মতামতের ব্যাপারে রাডিক্যাল না conformist”, “আপনাকে কী ধরণের মিম বা লেখা বা লিঙ্ক পাঠালে আপনি সেইটা সহজে বিশ্বাস করে নেবেন”। ডেটা সায়েন্স ইতিমধ্যেই ইত্যাদি তথ্য বার করার জায়গায় পৌঁছে গেছে আর ম্যানিপুলেশন সম্ভবও হচ্ছে কতকটা সেইজন্যে।

কেমব্রিজ অ্যানালিটিকা নিয়ে, সাম্প্রতিক যে হইচই, সেখানে ঠিক কী কী হয়েছে? এক কথায়, জনসাধারণের একটা বড় অংশের মতামতকে ম্যানিপুলেট করা হয়েছে। হ্যাঁ, যন্ত্রের সাহায্যে। এরকম কি এই প্রথম হল? না। হয়ে এসেছে। কারণ প্রযুক্তি যেহেতু প্রথমে ক্ষমতাধরের হাতে আসে বা আরও নির্দিষ্ট করে বললে, ক্ষমতার প্রয়োজনে তৈরি হয়, তাই তা ক্ষমতার প্রয়োজন মেটায়। ঐতিহাসিকভাবে, সমাজের বিকাশের স্তর, এবং বিকাশের সেই স্তরে যে প্রযুক্তিগত উন্নতি প্রাথমিকভাবে ব্যবহার্য-ব্যবহারকারীর যে সম্পর্ক তৈরি করে, তা উল্টে যাওয়াও খুব অসম্ভব নয়। এরকমও কি আগে হয়নি? ক্ষমতা যন্ত্রকে বাগে আনতে না পারলে, তাকে বাতিল করেনি? করেছে তো!

পার্থক্য যেটা হয়েছে, সেটা, আগে আপনার মতামতকে প্রভাবিত করার চেষ্টা করা হত। আর এখন আপনার অজান্তে আপনার মতামত তৈরি করে দেওয়া হয়েছে।

ডেটা সায়েন্স আমাদের কাজের জায়গা। মানে, ওটা আমরা শিখেছি, ওটা করে আমাদের রোজগার করতে হয়। ডেটা বলছি, কারণ সংখ্যা বা তথ্য এই দুটো বাংলা তর্জমার কোনওটাই ডেটা ব্যাপারটার সামগ্রিক অভিঘাতকে ধরে না।

প্রথমত, এমনটা কি হয়? হতে পারে? হ্যাঁ, ভীষণ পারে, বেজায় পারে। এটা কি আজ নতুন করে জানা গেল? আজ্ঞে না। জনপ্রতিনিধিরা, পার্লামেন্টেরিয়ানরা, মন্ত্রীরা, নিজেদের ইমেজ বিল্ডিং-এর জন্য ডেটা সায়েন্সের ব্যবহার করছেন এটা কি নতুন কিছু? একদমই না। আমাদেরই কোনও না কোনও সহকর্মী এগুলো করছেন। এটা যিনি নতুন জানছেন, এবং কেমব্রিজ অ্যানালিটিকা নিয়ে চমকাচ্ছেন, তিনি, তাঁরা খবরগুলো নিয়মিত রাখেন না।

তবে আশার ব্যাপার এদেশে সম্ভবত একটা বড় অংশ এখনও আছেন, যাঁরা এই যন্ত্র ও যান্ত্রিকতার বাইরে। তবে তাঁদেরকে ঠেলেঠুলে ঢুকিয়ে নেওয়ার যে প্রক্রিয়া তৈরি হচ্ছে, সেটা কতদিন থাকবে, বলা মুশকিল। আজকে যাঁরা ফেসবুক আর কেমব্রিজ অ্যানালিটিকা নিয়ে চমকাচ্ছেন, এঁদের সকলেই কি ফ্রীবেসিক্স-এর বিরোধিতা করেছিলেন? ডেটা নেই, কিন্তু আমাদের নিজেদের অভিজ্ঞতাকে যদি এক্সট্রাপোলেট করা যায়, তাহলে উত্তরটা না। একটা বড়সড় না।

ফ্রেন্ডলিস্টে থাকা ওয়াকিবহাল কেউ যখন বারবার বলছে, ওরে, তোকে কার মতন দেখতে, আগের জন্মে তুই কী ছিলি, তুই কীভাবে মরবি এসবের চক্করে ঢুকিস না। ওসব খুব সুবিধের ব্যাপার না। তখন কতজন কান দিয়েছেন সেসবে?

ডেটা দিয়ে কী কী করা সম্ভব? ঠিকঠাক ডেটা থাকলে, কোন পোশাকে, কোন মেক-আপ-এ, কী ধরণের অ্যাপিয়ারেন্স-এ জনসমক্ষে হাজির হবেন, কোন পিচে শুরু করলে ভালো, মধ্যে একবার থামবেন কি, থামলে কোন যুক্তিতে, সেই যুক্তির যৌক্তিকতা তৈরির জন্য ঠিক কোন সময়ে বক্তৃতা শুরু করলে ভালো, জনসাধারণের উদ্দেশ্য একটু সময় দিয়ে হাত নাড়ানোর প্রতিক্রিয়া বেশি ভালো নাকি, ব্যস্তভাবে মঞ্চ থেকে নেমে আসা, স্থান-কাল-পাত্র ভেদে কবে কোনটা বেশি অনুকূল প্রতিক্রিয়া তৈরি করতে পারে — এইরকম সব সিদ্ধান্ত চাইলে আজ ডেটা-ড্রিভন হতে পারে।

বরং এগুলো যখন খবরে বেরোয়, অমুকের নির্বাচন জেতার পেছনে মূল যন্ত্রী তমুক তখন আমাদের কী মনে হয়? ঠিক কী করেছেন ওই কাণ্ডারী?

অমুক নেতা ভোটটা ভালো করান। ভোটার লিস্ট ধরে একদম বুথ লেভেল পর্যন্ত ভোটের হিসেব করতে পারেন। এই কথাগুলো কী এমন অচেনা?

যন্ত্র, প্রযুক্তি, শুধু এই প্রক্রিয়াগুলোকে সহজ করেছে।

আজকের সময় পর্যন্ত ডেটা সায়েন্সের এগোনোটা দেখুন। তাহলেই ব্যাপারটা পরিষ্কার হবে। প্রথমত, ডেটা ব্যাপারটা, তার প্রয়োজনীয়তা আমরা চিনতে শিখলাম কীভাবে? এমনিতে যে কোনও নতুন প্রযুক্তি, যন্ত্র, যে কোনও আবিষ্কার, সবথেকে বেশি হয় মিলিটারির প্রয়োজনে নয় মার্কেটের প্রয়োজনে। কারণ গবেষণার প্রয়োজনে বিনিয়োগ সবথেকে বেশি হয় এইগুলোতে। এর বাইরে নিখাদ অ্যাকাডেমিয়া থেকে কিছু আসে, কিন্তু সেগুলো বেশ random, হঠাৎ ঘটে যাওয়া কিছু ব্যতিক্রম।

ম্যানহাটন প্রজেক্ট বা ইন্টারনেটের শুরু সবই সেরকম। মিলিটারি রিক্যোয়ারমেন্ট।

আর মিলিটারি লেনদেন সব শেষ হওয়ার পরে, দ্বিতীয় বিশ্বযুদ্ধ শেষ হওয়ার পরে, মার্চেন্ট ব্যাঙ্কিং থেকে যখন রিটেল ব্যাঙ্কিং-এর দিকে গুটিগুটি এগোনো শুরু হল, ১৯৫৬ সাল নাগাদ তৈরি হল ফাইকো (ফেয়ার আইসাক কর্পোরেশন)। রিটেল কাস্টোমারদের তথ্যভাণ্ডার। ১৯৫৮ নাগাদ এসে গেল ফাইকো ক্রেডিট স্কোরিং। আর ১৯৬৬ নাগাদ স্যাস-এর প্রথম আভাস দেখা গেল। অ্যানালিটিক্সের কাজের জন্য সেই অর্থে প্রথম সফটওয়্যার। ধারণাটা পুরোপুরি কার্যকরী হতে কিছু সময় লাগল। ১৯৭২ নাগাদ। ৭০-এর দশকের অয়েল ক্রাইসিস ইত্যাদির মধ্যে আর ঢুকছি না। ১৯৮০-র মধ্যে কম্পিউটেশনের মাস স্কেল ইউজার ইন্টারফেসের যাবতীয় ডেভলেপমেন্ট হয়ে গেল। আর একটা মজার ব্যাপার হল, টোল ফ্রি টেলিফোন নম্বর ইন্ট্রোডিউসড হল। আর এল ডেটা ওয়্যারহাউস। এই সময়ে ডেটা সায়েন্স, প্রাথমিকভাবে দুটো কাজ করল।

প্রথম ধাপ ছিল, ডেসক্রিপশন। এই ধাপটা হচ্ছে কাস্টোমারকে চেনা, তার বিবরণ, প্রোফাইল তৈরি করা। কোনও কোল্যাটারাল ছাড়াই লোকে ধার নিতে পারছে, ব্যাঙ্ক ধার দিচ্ছে, কাকে দিচ্ছে? কী দেখে দিচ্ছে? কী কী হলে দেবে না? এরকম। তারপরের ধাপ ডায়াগনোসিস। কাকে দেওয়া যেতে পারে? কতটুকু? আর একজন যে খানিক আলাদা তার বেলা, কতটুকু? এরকম। এর মধ্যে ৯০-এর দশকে TCP/IP আসছে। ইন্টারনেট স্টেবিলাইজ করছে। বেশি বেশি ডেটা তাড়াতাড়ি যাতায়াত করতে পারছে। এতদিন ডেটা গ্যাদার করা, অ্যানালিসিস করা, রেজাল্ট পাওয়া এগুলোর মধ্যে একটা টাইম গ্যাপ ছিল। এবার ডেটার ভেলোসিটি বাড়তে শুরু করল। আমরা বিগ ডেটা চিনলাম। ডেটা গ্যাদার করে, অ্যানালিসিস-এর পরে রেজাল্ট ডেলিভার করাটা প্রায় রিয়েল টাইমে করা সম্ভব হল।

আশির দশকের শেষ দিক থেকেই BPO চলে এসেছে। যেখানে ডেটা লেভেলের স্ট্রাকচারড কিন্তু রিপিটিটিভ কাজগুলো নিশ্চিন্তে তৃতীয় বিশ্বের দেশ থেকে করিয়ে নেওয়া যাচ্ছে। এবার নব্বই দশকের শেষ নাগাদ KPO-র ধারণা শক্তিশালী হল। যেখানে, ডিসিশন মেকিং-এর জন্য গুরুত্বপূর্ণ কাজগুলোও আসতে আসতে সুতো ছাড়া হচ্ছে। তৃতীয় বিশ্ব আর শুধু প্রথম বিশ্বের কেরানি নয়, খুব সীমাবদ্ধ কিছু ক্ষেত্রে খানিক সমকক্ষও বটে। টাইমলাইনটা খেয়াল করলে দেখবেন, www স্টেবিলাইজ করছে যখন, তখন একের পরে এক ইনডেক্সিং ও সার্চিং-এর জন্য ইঞ্জিন তৈরি হচ্ছে। কোডিং, প্ল্যাটফর্ম ভেদে কোনওটা বেশি জনপ্রিয় হচ্ছে কোনওটা কম। এরই ধারাবাহিকতায় গুগুল এল। আমরা তৃতীয় বিশ্ব যেহেতু প্রথম বিশ্বের ফুটনোট লিখতে বেশি অভ্যস্ত, বেশি স্বচ্ছন্দ, তাই একটা গ্যারাজ আর কোডিং-এর বিদ্যায়, স্টার্ট আপ নকল করছি মোটামুটি ১৫-২০ বছরের টাইমল্যাগে। আগে ব্যান্ড করতাম এখন স্টার্ট আপ করছি। গানের বেলাতেও ব্যাপারটা শেখার চেষ্টা কম ছিল, এই টেক স্টার্ট আপের বেলাতেও, ঐতিহাসিক প্রক্রিয়া এবং নিজেদের প্রয়োজনীয়তা আমলই দেওয়া হল না। ফলে কী হয়? আমরা যখন জলাভূমি নিয়ে কাজ করি, তখন দেখি, দৈনিক কতটা নোংরা জল, কোথা দিয়ে যাচ্ছে, কোথায় ঢুকছে, যেমন কথা ছিল পরিশ্রুত হওয়ার হচ্ছে কী, এগুলোর কোনও সংখ্যা নেই। উৎপাদনশীলতার তথ্য আপনি ব্লক লেভেলের নিচে পাবেন না। ইরিগেশন কভারেজ-এর সঙ্গে সাবসিসটেন্স ক্রপিং বা মার্কেটেবেল সারপ্লাস প্রোডাকশনকে ম্যাপ করতে পারবেন না। এগুলো দরকার, কারণ আমাদের এখানে এই প্রয়োজনীয়তাগুলো এখনও ফুরোয়নি। অথচ এগুলোর জন্য কে পয়সা দেবে জানা নেই। তাহলে ওই গ্যারাজ স্পেস আর স্টার্ট আপের ফুটনোট ছাড়া হাতে আর কিছু থাকেও না। তাই ই-কমার্সের স্ট্যান্ডার্ডাইজড কিছু প্রযুক্তি ব্যবহার করে, হরেক মাল বেচাটাই ইনোভেশন বেস্‌ড স্টার্ট আপ।

যাই হোক, ডায়াগনোসিসের স্তর পেরিয়ে ডেটা সায়েন্স এবার এল প্রেডিকশনের স্তরে। ওকে কি এই প্রোডাক্টটা নিতে বলা যায়? তার জন্য বোধহয় এরকম অফারিংটা ঠিক হবে!

ততদিনে মেশিন লার্নিং ব্যাপারটা বেশ খানিকটা এগিয়েছে। সেল্ফ লার্নিং অ্যালগরিদম, স্যাম্পলিং ব্যাপারটাকেই প্রায় অবান্তর করে তুলেছে। এখন গোটা ডেটা ইউনিভার্সটাকেই আমি একসঙ্গে অ্যাড্রেস করতে পারি। তার সঙ্গে সোশ্যাল নেটওয়ার্কিং-এর হাত ধরে ঘটেছে ব্যাপক কালচারাল শিফট। আগে যেগুলো একান্ত ব্যক্তিগত ছিল সেগুলো ব্যক্তিগত পরিসর থেকে বেরিয়ে এসেছে। আমাদের ভালো লাগা খারাপ লাগা, রাগ দুঃখ এগুলো সবই খুব পাবলিক ইনফর্মেশন। আর্টিফিশিয়াল ইন্টেলিজেন্স, ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং, টেক্সট মাইনিং সম্ভব করে তুলেছে। ফলে আমার রোজকার দেওয়া স্টেটাস, কমেন্টস, লাইকস এগুলোও এখন ডেটা। ডায়েরি আর ব্যক্তিগত নয়, বিজ্ঞাপনের ক্যাচলাইন মাফিক, “মাই লাইফ ইজ এন ওপেন বুক”। এর মধ্যে প্রিটেনশন কি নেই? আছে, কিন্তু সেটাকেও ছেঁকে ফেলা সম্ভব, বা ডেটাকে এমনভাবে দেখা সম্ভব, যে ইনি নিজের ভালো থাকার জানান দিতে এটা এটা করেছেন। এরপরে তাঁকে দিয়ে কোনও একটা নির্দিষ্ট জিনিস ভাবানো বা ভাবতে দেখানো আর কতটা কঠিন হতে পারে?

 

About চার নম্বর প্ল্যাটফর্ম 4885 Articles
ইন্টারনেটের নতুন কাগজ

Be the first to comment

আপনার মতামত...