لینک دانلود فایل-بررسی و مطالعه کامل داده کاوی و داده کاوی با SQL SERVER2005 و پیاده سازی آن-

نمونه ی دیگری از مجموعه فایل ها با عنوان .بررسی و مطالعه کامل داده کاوی و داده کاوی با SQL SERVER2005 و پیاده سازی آن. آماده دریافت می باشد برای دانلود به ادامه مطلب مراجعه نمایید./بررسی و مطالعه کامل داده کاوی و داده کاوی با SQL SERVER2005 و پیاده سازی آن/بررسی و مطالعه کامل داده کاوی و داده کاوی با SQL SERVER2005 و پیاده سازی آن/30015368/pc

فرمت فایل: word



تعداد صفحات: 215







اطلاعات باعث قدرت است و دانش قدرتمند تر. اکنون بيشتر از 80 درصد از دانش ما به صورت متن، مستندات و ديگر صورت هاي رسانه اي نظير ويديو و صدا نگهداري مي شود. اگر از منظر علوم کامپيوتري به اين مستندات نگاه کنيم همه ي آنها به طبيعتي غير ساختيافته وابسته اند. يک فرد براي دريافت دانش از اطلاعات يک متن، بايستي ابتدا آنرا درک کند و سپس آنرا پردازش کند تا بفهمد چه معاني و مفاهيمي در آن موجود است، چه ارتباطي ميان مفاهيم وجود دارد و از ميان اين مفاهيم کدام جديد است و کدام قديمي. با اين حال در اين عصر تکنولوژي، ما معتقديم که هر چيزي بايد بتواند اتوماتيک انجام شود حتي اگر اين کار " درک معني متن" باشد. اين تنها يکي از نامهايي است که شما براي اين نوع از پردازش مي يابيد. "متن کاوي"، "کاوش داده هاي متني" و نيز نام معروف "کشف دانش در متن" يا KDT، از نامهاي بيشتر مورد قبول دراين زمينه هستند.



افرادي که داراي پيشينه کار در زمينه ي داده کاوي بودند مي خواستند که همان مفاهيم و روشهاي موجود در داده کاوي را بر متون اعمال کنند و تعاريف شان نيز منطبق بر همين زمينه بود. اما کساني که از جامعه ي زبان دانان محاسباتي آمده بودند، قصد داشتند که اين توانايي را به کامپيوتر بدهند که بتوانند متن را بفهمند و اين غايت چيزي است که از متن کاوي مورد انتظار است.



در دنياي کنوني اين کمبود اطلاعات نيست که مسئله است بلکه کمبود دانشي است که از اين اطلاعات مي توان حاصل کرد. ميليونها صفحه ي وب، ميليون ها کلمه در کتابخانه هاي ديجيتال و هزاران صفحه اطلاعات در هر شرکت تنها چند دست از اين منابع اطلاعاتي هستند. اما نمي توان به طور مشخص منبعي از دانش را در اين بين معرفي کرد. دانش خلاصه ي اطلاعات است و نيز نتيجه گيري و حاصل فکر و تحليل بر روي اطلاعات.



داده کاوي، يک روش بسيار کاراست براي کشف اطلاعات از داده هاي ساختيافته اي که در جداول نگهداري مي شوند. داده کاوي، الگوها را از تراکنش ها ، استخراج مي کند، داده را گروه بندي مي کند و نيز آنرا دسته بندي مي کند. بوسيله ي داده کاوي مي توانيم پي به



وجود روابطي ميان اقلام داده اي که ديتابيس را پر کرده اند ببريم. در عين حال ما با داده کاوي مشکلي داريم و آن عدم وجود عاميت در کاربرد آن است. تعداد منابع داده اي ساخت يافته ي ما که به حد کافي بزرگ نيز باشند که مفاهيم داده کاوي قابل اعمال بر آنها باشد، چندان زياد نيستند. در واقع بيشتر دانش ما اگر به صورت غير ديجيتال نباشند، کاملاً غير ساختيافته اند. کتابخانه هاي ديجيتال، اخبار، کتابهاي الکترونيکي، بسياري از مدارک مالي، مقالات علمي و تقريباً هر چيزي که شما مي توانيد در داخل وب بيابيد، ساختياقته نيستند. در نتيجه ما نمي توانيم آموزه هاي داده کاوي را در مورد آنها به طور مستقيم استفاده کنيم.



با اين حال، سه روش اساسي در مواجهه با اين حجم وسيع از اطلاعات غير ساختيافته گسترده شده در جهان وجود دارد. بازيابي اطلاعات ، استخراج اطلاعات و کشف دانش در متن اين سه روش برخورد با اين مسئله هستند.



بازيابي اطلاعات اصولاً مرتبط است با بازيابي مستندات و مدارک. کار معمول در IR اينست که بسته به نياز مطرح شده از سوي کاربر، مرتبط ترين متون و مستندات و يا در واقع " بقچه ي کلمه" را ازميان ديگر مستندات يک مجموعه بيرون بکشد. اين يافتن دانش نيست بلکه تنها آن بقچه اي از کلمات را که به نظرش مرتبط تر به نياز اطلاعاتي جستجو گر است را به او تحويل مي دهد. اين روش به واقع هيچ دانشي و حتي هيچ اطلاعاتي را برايمان به ارمغان نمي آورد.



در نظر بگيريد که مؤسسه اي بسيار موفق داريد و از اينرو تعداد زيادي ايميل در روز دريافت مي کنيد. شما مي خواهيد سابقه ي اين ايميل ها را ثبت کنيد. چه کساني آنرا فرستاده اند،



تاريح فرستادن آن چه روزي بوده است، عنوان و متن آن چه بوده است و نظاير آن. اين با بيرون کشيدن اين اطلاعات از تک تک ايميل ها و پر کردن يک پایگاه داده از اين اطلاعات ميسر است. اين ممکن است با تعريف يا کشف يک قالب از داده هايي بدست آيد که با آن سروکارداريد. مثلا مي توان برنامه اي داشت که به طور اتوماتيک به دنبال کلمه ي title در سند بگردد و آنچه را که بعداز آن آمده به عنوان يک فيلد در پایگاه داده پرکند. هرچند يافتن اين قالب در داده هاي غير ساختيافته ي ديگر، ممکن است به هيچ وجه ساده نباشد. اما زماني که شما اين کار را به پايان برديد، با داده هاي کاملاً ساختيافته اي مواجه هستيد که از دل ايميل ها بيرون کشيده شده است. اما از سويي ديگر، اين تنها اطلاعات است که هنوز شما داريد؛ به اين معني که هيچ چيز جديدي از آنچه که داريد کشف نشده است و همان را که قبلاً مي دانستيد، هنوز هم مي دانيد.



دو مفهوم A و B را درنظر بگيريد که از مجموعه متون، استحصال شده اند. همچنين تصور کنيد که شما ارتباطي را نيز ميان اين دو مفهوم يافته ايد. مثلا اينکه "مناطق باراني" و " کشت برنج" داراي رابط اي به اين صورتند که کشت برنج به مناطق باراني نياز دارد. ( A >B). به علاوه فرض کنيد که مفهوم B نيز با مفهوم C، به همين شکل داراي ارتباط است؛ مثلاً "مناطق شمال کشور" و "مناطق باراني" اين رابطه را به هم دارند که مناطق شمال کشور "هستند" منطقه ي باراني(C ISA A). آنچه ما تاکنون داريم تنها اطلاعات است که استخراج شده است، اما سيستم مي تواندکمي باهوش تر باشد و بتواند بادرک اين دو گزاره نتيجه دهد که گزاره ي سومي نيز قابل طرح است به اين صورت که "مناطق شمال کشور" قابل " کشت برنج" است. اين مثال نشان مي دهد که کشف دانش به چه مي ماند. تاکيد در



اين مثال همانطور که مي بينيد بر نو بودن آن چيزي است که بدست آمده است. هرچند افرادي , معتقد بر تفاوت اندکی در IE و KDT ، هستند. آنها بر اين باورند که يافته هاي نسبتاً جديد نيز قابل پذيرشند به عنوان متن کاوي. نظير يافته هاي دسته بندي متون، خلاصه سازي متون و شبيه آن است. [15]



1 7 2 فرآيند متن کاوي





متن کاوي فرآيندي است که شامل فيلدهاي تکنولوژيکي فراواني است. بازيابي اطلاعات، داده کاوي و هوش مصنوعي و زبانشناسي محاسباتي همه فيلدهايي هستند که در اين زمينه، نقشي را دارا هستند. اما به طور کلي دو فاز اصلي در فرآيند متن کاوي وجود دارد که در شکل 1 18 نشان داده شده است.























شکل1 18: مراحل متن کاوی





اولين فاز پيش پردازش مستندات است. خروجي نخستين فاز مي تواند دو قالب مختلف داشته باشد؛ مبتني برسند و مبتني بر مفهوم . در اولين فرمت نمايش، آنچه براي ما مهم است، نحوه ي نمايش بهتري است براي مستندات. اين مي تواند، تبديل آنها به يك فرمت مياني و نيمه ساختيافته ، باشد يا بكار بردن يك ايندكس بر روي آن يا هر نوع نمايش ديگري كه كار كردن با مستند را كاراتر مي كند. در اين حال هر موجوديت در اين نمايش در نهايت باز هم يك مستند خواهد بود. در نوع دوم بهبود بخشي به نمايش مستند، مفاهيم و معاني موجود در سند و نيز ارتباط ميان آنها و هر نوع اطلاعات مفهومي ديگري كه قابل استخراج است، از متن استخراج مي شود. در اين نوع نمايش ديگر با مستندات به عنوان يك موجوديت مواجه نيستيم بلكه با مفاهيمي روبروييم كه از اين مستندات استخراج شده اند.



قدم بعدي استخراج دانش است از اين فرمهاي مياني نمايش مستندات. بسته به نحوه ي نمايش يك مستند، روال استخراج دانش براي يك مستند متفاوت است. نمايش مبتني بر مستند، براي گروه بندي، طبقه بندي، تصوير گري و نظاير آن استفاده مي شود، درحاليكه نمايش مبتني بر مفهوم براي يافتن روابط ميان مفاهيم ، ساختن اتوماتيك تزاروس و آنتولوژي (هستی شناسی) و نظاير آن بكار مي رود.[16]





1 7 3 کاربردهاي متن کاوي



تعاريف گسترده اي از متن کاوي در دست است، در نتيجه اين عجيب نيست که در باره ي کاربردهاي متن کاوي نيز عقايد گوناگوني وجود داشته باشد. از اينرو ما تلاش مي کنيم که تعدادي از کاربردهاي مورد قبول از اين روند را بررسي کنيم و سعي در تطابق اين کاربردها با تعاريف قبلي نداشته باشيم. [17]



• جستجو وبازيابي



• گروه بندي (دسته بندي بدون نظارت ) و طبقه بندي (دسته بندي با نظارت)



• خلاصه سازي



• استخراج روابط



• يافتن و تحليل ترند ها



• برچسب زدن نحوي



• ساخت اتوماتيک آنتولوژي و تزاروس



• ....



همانطور مي بيند بعضي از عناوين مشترک بين زمينه هايي چون بازيابي اطلاعات، هوش مصنوعي و نيز پردازش زبانهاي طبيعي است.



1 7 3 1 جستجو و بازيابي





روشهاي جديدي در رابطه با جستجو وبازيابي اطلاعات با درنظر گرفتن متن کاوي، قابل تصور است. همانطور که قبلاً گفته شد، بازيابي اطلاعات داراي اين هدف است که از ميان مجموعه اي از مدارک و متون، آنهايي را که مرتبط ترند به نياز اطلاعاتي کاربر، جدا کنند و به کاربر نشان دهند. بنابر اين هميشه شرايطي هست که کاربر نتواند به نياز اطلاعاتي خود، حتي از ميان نتايج دريافت شده، برسد. ممکن است در ميان 100 مدرک نياز به مطالعه باشد تا کاربر آنچه را که مي خواهد بدست آورد. در بسياري از شرايط داشتن سيستمي که بتواند جواب دقيق را برگرداند در بسياري از موارد ترجيح بيشتري دارد. اين نوع از سيستمهاي IR، به سيستمهاي پاسخگو به پرسش ، معروفند.



اگرچه اين نوع از سيستمهاي بازيابي اطلاعات بر اساس استفاده از گستره اي از تکنولوژي ها مانند NLP و يادگيري ماشين استوار است اما در نهايت آنچه در اين سيستمها، نقش اصلي را داراست، يک پايگاه دانش است که از طريق روشهاي مبتني بر NLP و يا روشهاي آماري بر روي مدارک موجود در مجموعه ساخته شده است. در استخراج اين روابط، مي توان از متن کاوي استفاده کرد. استخراج چنين روابطي در واقع يکي از کاربردهاي متن کاوي است.





1 7 3 2 گروه بندي و طبقه بندي داده





يکي از مواردي که مي تواند به کاربر در يافتن سريعتر اطلاعات مورد نظرش کمک کند، دسته بندي اطلاعات موجود است. اين دسته بندي به کاربر يک نگاه کلي از آنچه در مجموعه متون موجود است مي دهد. در ساختن اين دسته بندي دو روش کلي وجود دارد.



در روش اول شما کلاسهاي از پيش تعريف شده اي از مفاهيم داريد و تلاش مي کنيد که سيستمي داشته باشيد که مستندات و مدارک جديد را به يکي از اين کلاسها، نگاشت کند. اين کار درواقع به طبقه بندي داده ها ، معروف است. در سوي ديگر، گروه بندي داده ها، ساختن اين کلاسها به طور اتوماتيک است. در واقع با گروه بندي مدارک، قصد بر اين است که مشخص شود تمرکز مفاهيم در مجموعه ي متون، حول چه چيزهايي است. در واقع در اينجا ما کلاس از پيش تعريف شده اي نداريم. اين دو در واقع مفاهيمي هستند که از داده کاوي رايج در ديتابيسها، به قرض گرفته شده اند.





1 7 3 3 خلاصه سازي





منظور ما از خلاصه سازي، روند ساختن مجموعه اي مفاهيم پايه اي از متن است تنها در چند خط. در اين نوع از متن کاوي به نظر مي رسد که اطلاعات جديدي از متن به دست نیاید به اين دليل که خود نويسنده احتمالاً مي دانسته است که چه چيزي مي خواسته است بگويد و خلاصه ي نوشته هاي او، اطلاع جديدي را اضافه نمي کند.گرچه اين کار مي تواند بررسي محتويات مستندات را براي کاربران ساده تر کند و آنهارا در مسير رسيدن به آنچه نياز دارند، سرعت دهد.





1 7 3 4 روابط ميان مفاهيم





از جمله واقعيت هايي که مي توان از يک مجموعه متون دريافت، ارتباط و وابستگي بعضي مفاهيم است با مفاهيم ديگر. اين واقعيات به طور مثال مي تواند بگويد که پديدار شدن بعضي کلمات ممکن است که وابسته باشد به ظاهر شدن بعضي ديگر از کلمات. منظور اين است که هرگاه شما مجموعه ي اول کلمات را ببينيد، ما مي توانيم انتظار داشته باشيم که مجموعه ي دوم لغات را نيز ببينيم. اين مفهوم نيز از داده کاوي در ديتابيس به امانت گرفته شده است. ما در اين مورد در ادامه بيشتر صحبت خواهيم کرد.





1 7 3 5 يافتن و تحليل ترند ها



فرض کنيد که شما مدير يک کمپاني تجاري هستيد. مشخصاً شما بايستي همواره چشمي بر فعاليتهاي رقيبانتان داشته باشيد. اين مي تواند هر نوع اطلاعاتي باشد که شما از اخبار، معاملات بورس و يا از مستندات توليد شده توسط همان کمپاني رقيب گرفته ايد.



اگرچه در حال حاضر که اطلاعات به طور فزآينده اي در حال افزايش است، مديريت تمامي اين منابع داده اي قطعاً تنها به کمک چشمانتان ممکن نيست. متن کاوي به شما اين اجازه را مي دهد که به طور اتوماتيک ترندها و تغييرات جديد را بيابيد. در واقع آنچه اصولاً بايد از متن کاوي انتظار برود اينست که به شما بگويد چه اخباري در ميان گستره اي از اخبار به آنچه مي خواهيد مرتبط است و در اين ميان کدام خبر جديداست، چه پيشرفتهايي در زمينه ي کاري شما صورت مي گيرد و علايق و ترندهاي فعلي چگونه است و با چه روندي تغيير مي کند. با استفاده از اين اطلاعات، مدير تنها از اطلاعات کشف شده براي بررسي وضعيت رقيب مي تواند سود جويد.



1 7 3 5 برچسب زدن نحوي (POS)





اگرچه تعداد زيادي معتقد به اين نيستند که اينکار جزئي از متن کاوي است ولي براي مثال سيستمي به نام GATE در دانشگاه شفيلد، در يک کتابخانه ي ديجيتال به اين قصد جاگذاري شده است. GATE شامل ابزاراتي است براي برچسب زدن بر جملات. براي مثال اين سيستم مي تواند در داخل يک متن، نام موقعيتهاي جغرافيايي، نام اشخاص و چيزهايي شبيه اينرا بيابد. به اين خاطر اين سيستم بيشتر شامل استخراج اطلاعات است تا استخراج دانش. در عين حال، POS اغلب نقش بزرگي را در پردازش زبانهاي طبيعي بازي مي کند. در حقيقت اين اولين قدم در پردازش زبان طبيعي است و پردازش زبان طبيعي يکي از پايه هاي متن کاوي است.[18]





1 6 2 7 ايجاد تزاروس و آنتولوژي به صورت اتوماتيک



مي توان تزاروس و آنتولوژي را به عنوان يک ابزار مناسب براي نمايش دانش استخراج شده از يک مجموعه متن دانست. تزاروس، مجموعه اي است از لغات به اضافه ي تعاريفشان و رابطه ي ميان آنها. اين روابط معمولاً به کمک دست از دل مجموعه ي متون استخراج مي شود.ما مي توانيم تزاروسهاي خاص يا همه منظوره داشته باشيم. رابطه ي ميان اين کلمات مي تواند چيزهاي شبيه "کلي تر"، "خاص تر" و "مرتبط" يا نظير آن باشد. اگر ما تزاروسي داشته باشيم که در آن تمام ارتباطات ميان لغات مشخص شده باشد، مي توانيم آنرا آنتولوژي اين لغات بناميم. هر دوي تزاروس و آنتولوژي کاملاً مفيد هستند چون به ما دنياي لغات و مفاهيمي را نشان مي دهند که در مجموعه ي متون ما وجود دارد. اگر شما يک موتور جستجو را در نظر بگيريد، يک تزاروس، مي تواند مجموعه لغاتي باشد که ما مي توانيم در حين جستجوبکار بريم.



مطالب دیگر:
📂زندگي نامه راسل📂زيبايي شناسي از ديدگاه قرآن📂زيگموند فرويد📂ساختمان سازي📂ساختمان و عمل اندام تحتانی📂سدها واثرات تخريبي آن برروي محيط زيست و انسان📂سرمايه گذاري در بورس📂سـرمـت متـريال📂سوسياليسم📂سیری در زندگانی حضرت علی📂سیستم های بلوتوث📂سيمان📂شبکه برق📂شبیه سازی انسان📂شرايط ضمن عقد يا عقد خارج لازم📂شرح احوال و نظامی گنجوی📂شعرغنایی 47 ص📂شمائي ساده از يك شبكه برق📂شورش علویان در زمان مامون عباسی📂شيعه در شروع سلسله قاجار📂صنايع دستي و انواع آن📂طلاق و پيامدهاى شوم آن در سرنوشت فرزندان📂ظهر نويسي مقررات و انواع آن 65ص📂عایقهای حرارتی 46 ص📂عصاره اشباع وساير عصاره هاي آبي خاك