Здавалка
Главная | Обратная связь

Документ .Класифікація документів



Докуме́нт — засіб закріплення різними способами на відповідному матеріалі інформації про факти, події, явища об'єктивної дійсності та розумову діяльність людини.

Існує також інше визначення терміну: Документ (ЗУ «Про інформацію») — матеріальний носій, що містить інформацію, основними функціями якого є її збереження тапередавання у часі та просторі.

Документ (за П. Отле) — це будь-яке джерело інформації, передання людської думки, знань незалежно від того, чи втілене воно в матеріально фіксованій формі або є провідником (передавачем) інформації в часі.

Документ (ділове укр. мовлення) — матеріальний об'єкт, що містить у зафіксованому вигляді інформацію, оформлений у зведеному порядку і має відповідно до чинного законодавства юридичну силу.

Класифікація документів — це одне з завдань інформаційного пошуку, яке полягає у зарахуванні документа до однієї з кількох категорій на підставі його змісту.

Класифікація може здійснюватися власноруч або автоматично, за допомогою створеного набору правил чи із застосуванням методів машинного навчання.

Слід відрізняти класифікацію текстів від кластеризації. В останньому випадку тексти також об'єднуються за деякими критеріями, але заздалегідь задані категорії відсутні.

Існують три підходи до задачі класифікації текстів[1].

По-перше, класифікація не завжди здійснюється за допомогою комп'ютера. Наприклад, у звичайній бібліотеці тематичні рубрики присвоюються книгам власноруч бібліотекарем. Подібна ручна класифікація дорога і непридатна у випадках, коли необхідно класифікувати велику кількість документів з високою швидкістю.

Інший підхід полягає в написанні правил, згідно яких можна зарахувати текст до тієї чи іншої категорії. Наприклад, одне з таких правил може виглядати наступним чином: «якщо текст містить слова похідна і рівняння, то віднести його до категорії математика». Спеціаліст, який знайомий з предметною областю і володіє навичкою написання регулярних виразів, може скласти низку правил, які потім автоматично застосовуються до класифікації нових документів. Цей підхід краще попереднього, оскільки процес класифікації автоматизується і кількість оброблюваних документів стає практично не обмеженою. Більш того, побудова правил власноруч може підвищити точність класифікації у порівнянні з машинним навчанням (див. нижче). Однак створення і підтримка правил в актуальному стані (наприклад, якщо для класифікації новин використовується ім'я чинного президента країни, то відповідне правило потрібно час від часу змінювати) вимагає постійних зусиль фахівця.

Нарешті, третій підхід ґрунтується на машинному навчанні. У цьому підході набір правил або, більш загально, критерій прийняття рішення текстового класифікатора обчислюється автоматично з навчальних даних (іншими словами, проводиться навчання класифікатора). Навчальні дані — це деяка кількість наочних зразків документів з кожного класу. У машинному навчанні зберігається необхідність ручної розмітки (термін «розмітка» означає процес надання документу певного класу), але вона є більш простим завданням, ніж написання правил. Крім того, розмітка може бути проведена в звичайному режимі використання системи. Наприклад, у програмі електронної пошти може існувати можливість позначати листи як спам, таким чином формуючи навчальну множину для класифікатора — фільтра небажаних повідомлень. Тому класифікація текстів, заснована на машинному навчанні, є прикладом навчання з учителем[ru], де в ролі вчителя виступає людина, що задає набір класів і розмічає навчальну множину.







©2015 arhivinfo.ru Все права принадлежат авторам размещенных материалов.