Blog: Alter World

Виртуальный мир является своеобразным Alter Ego мира реального…

Ода ключевым словам

7 комментариев 22 мая 2005, 11:22 • Таги, Мысли по поводу...

Очень интересная заметка по-поводу организации автоматической подборки ключевых слов появилась в блоге Александра Шиляева (“Определение контекста через Yahoo!”). Идея вобщем-то хорошая и не нова по большей части, но... то, что ничего не получилось с русским языком – следовало ожидать... В русском языке при автоматизированном определении ключевых слов будут сложности с морфологическим разбором слов и их семантикой... Идея программки для создания автоматизированного набора ключевых слов у меня уже давно сидит в мыслях (сейчас у меня ключевые слова используются в лентах новостей и статьях), но до реализации автомата я так и не дозрел... Сложность возникла в том, что даже написав простой морфологический парсер я все равно не выясню ключевые слова. Точнее говоря я выясню ключевые слова, но не те, которые нужно. По сути у меня на выходе обработки некоторого текста будет список слов этого текста с сортировкой по частоте использования слов. Но это знание ни на йоту не приблизит к решению задачи определения именно нужных ключевых слов – а как именно разобраться с семантикой я пока не понял. Можно попытаться из полученного списка слов выкинуть все те слова, которые точно будут не ключевыми (к примеру все прилагательные и глаголы), но это будет слишком уж куцый вариант “анализатора” ключевых слов. Кстати говоря, довольно занятное наблюдение: то, что реализация Yahoo! News Tag Soup очень похожа на аналогичный сервис движка bbPress, используемый к примеру в форумах техподдержки на WordPress.org. И если раньше я ломал голову над тем, как же они реализовали свой Hot Tags, то теперь я понял, откуда у этой затеи растут ноги :).

P.S. Кстати говоря о птичках, вышла очередная версия движка wordpress, теперь уже с заплатками и носит она номер 1.5.1.1...

Ещё заметки на эту тему:

7 комментариев

Вы можете подписаться на комментарии к этой статье через RSS или отправить к ней TrackBack.

  1. Красная Шапочка • 24 мая 2005 г. в 10:36

    У Александра Шиляева не только заметка очень интересная, но ещё и бородка неформальная 🙂

    Русский язык такой странный, на нём же можно написать 10 страниц и ни разу не назвать вещи своими именами, так что ничего не выйдет с ключевыми словами))). Потому что ключи — это не слова). Ключи — это чувства) Ведь на чувства можно проанализировать текст автоматически и даже, можно сказать, верно выходит. Я пробовала несколько раз. Так что можно запускать на страничках новый елемент — можно будет тогда искать добрые, весёлые, нежные и т.д. страницы в инете) Вот это будет классно, а то вечно наткнёшься на каких-то злюк) А можно ещё спросить у этих пиплов-семантологов — могут ли они найти способ искать ключевые слова, они ведь целыми днями в словах копаются).

  2. Красная Шапочка • 24 мая 2005 г. в 11:23

    А вообще так классно, что служители-поисковики не находят ничего постоянно, всмысле всегда находят кроме того, что нужно, ещё кучу всего) Мне кажется, что ними управляет кто-то хитрый и большой, большой и добрый — потому что всё самое классное я нашла случайно, когда искала что-то другое. Такие случайности очень важны и судьбоносны, думаю). Так что следует оставить им немного простора для творческой активности, и быть к ним добрее, и говорить спасибо. А когда что-то действительно нужно, то можно быть хитрым и искать не по ключевым словам, а по словам, которые хоть и не являются ключевыми, но в другом месте просто их не встретишь, вот как я искала недавно правила одни ветеренарного контроля, пока не набрала «сперма коней» — ничего не могла найти, надеюсь на работе никто не заметит, что я искала эти слова). 

  3. Александр Вольф • 24 мая 2005 г. в 14:57

    Как оказалось на логических языках (Пролог, Рефал) задача морфологического анализа текста решается весьма просто! Теперь надо будет попробовать переложить идеи, которые в них используются на какой-нибудь алгоритмический язык, к примеру PHP или PERL (наверное с первым даже предпочтительнее будет поработать)...

  4. Красная Шапочка • 25 мая 2005 г. в 00:48

    Ты что? Вот так, да? Выходит я зря пожертвовала витаминкой и прочими радостями девчачей жизни пока скачивала из инета какую-то дурацкую диссертацию о всяком таком и ключевых словах в том числе? Ладно, а я всё равно её дочитаю утром завтра. 

  5. Alex Shilyaev • 31 мая 2005 г. в 19:55

    2Красная Шапочка: а почему это моя бородка неформальная?

  6. Красная Шапочка • 12 июня 2005 г. в 01:08

    Статус неформальной присвоен бородке потому, что Ваша бородка, Александр Шиляев, имеет вид отличный от вида бородок других пиплов. По крайней мере так мне подумалось, когда я увидела фотокарточку.

    (или нельзя писать комментарии, которые не относятся к заметкам?) 

  7. Blog: Alter World » Где вы, люди-человеки? • 30 июня 2005 г. в 20:32

    [...] До чего же люди любят изобретать велосипеды. И это хорошо, хотя и не всегда нужно. Вот к примеру сегодня на одном из блогов в очередной раз всплыл вопрос о географической принадлежности того или иного блога (кстати, а по большей части зачем это нужно? и кому это нужно?). Надо полагать, что кроме чисто спортивного интереса, который можно выразить фразой “ну и кто тут еще есть?”. Можно преследовать и другие интересы – к примеру агрегировать информацию с блогов, опираясь на их географию, или собрать геокластер из блогов, или... да мало ли для чего еще это понадобилось? Меня лично это мало касается... Вот только все эти сервисы по сути своей используют только одну технологию. Какую? Попробуйте догадаться... Правильно, указывают свои географические координаты. В какой-то мере этот подход напоминает таггинг, о котором в воследнее время говорят все, кому не лень... Правда таких подробностей, суждений и идей, которые выдает Александр Шиляев ни у кого нету, а жаль... [...]

Оставить свое мнение

XHTML: Вы можете использовать эти тэги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>