13:45 |
Открытие секции |
14:00-15:40 |
Заседание 1. Председатель: Г.А. Чернышев |
14:00 |
Извлечение событий на основе автоматизированного построения линейных шаблоновДзендзик Д. А., студент кафедры системного программирования С каждым годом количество информации, в том числе тестовой информации на естественном языке, увеличивается во всём мире с огромной скоростью. Данный факт существенно повышает интерес к автоматической обработке информации и анализу текстов. Задача извлечения событий ставится следующим образом: автоматически выявить событие и определить, «кто и что сделал, с кем, когда, каким образом, где и зачем». В данной работе рассматриваются подходы к извлечению бизнес-событий из неструктурированного текста на английском языке, анализируются известные алгоритмы извлечения событий, предлагается алгоритм решения данной проблемы для извлечения событий в системе TextMarker. Целью работы является построение линейных правил, извлекающих события из текста. Входными данными для представленного алгоритма являются описания событий, которые нужно извлечь, и корпус документов, на которых алгоритм будет обучаться. Предлагаемый алгоритм построения правил состоит из четырёх частей. В результате первой части на основе описания событий и синтаксического анализа выделяются потенциальные события. Следющим этапом все события кластеризуются по типу синтаксической связи между индикатором и атрибутами. Третьим этапом следует проверка пользователем примеров из каждого кластера. В результате этого шага получается размеченный корпус и основа для построения правил. На последнем этапе строятся и обобщаются линейные правила в виде регулярных выражений. В качестве данных был выбран корпус новостных статей «Bloomberg». В качестве типа события рассматривалось Merge&Acquisition. Результат извлечения построенных правил сравнивался с правилами, написанными человеком. Результат (точность, полнота и F1-мера) построенных рассматриваемым алгоритмом правил оказался выше. |
14:20 |
Автоматическое извлечение правил для снятия морфологической неоднозначностиПротопопова Е.В., 3 курс отделения прикладной и математической лингвистики, филологический факультет СПбГУ, Ключевым вопросом автоматического создания морфологической разметки текстов является снятие морфологической неоднозначности. Существующие системы анализа русского языка при решении данной задачи используют большие вручную размеченные корпуса текстов, создание которых представляет собой отдельную весьма трудоемкую задачу. В нашей работе предлагается использовать метод, известный как Brill tagger, использующий при обучении данные, размеченные по морфологическому словарю. Также оценивается размер корпуса, необходимого и достаточного для получения относительно высокой точности разметки, приводятся результаты работы системы с использованием различных параметров. |
14:40 |
Modeling of P2P assisted CDN for Full HD video downloading with realistic user behavior
Шеин Р.Е., студент кафедры системного программирования СПбГУ,
The use of Content Distribution Networks (CDN) for video streaming is a common architecture for Video on Demand (VoD) services. The current Internet cannot provide the bandwidth for widespread streaming VoD for Full HD video using CDN. The limiting factor is the long tail of demand probability distribution leading to the inefficiency of content caching and multicasting. At the same time Peer-to-Peer (P2P) networks provide the infrastructure for bulk file downloading and serve as the main online distribution method for Full HD video. We demonstrate the benefits of downloading and P2P assistance for CDN traffic reduction. To predict the demand we show a good correlation of the P2P demand with the votes on the rating sites. We demonstrate a good fit of the demand probability with a Weibull distribution. Then we implement a behavioral simulation of P2P-assisted CDN based on bit-torrent protocol and observe 94% reduction in CDN traffic compared to unassisted case for the observed demand distribution. We also consider how the paid distribution system with such architecture can be implemented utilizing Digital Rights Management (DRM) and/or digital video fingerprinting as a copy-protection. |
15:00 |
Адаптивный приближенный алгоритм соединенияДолматова О. А, студентка кафедры информатики СПбГУ В этой работе представлен адаптивный приближенный алгоритм выполнения операции соединения, основанный на различных модификациях традиционных алгоритмов. Приближенный характер алгоритма предоставляет возможность управления временем выполнения, что является одним из существенных требований систем реального времени. Так же в работе описана расширенная модель стоимости для алгоритма соединения, которая позволяет контролировать соотношение потраченные ресурсы/качество результата. Эксперименты по оценке качества модели стоимости и результата так же представлены и проанализированы. |
15:20 |
Алгоритм приближенного выполнения операции соединения по подобиюПеревалова М. А., 5 курс, кафедра системного программирования В связи с только возрастающей скоростью увеличения объема информации и необходимостью соединения данных из различных источников, возникает задача поиска подобных объектов. Соединение по подобию (similarity join) – полезная операция, нашедшая много применений в таких областях, как очистка данных, нахождение нечетких дубликатов, интеграция данных и data mining. При двух заданных коллекциях объектов, соединение по подобию возвращает все пары подобных объектов из этих коллекций. Алгоритмическая сложность задачи соединение по подобию заключается в поиске эффективных решений. Наивный алгоритм, вычисляющий подобие каждой пары, работает со сложностью O(m∙n), и при больших объемах данных вычислительные затраты становятся несоизмеримо высоки. Данная работа посвящена приближенному выполнению этой задачи. Преимущества такого подхода состоят в том, что пользователь сам может оценить требуемое качество результата и ресурсы, которыми он располагает. Алгоритм предоставляет результаты за любое отведенное ему время работы, оставляя управление соотношением времени и качества пользователю. |
15:40 |
Перерыв |
15:55 - 16:55 |
Заседание 2. Председатель: Е.Г. Михайлова |
15:55 |
Can High Quality Research be Really Useful? Slides (PDF)Boris Novikov, Sub. Dept. of Analytical Information Systems, SpbU The requirements and expectations for research projects and industrial products are quite different and often incompatible. However, it is claimed that results of research should be applicable in real life. We start from analysis of well-known and not so well known recommendations and guidelines for high-quality research and then inspect the potential alternative paths from research to practical implementations. |
16:55 |
Закрытие секции |