Семинары С-1-19

Занятие от 26.03.21 в 16:40

 
Picture of Анжелика Крупина
Re: Занятие от 26.03.21 в 16:40
by Анжелика Крупина - Friday, 26 March 2021, 6:07 PM
 

Статистическая база данных представляет собой базу данных используется для статистических целей анализа. Это OLAP (онлайн-аналитическая обработка), а не система OLTP (онлайн-обработка транзакций). Современные решения и классические статистические базы данных часто ближе к реляционной модели, чем к многомерной модели, обычно используемой в системах OLAP сегодня. Статистические базы данных обычно содержат данные о параметрах и данные измерений для этих параметров. Например, данные параметров состоят из различных значений для различных условий эксперимента (например, температуры, времени). Измеренные данные (или переменные) - это измерения, сделанные в эксперименте при этих меняющихся условиях. Многие статистические базы данных разрежены и содержат множество нулевых или нулевых значений. Нередко статистическая база данных бывает разреженной на 40–50%. Есть два варианта решения проблемы разреженности: (1) оставить там нулевые значения и использовать методы сжатия, чтобы сжать их, или (2) удалить записи, которые имеют только нулевые значения. Статистические базы данных часто включают поддержку передовых методов статистического анализа, таких как корреляции, которые выходят за рамки SQL . Они также создают уникальные проблемы безопасности , которые были предметом многих исследований, особенно в конце 1970-х и начале-середине 1980-х годов. Безопасность в статистических базах данных В статистической базе данных часто требуется разрешить доступ для запросов только к агрегированным данным, а не к отдельным записям. Защита такой базы данных - сложная проблема, поскольку умные пользователи могут использовать комбинацию совокупных запросов для получения информации об одном человеке. Вот некоторые общие подходы: разрешены только агрегированные запросы (SUM, COUNT, AVG, STDEV и т. д.) вместо того, чтобы возвращать точные значения для конфиденциальных данных, таких как доход, возвращайте только то, к какому разделу они принадлежат (например, 35-40 тысяч) возвращать неточные подсчеты (например, запрос удовлетворяет не 141 запись, а только 130–150 записей). не допускайте излишне избирательных предложений WHERE аудит всех запросов пользователей, чтобы можно было исследовать пользователей, неправильно использующих систему использовать интеллектуальные агенты для автоматического обнаружения несоответствующего использования системы На долгие годы исследования в этой области застопорились, и в 1980 году считалось, что вот что: Напрашивается вывод, что статистические базы данных почти всегда подвергаются компрометации. Строгие ограничения на допустимые размеры наборов запросов сделают базу данных бесполезной в качестве источника статистической информации, но не защитят конфиденциальные записи.