Наука о данных — это область исследования, которая обрабатывает огромные объемы данных с использованием научных методов, процессов, алгоритмов и систем для поиска невидимых закономерностей, получения значимой информации, принятия деловых решений в компаниях, а также для использования в некоммерческих организациях. К некоммерческим учреждениям относятся отрасли здравоохранения, игр, распознавания изображений, систем рекомендаций, логистики, обнаружения мошенничества (банковские и финансовые учреждения), поиска в Интернете, распознавания речи, целевой рекламы, планирования маршрутов авиакомпаний и дополненной реальности. Наука о данных — это часть искусственного интеллекта. Данные, которые используются для анализа, могут поступать из разных источников и представлены в различных форматах. Некоторые исходные данные могут быть стандартизированы; другие могут быть не стандартизированы.
Иными словами, для сбора данных используются разные методологии (множественное число от данных). Затем из собранных данных извлекаются знания (ценные выводы). В процессе, после сбора данных, проводится исследование их (данных) для получения новых данных (результатов), на основе которых решаются проблемы.
Наука о данных как (основная) дисциплина существует на уровне бакалавра и магистра в университете. Однако лишь несколько университетов в мире предлагают науку о данных на уровне бакалавра или магистра. На уровне бакалавриата студент получает степень в области науки о данных. Это как степень общего назначения. На уровне магистратуры студент получает аспирантуру в области науки о данных, специализируясь на аналитике данных, инженерии данных или в качестве специалиста по данным.
Читателя может удивить, а возможно, и к сожалению, что машинное обучение, моделирование, статистика, программирование и базы данных являются необходимыми знаниями для изучения науки о данных на уровне бакалавра, несмотря на то, что они являются самостоятельными университетскими курсами, изучаемыми в другие дисциплины на уровне бакалавриата или магистратуры. Тем не менее, когда студент поступает в университет, чтобы изучать науку о данных на уровне степени, все эти курсы по-прежнему будут изучаться вместе с соответствующими курсами по науке о данных или до них.
Наука о данных для получения степени бакалавра или ее специализации, такие как аналитика данных, инженерия данных или специалист по данным, все еще находятся в стадии разработки; хотя они достигли стадии, когда они применяются в промышленности после того, как были изучены (в университете). В целом наука о данных — относительно новая дисциплина.
Помните, что вы должны сначала быть универсалом, прежде чем стать специалистом. Различия между программами специалистов пока не ясны. Различия между универсальными и специализированными программами пока не ясны.
Поскольку наука о данных — относительно новая дисциплина, книги, предписанные в этом документе, основаны на содержании, а не на педагогике (насколько хорошо книга учит). И они предназначены для программы бакалавриата (универсал). Существуют различные общие курсы.
Список
Для получения более подробной информации и возможной покупки с помощью кредитной карты дана гиперссылка на каждую из книг. Ни одна из книг не охватывает все курсы общего профиля.
Основы математики для науки о данных: исчисление, статистика, теория вероятностей и линейная алгебра
Сценарист: Хадриен Джин
- Издатель: Хадриен Джин
- Дата публикации: после 30 сентября 2020 г.
- Язык: Английский
- Количество страниц: более 400
Содержание этой книги можно рассматривать как курс математики для науки о данных. Хотя не рекомендуется изучать науку о данных в одиночку, выпускник средней школы, который хочет изучать науку о данных самостоятельно, должен начать с этой книги.
Содержание: исчисление; Статистика и вероятность; Линейная алгебра; скаляры и векторы; Матрицы и тензоры; Размах, линейная зависимость и пространственное преобразование; Системы линейных уравнений; Собственные векторы и собственные значения; Разложение по сингулярным значениям.
https://www.essentialmathfordatascience.com/
Здравое руководство по структурам данных и алгоритмам: повышайте уровень своих основных навыков программирования / 2-е издание
Сценарист: Джей Венгроу
- Издатель: Pragmatic Bookshelf
- Дата публикации: 15 сентября 2020 г.
- Язык: Английский
- Размеры: 7,5 х 1,25 х 9,25 дюйма
- Количество страниц: 508
Эта книга посвящена алгоритмам и структурам данных, которые используются в науке о данных. Если предположить, что кто-то самостоятельно изучает науку о данных после окончания средней школы, то это следующая книга, которую нужно прочитать после прочтения предыдущей книги по математике. Примеры программ даны на JavaScript, Python и Ruby.
Содержание: почему структуры данных имеют значение; Почему алгоритмы имеют значение; О да! нотация большого O; Ускорение вашего кода с помощью Big O; Оптимизация кода с большим O и без него; Оптимизация для оптимистичных сценариев; Большой O в повседневном коде; Молниеносный быстрый поиск с помощью хеш-таблиц; Создание элегантного кода со стеками и очередями; Рекурсивно рекурсивно с рекурсией; Учимся писать рекурсивно; динамическое программирование; Рекурсивные алгоритмы для скорости; Структуры данных на основе узлов; Ускорение всего с помощью бинарных деревьев поиска; Держите свои приоритеты прямо с кучей; Не больно попробовать; Соединение всего с графиками; Работа с космическими ограничениями; Методы оптимизации кода
Разумная наука о данных: успех с данными корпоративного уровня и проектами искусственного интеллекта / 1 ул. Редактирование
Сценарий: Нил Фишман, Коул Страйкер и Грэди Буч.
- Издательство: Вили
- Дата публикации: 14 апреля 2020 г.
- Язык: Английский
- Количество страниц: 286
Содержание: восхождение по лестнице ИИ; Создание части I: Рекомендации для организаций, использующих ИИ; Фрейминг Часть II: Рекомендации по работе с данными и ИИ; Взгляд назад на аналитику: больше, чем один молоток; Взгляд вперед на аналитику: не все может быть гвоздем; Обращение к операционным дисциплинам на лестнице ИИ; Максимальное использование ваших данных: ориентация на ценность; Оценка данных с помощью статистического анализа и обеспечение полноценного доступа; Строительство на долгосрочную перспективу; Конец путешествия: ИА для ИИ.
Машинное обучение: вероятностная перспектива (серия «Адаптивные вычисления и машинное обучение»), иллюстрированное издание
Сценарист: Кевин П. Мерфи
- Издательство: MIT Press
- Дата публикации: 24 августа 2012 г.
- Язык: Английский
- Размеры: 8,25 х 1,79 х 9,27 дюйма
- Количество страниц: 1104
Эта книга хороша для начинающих. Опять же, как и все остальные книги, прописанные в этом документе, эта книга не охватывает всего необходимого для универсальной программы, которая, к сожалению, еще не доработана (специальные программы тоже еще не доработаны). Типичный новичок здесь — выпускник средней школы со знанием математики и информатики.
Содержание: Введение (Машинное обучение: что и почему?, Обучение без учителя, Некоторые основные концепции машинного обучения); Вероятность; Генеративные модели для дискретных данных; гауссовские модели; байесовская статистика; статистика частотников; Линейная регрессия; Логистическая регрессия; Обобщенные линейные модели и экспоненциальное семейство; Направленные графические модели (байесовские сети); Модели смесей и алгоритм ЭМ; Скрытые линейные модели; Разреженные линейные модели; ядра; гауссовские процессы; Адаптивные модели базовых функций; Марковские и скрытые марковские модели; Государственные космические модели; Неориентированные графические модели (марковские случайные поля); Точный вывод для графических моделей; Вариационный вывод; Более вариативный вывод; вывод Монте-Карло; вывод цепи Маркова методом Монте-Карло (MCMC); Кластеризация; Изучение структуры графической модели; Модели скрытых переменных для дискретных данных; Глубокое обучение.
Наука о данных для бизнеса: что вам нужно знать о интеллектуальном анализе данных и аналитическом мышлении / 1-е издание
Сценарист: Том Фосетт и Фостер Провост
- Издательство: О'Рейли Медиа
- Дата публикации: 17 сентября 2013 г.
- Язык: Английский
- Размеры: 7 х 0,9 х 9,19 дюйма
- Количество страниц: 413
Содержание: Аналитическое мышление; Бизнес-проблемы и решения для науки о данных; Введение в прогнозное моделирование: от корреляции к контролируемой сегментации; Подгонка модели к данным; Переобучение и его предотвращение; Сходство, соседи и кластеры; Аналитическое мышление принятия решений I: что такое хорошая модель?; Визуализация производительности модели; Доказательства и вероятности; Представление и анализ текста; Решение «Аналитическое мышление II: к аналитической инженерии»; Другие задачи и методы науки о данных; наука о данных и бизнес-стратегия; Вывод.
https://www.amazon.com/Data-Science-Business-Data-Analytic-Thinking/dp/B08VL5K5ZX
Практическая статистика для специалистов по данным: более 50 основных концепций использования R и Python / 2-е издание
Сценарий: Питер Брюс, Эндрю Брюс и Питер Гедек.
- Издательство: О'Рейли Медиа
- Дата публикации: 2 июня 2020 г.
- Язык: Английский
- Размеры: 7 х 0,9 х 9,1 дюйма
- Количество страниц: 368
Содержание: исследовательский анализ данных, распределение данных и выборки, статистические эксперименты и проверка значимости, регрессия и прогнозирование, классификация, статистическое машинное обучение, обучение без учителя.
Книга «Почему: новая наука о причине и следствии»
Сценарист: Джудеа Перл, Дана Маккензи
- Издательство: Базовая книга
- Дата публикации: 15 мая 2018 г.
- Язык: Английский
- Размеры: 6,3 х 1,4 х 9,4 дюйма
- Количество страниц: 432
В то время как во многих книгах по науке о данных в качестве иллюстрации используется чистая бизнес-индустрия, в этой книге для иллюстрации используется медицинская промышленность и другие дисциплины.
Содержание: Введение: Разум важнее данных; Лестница причинности; От пиратов до морских свинок: генезис причинно-следственной связи; От свидетельств к причинам: преподобный Байес встречает мистера Холмса; Смешение и распутывание: или Уничтожение скрытой переменной; Заполненные дымом дебаты: прояснить ситуацию; Изобилие парадоксов!; За гранью приспособления: завоевание горы Интервенция; Неправдоподобные факты: горнодобывающие миры, которые могли бы быть; Посредничество: поиск механизма; Большие данные, искусственный интеллект и большие вопросы.
Построить карьеру в науке о данных
Сценарист: Эмили Робинсон и Жаклин Нолис
- Издательство: Мэннинг
- Дата публикации: 24 марта 2020 г.
- Язык: Английский
- Размеры: 7,38 х 0,8 х 9,25 дюйма
- Количество страниц: 354
Содержание: Начало работы с наукой о данных; Поиск работы по науке о данных; Освоение науки о данных; Рост в вашей роли Data Science.
https://www.manning.com/books/build-a-career-in-data-science
Наука о данных для чайников / 2-е издание
Сценарист: Лиллиан Пирсон
- Издательство: Для чайников
- Дата публикации: 6 марта 2017 г.
- Английский язык
- Размеры: 7,3 х 1 х 9 дюймов
- Количество страниц: 384
В этой книге предполагается, что читатель уже обладает необходимыми знаниями по математике и программированию.
Контент: «Обратите внимание на науку о данных»; Изучение конвейеров и инфраструктуры обработки данных; Применение основанных на данных идей в бизнесе и промышленности; Машинное обучение: обучение на основе данных с помощью вашей машины; Математика, вероятность и статистическое моделирование; Использование кластеризации для разделения данных; Моделирование с экземплярами; Построение моделей, работающих с устройствами Интернета вещей; Следование принципам дизайна визуализации данных; Использование D3.js для визуализации данных; веб-приложения для визуализации дизайна; Изучение передового опыта в дизайне информационных панелей; Создание карт из пространственных данных; Использование Python для науки о данных; Использование R с открытым исходным кодом для науки о данных; Использование SQL в науке о данных; Заниматься наукой о данных с помощью Excel и Knime; Наука о данных в журналистике: определение пяти W (и H); Углубление в науку об окружающей среде; наука о данных для стимулирования роста электронной коммерции; Использование науки о данных для описания и прогнозирования преступной деятельности; Десять феноменальных ресурсов для открытых данных; Десять бесплатных инструментов и приложений для обработки данных.
Интеллектуальный анализ массивных наборов данных / 3 рд Редактирование
Сценарист: Юре Лесковец, Ананд Раджараман, Джеффри Дэвид Ульман
- Издательство: Издательство Кембриджского университета.
- Дата публикации: 13 февраля 2020 г.
- Английский язык
- Размеры: 7 х 1 х 9,75 дюйма
- Количество страниц: 565
Эта книга также предполагает, что читатель уже обладает необходимыми знаниями по математике и программированию.
Содержание: интеллектуальный анализ данных; MapReduce и новый программный стек; Алгоритмы с использованием MapReduce; Поиск похожих предметов; Потоки данных майнинга; Анализ ссылок; Частые наборы предметов; Кластеризация; Реклама в Интернете; Рекомендательные системы; Добыча графов социальных сетей; уменьшение размерности; Крупномасштабное машинное обучение.
Вывод
Различия между программами специалистов пока не ясны. Различия между универсальными и специализированными программами также пока не ясны. Однако после прочтения данного списка книг читатель сможет лучше оценить особые роли аналитика данных, инженера данных и специалиста по данным, а затем двигаться вперед.