В чем разница между информатикой и наукой о данных?


Ответ 1:

Информатика в терминах статистических вычислений - это изучение информации (любого рода) с использованием алгоритмов, которые являются математическими и статистическими по своему характеру. На самом деле это слово не используется в этом смысле - самое близкое, что я могу придумать, это биоинформатика. Более стандартное название для этого - теория обучения.

Информатика в информатике - это теоретическое изучение информации, алгоритмов и вычислений.

Очевидно, что обоим важно помнить в любом приложении науки о данных, которое все еще довольно плохо определено, но в целом согласилось представлять собой некоторый гибрид статистики, программирования, теоретических и прикладных (обычно бизнес) знаний, математики и целого множество других вещей. Одно из наиболее подходящих определений ученого, которого я знаю, - это тот, кто знает больше статистики, чем программист, и больше программирует, чем статистик ... что само по себе, как определение, очень туманно.

Если мы можем согласиться, по крайней мере, с тем, что ученый, занимающийся данными, решает проблемы с данными, то первое определение информатики довольно четко укладывается в область большинства наук о данных, в то время как второе важно иметь в виду (особенно для кого-то кто очень дотошный).


Ответ 2:

Ниже приведены мои ответы на вопрос: в чем разница между информатикой и наукой о данных?

ТОП 25 СОВЕТОВ, ЧТОБЫ СТАТЬ ПРОИЗВОДИТЕЛЕМ PRO DATA!

Привет, друзья, я работаю в компании, занимающейся охотой за головами с 2014 года, основная область - наука о данных, искусственный интеллект, глубокое обучение…. Позвольте мне поделиться удивительными советами, чтобы стать профессионалом, научным сотрудником, как показано ниже. Я надеюсь, что вам это нравится. (ссылка от kdnuggets).

1. Использование внешних источников данных: твиты о вашей компании или ваших конкурентах или данные ваших поставщиков (например, настраиваемая статистика eBlast информационного бюллетеня, доступная через информационные панели поставщиков или отправка заявки)

2. Ядерные физики, инженеры-механики и специалисты по биоинформатике могут стать отличными учеными.

3. Правильно сформулируйте свою проблему и используйте надежные метрики для измерения доходности (по сравнению с базовым уровнем), предоставленной научными инициативами.

4. Используйте правильные KPI (ключевые метрики) и правильные данные с самого начала, в любом проекте. Изменения из-за плохой основы очень дорогостоящие. Это требует тщательного анализа ваших данных для создания полезных баз данных.

5. Ссылка на этот ресурс: 74 секрета, чтобы стать профессиональным исследователем данных

6. При больших значениях данных сильные сигналы (крайности) обычно являются шумом. Вот решение.

7. Большое значение a имеет меньшее значение, чем полезное значение a.

8. Используйте большие данные от сторонних поставщиков для конкурентной разведки.

9. Вы можете создавать дешевые, отличные, масштабируемые, надежные инструменты довольно быстро, без использования устаревших статистических данных. Подумайте о методах без моделей.

10. Большая дата проще и дешевле, чем вы думаете. Получить правильные инструменты! Вот как начать.

11. Соотношение - это не причинно-следственная связь. Эта статья может помочь вам с этой проблемой. Читайте также этот блог и эту книгу.

12. Вам не нужно постоянно хранить все свои данные. Используйте интеллектуальные методы сжатия и сохраняйте только статистические сводки, для старых данных, a.

13. Не забывайте корректировать свои метрики, когда ваши данные изменяются, чтобы сохранить согласованность в трендовых целях.

14. Многое можно сделать без да, табазы, особенно для большого да, та.

15. Всегда включайте EDA и DOE (предварительный анализ / план эксперимента) на ранних этапах любого научного проекта. Всегда создавайте словарь. И следуйте традиционному жизненному циклу любого научного проекта.

16. Да, та можно использовать для многих целей:

- гарантия качества

- найти подходящие модели (торговля акциями, обнаружение мошенничества)

- для перепродажи вашим бизнес-клиентам

- оптимизировать решения и процессы (исследование операций)

- для расследования и обнаружения (IRS, судебный процесс, обнаружение мошенничества, анализ первопричин)

- межмашинная связь (автоматизированные системы торгов, автоматизированное вождение)

- прогнозы (прогнозы продаж, рост и финансовые прогнозы, погода)

17. Не бросайте Excel. Охватите световую аналитику. Да, та + модели + интуиция + интуиция - идеальное сочетание. Не удаляйте эти ингредиенты в процессе принятия решения.

18. Используйте возможности составных метрик: KPI, полученные из полей da, tabase, которые обладают гораздо большей прогностической силой, чем исходные метрики d, atabase. Например, ваш da, tabase может включать одно поле ключевого слова, но не делает различий между запросом пользователя и категорией поиска (иногда потому, что d, ata происходит из разных источников и смешивается вместе). Определите проблему и создайте новую метрику под названием тип ключевого слова - или d, ata source. Другим примером является категория IP-адресов, фундаментальная метрика, которая должна создаваться и добавляться ко всем проектам цифровой аналитики.

19. Когда вам нужна настоящая обработка в реальном времени? Когда обнаружение мошенничества является критическим или когда обрабатывается конфиденциальная транзакция d, ata (обнаружение мошенничества с кредитными картами, 911 вызовов). Помимо этого, отложенная аналитика (с задержкой от нескольких секунд до 24 часов) достаточно хороша.

20. Убедитесь, что ваши чувствительные д, ата хорошо защищены. Убедитесь, что ваши алгоритмы не могут быть подделаны преступными хакерами или бизнес-хакерами (шпионят за вашим бизнесом и крадут все, что могут, легально или незаконно, и ставят под угрозу ваши алгоритмы - что приводит к серьезной потере дохода). Пример бизнес-взлома можно найти в разделе 3 этой статьи.

21. Смешайте несколько моделей вместе, чтобы обнаружить множество типов шаблонов. Средние эти модели. Вот простой пример смешивания моделей.

22. Задайте правильные вопросы перед покупкой программного обеспечения.

23. Запустите симуляции Монте-Карло, прежде чем выбирать между двумя сценариями.

24. Используйте несколько источников для одного и того же d, ata: ваш внутренний источник и d, ata от одного или двух поставщиков. Понять расхождения между этими различными источниками, чтобы лучше понять, какими должны быть реальные цифры. Иногда возникают большие расхождения, когда определение метрики изменяется одним из поставщиков или изменяется внутренне, или данные изменяются (некоторые поля больше не отслеживаются). Классическим примером являются данные веб-трафика: используйте внутренние файлы журналов, Google Analytics и другого поставщика (например, Accenture) для отслеживания этих данных.

25. Быстрая доставка лучше, чем предельная точность. Все наборы данных в любом случае грязные. Найдите идеальный компромисс между совершенством и быстрым возвращением.