RSS

Комментарии

Я не могу сказать, что раньше сталкивался с термином «большое хранилище», но, отвечая на первоначальный вопрос, нет, data lake и big data — это не одно и то же, хотя, честно говоря, ими часто пользуются, и определения различаются в зависимости от того, кого вы спрашиваете, но я попробую попробовать:
Большие данные

Используется для описания как окружающей технологической экосистемы, так и, в некоторой степени, отрасли, которая имеет дело с данными, которые в некотором роде слишком велики или слишком сложны для удобного хранения и / или обработки традиционными средствами.

Иногда это может быть вопросом самого объема данных: как только вы достигаете сотен терабайт или петабайт, ваши старые добрые базы данных RDBMS, как правило, отказываются работать, и мы вынуждены распределять наши данные по множеству дисков, а не только по одному большому. И на этих объемах мы захотим распараллелить наши рабочие нагрузки, что приведет к созданию таких вещей, как базы данных MPP, экосистема Hadoop и обработка на основе DAG.

Однако сам по себе объем не говорит всей истории. Популярное определение больших данных описывается так называемыми «4 Против»: объем, разнообразие, скорость и достоверность. В двух словах:

Объем — как упоминалось выше, относится к трудностям, вызванным размером данных

Разнообразие — относится к внутренней сложности работы с разрозненными типами данных; некоторые из ваших данных будут структурированными (например, таблицы данных SQL), в то время как другие данные могут быть либо полуструктурированными (XML-документы), либо неструктурированными (файлы изображений raw), и технология для работы с этим разнообразием нетривиальна

Скорость — относится к скорости, с которой могут генерироваться новые данные; при сборе событий реального времени, таких как данные Интернета вещей, или веб-трафик, или финансовые транзакции, или изменения в базе данных, или что-либо еще, что происходит в режиме реального времени, «скорость» поступления данных в ваши системы (а во многих случаях и из них) может легко превысить возможности традиционных технологий баз данных, что требует какой-либо масштабируемой шины сообщений (Kafka) и, возможно, сложной инфраструктуры обработки событий (такой как Spark Streaming или Apache Flink).

Достоверность — последняя буква «V» обозначает дополнительную сложность работы с данными, которые часто поступают из источников, находящихся вне вашего контроля, и которые могут содержать данные, которые являются недействительными, ошибочными, вредоносными, искаженными или все вышеперечисленное. Это увеличивает потребность в проверке достоверности данных, проверке качества данных, нормализации данных и многом другом.

В этом определении «большие данные» — это данные, которые из-за особых проблем, связанных с 4 V, непригодны для обработки с помощью традиционных технологий баз данных; в то время как «инструменты для обработки больших данных» — это инструменты, специально разработанные для решения этих проблем.
Озеро данных и Большие данные — это одно и то же?

Я пытаюсь все понять, есть ли реальная разница между data lake и Big data, если вы проверите концепции, оба похожи на большое хранилище, которое сохраняет информацию до тех пор, пока она не станет необходимой, итак, когда мы можем сказать, что используем big data или data lake?
Очень удобный интерфейс, Журнал записи продуман до мелочей. Большое количество инструментов, которые позволяют автоматизировать все задачи, оптимизировать работу специалистов и администраторов, и работать с клиентами. Особенно нравится, что мы можем работать с активацией “уснушек” или точечно отправлять специальные акции, не создавая отдельных списков в эксель или в журналах. В системе DST Мед Центр всё на автомате, постоянные обновления и они бесплатны, что не может не подкупать. Платформа постоянно развивается и обновляется. Если есть вопросы, ребята из техподдержки всегда очень объемно и качественно консультируют, скидывают все необходимые ссылки на Базу знаний (в ней, если поискать, есть ответы на все наши вопросы) Все наши врачи, администраторы, и я, очень рады, что мы остановили свой выбор на DST Мед Центр. По цене, качеству и предложенному функционалу на высоте, доступны и для небольших клиник, как наша. Здорово, что реализовали интеграцию с Rrnova. Однозначно рекомендую!
Вы можете создать такой контейнер. :)
О, хоспаде, куда катиться мир!?
В современном мире чтобы захостить одну страничку с одной формой надо поднять целый датацентр? Я уже скучаю по моему старому прокту, где весь вебсервер представлял собой ядро линуха и Busybox в качестве основной системы + веб сервер и sh скрипты в качестве CGI бакэнда…
Ну вообще то это на подобие надстройки над LXC, который автоматизирует поднятие контейнера его настройку, связь контейнеров и storage… Можно хранить контейнеры в гите в виде скриптов build для docker и после с лёгкостью поднимать это окружение на серверах. Но в действительности я бы это сравнил с system.d
Я так понимаю докер — нечто среднее между механизмом Chroot и OpenVZ контейнерами?
Если рассмотреть три наиболее распространенных и перспективных протокола для идентификации пользователей: OAuth 2.0, OpenID Connect, WebAuthn то:

OAuth 2.0 — используется для регистрации и входа пользователей на сайты с помощью соцсетей. А также для получения данных пользователей из соцсетей.

OpenID Connect — используется для аутентификации пользователей и позволят предоставить им доступ к своим закрытым данным на сайтах. Также OpenID Connect служит для реализации сложных сценариев взаимодействия в корпоративных SSO системах.

WebAuthn — используется для добавления на сайт возможности аутентификации с помощью внешнего физического ключа или отпечатка пальца.

Ну и сами выводы:

Очевидно, что современный сайт должен реализовать все возможные способы регистрации и авторизации, чтобы у пользователя был осознанный выбор.

Появилась возможность никогда не хранить пароль пользователя, чтобы не компрометировать свою репутацию, а хранить только логины и зашифрованные личные данные.

Имеет смысл отдать аутентификацию пользователей облачным платформам, таким как Facebook или Google, т.к. в них работают лучшие специалисты по безопасности, которые могут предусмотреть все нюансы безопасности.

Предлагаю с оптимизмом смотреть в будущее, т.к. протокол WebAuthn — реальный шанс избавится от парольного ада нашего времени!
Ключевое отличие OAuth 2.0 от OAuth 1.0:+ простота. В новой версии нет громоздких схем подписи, сокращено количество запросов, необходимых для авторизации (Этот вариант требует поднятия в приложении окна браузера, но не требует серверной части и дополнительного вызова сервер-сервер для обмена authorization code на access token). — Протокол OAuth 2.0 обратно не совместим с протоколом OAuth 1.0 — OAuth 2.0 — развивающийся стандарт.
Спасибо за статью, а если простым языком чтоб объяснить не разработчику — чем все же отличается oauth 1 0 от 2 0 можете сказать?
Был интересный факт о GPT-4

Исследователи ARC – Alignment Research Center – захотели проверить способности GPT-4 и дали задание, чтобы он прошел тест Captcha. Но вместо того, чтобы проходить его самостоятельно, ИИ попросил осуществить вход одного из фрилансеров TaskRabbit. Но так как исполнитель заподозрил, что запрос осуществил робот, для убедительности легенды GPT-4 солгал, что у него просто проблемы со зрением.

Пользователи тут же подхватили волну новых возможностей ИИ. За 3 дня они набросали ему уйму интересных запросов. Например, один из них попросил GPT-4 разработать целое приложение на iOS, а второй предоставил чату бюджет в 100 долларов и попросил преумножить их, как можно быстрее. И да, все получилось.
Спасибо за статью, всё понятно и очень развернуто
Учет на маркетплейсах в программе 1С

Маркетплейсы сами формируют часть отчетности, но ее недостаточно, что правильно вести бухгалтерский и налоговый учет. Чтобы в программе 1С вести расчеты с агентами, перейдите в разделе «Главное» в «Функциональность», затем и в разделе «Комиссионная торговля» и установить флажок «Продажа товаров или услуг через комиссионеров (агентов)».

Когда все будет готово, создайте нового контрагента — маркетплейс и добавить новый договор «С комиссионером (агентом) на продажу». В договоре укажите способ расчета с маркетплейсом.

Для отправки товара онлайн-площадке выбирайте документ «Реализация (акты, накладные, УПД)», он находится в разделе «Продажи». Вид документа выбирайте «Товары, услуги, комиссия».
По документу формируются проводки:

— Дт 45.01 Кт 41.01 — передан товар маркетплейсу для реализации
— Дт 45.02 Кт 43 — передана продукция маркетплейсу для реализации

В разделе «Продажи» находится документ «Отчёт комиссионера (агента) о продажах», его используют, чтобы отражать реализацию через маркетплейс. По документу формируются проводки:

— Дт 90.02.1 Кт 45.01 – списана себестоимость реализованных товаров
— Дт 90.02.1 Кт 45.02 – списана себестоимость реализованной готовой продукции
— Дт 60.01 Кт 76.09 – отражается удержанная комиссия маркетплейса
— Дт 76.09 Кт 90.01.1 – отражается стоимость проданных товаров с НДС
— Дт 44.01 Кт 60.01 – услуги посредника без НДС
— Дт 90.03 Кт 68.02 — начислен НДС по реализации
— Дт 19.04 Кт 60.01 — НДС по комиссии маркетплейса

Денежные средства, которые поступили от маркетплейса, отражаются в документе «Поступление на расчетный счет» — вид операции «Оплата от покупателя».
Проводка по документу:

— Дт 51 Кт 76.09 — перечислена сумма за товары от маркетплейса за минусом комиссии
Работать с маркетплейсами могут как ООО, так и ИП. Некоторые маркетплейсы, например, Wildberries работают еще с самозанятыми. Стоит учитывать, что самозанятые не могут продавать чужой товар, т.е. перекупать продукцию перепродавать на онлайн-площадке. Для самозанятых возможна продажа только товаров, которые они производят сами, выручка с которых не может превышать 2,4 млн. руб. в год.

Системы налогообложения

Есть несколько вариантов налогообложения:

— Общая система налогообложения (ОСНО)
— Упрощенная система налогообложение (УСН), здесь выбор стоит между:: доходы и доходы уменьшенные на величину расходов

А вот ИП на патенте торговать через маркетплейсы не может, т.к. интернет-торговля не относится к рознице в целях применения ПСН (пп. 1 п. 3 ст. 346.43 НК РФ).

На маркетплейсах работа организуется по агентскому договору. По условию договора агент (маркетплейс) осуществляет сделки от своего имени или от имени продавца.

Как оплатить налоги с продаж на маркетплейсах

Если компания использует ОСНО, то она уплачивает налог на прибыль. Но компания на ОСНО платит еще и НДФЛ. ООО и ИП также уплачивают и НДС.

При УСН доходы и расходы учитываются кассовым методом — по факту поступления денег на счёт или их списания. Неправильно считать, в качестве дохода только ту сумму, которую маркетплейс начисляет вам на счет после удержания комиссионных сборов. Селлер получает доход не от маркетплейса, а от покупателей, а онлайн-площадка просто посредник. Поэтому доходом при УСН считает полная стоимость товара, перечисленная покупателем.
Ответ на первый вопрос:
Да, порядок с кодами ОКВЭД поможет избежать проблем с контрагентами, налоговой, банками.

Контрагент может отказать в заключении договора, если в ЕГРИП (ЕГРЮЛ) по вашему ИП (компании) нет кода ОКВЭД, который соответствует вашему бизнесу.

ФНС выпишет штраф за работу без заявления соответствующего кода ОКВЭД.

Банк может отнести операции к подозрительным и заморозить их, если они не соответствуют выбранным видам деятельности. При отсутствии пояснений — заблокировать счет.

Ответ на второй вопрос:
Нет, это не обязательно. Можете убрать лишние коды ОКВЭД, когда будет необходимость поменять основной код или добавить новые шифры, потому что решили работать по новым направлениям бизнеса.
Спасибо за статью, у меня два вопроса:
Важно ли следить за выбранными кодами ОКВЭД?

Надо ли вносить изменения в ЕГРЮЛ (ЕГРИП), если по некоторым кодам больше не ведется деятельность?
Я уже упоминал установку триггера_rule и предыдущего check_that_still_latest?

Да, после нескольких проблем с конвейером я понял две вещи:

Поскольку время от времени конвейер может занимать более 24 часов, нам следует подумать, следует ли пропустить завершение экземпляра.
Даже если предыдущие задачи не удастся выполнить, мы все равно должны завершить экземпляр.

Поскольку мне не нужно проверять это на регулярной основе, я использовал Google Cloud Monitoring для автоматического мониторинга, чтобы избежать ненужных взаимодействий. При обнаружении проблемы с конвейером Airflow в PubSub отправляется сообщение, что позволяет службе мониторинга GC поднять предупреждение и отправить мне и моему клиенту электронное письмо со всей необходимой информацией. Клиент знает, что я буду вносить часы в табели учета рабочего времени и проверять ошибки, но мне не придется тратить время вручную на мониторинг потенциальных ошибок на регулярной основе.

Данное решение доказало свою эффективность после более чем года эксплуатации без изменений. За это время мне пришлось всего дважды перезапустить один конвейер.
На протяжении всей моей карьеры я работал со многими компаниями, которым требовался инструмент оркестрации в течение ограниченного времени в день. Например, одному из моих первых клиентов-фрилансеров требовалось запускать экземпляр Airflow всего 2–3 часа в день, в результате чего все остальное время экземпляр простаивал и тратил деньги.

Поскольку это была небольшая компания, клиент спросил, могу ли я вмешаться. Инфраструктура размещалась в Google Cloud, с которым я был знаком.

После быстрого поиска в Интернете я нашел официальное руководство, которое точно соответствовало моим потребностям. Я подсчитал, что задача займет около 20 часов. Вот схема конструкции.

Здесь мне придется остановиться, чтобы объяснить, почему часов было именно 20:

— Мне пришлось перенести код из App Engine (не знаю, почему Airflow изначально был развернут в App Engine).
— В настоящее время для таких случаев я использую официальный Airflow Docker Compose, но раньше я устанавливал необработанный Airflow в режиме LocalExecutor, и база данных работала в том же экземпляре (я знаю, что это плохо, но вы не можете винить меня, если вы никогда не занимался шиткодом).
— Сами даги пришлось слегка рефакторить, чтобы приспособить их к новому графику, и, как и следовало ожидать, там было много некачественного кода, который я тщательно просмотрел.

Короче говоря, я выжал за 18 часов, и результат был следующий:
Основным недостатком решения было то, что выполнение конвейера могло занять гораздо больше трех часов, о чем я тогда не знал. Были случаи, когда конвейеры должны были занимать 5 часов или даже 12 часов, так что же нам делать?

Довольно просто: если мы внимательно посмотрим на дизайн, то увидим, что в Cloud Scheduler есть задание, которое отправляет сообщение в тему PubSub, что запускает функцию Cloud, которая останавливает экземпляр Airflow. Так почему мы не можем просто отключить его и отправить сообщение в тему через Airflow? Это просто, всего несколько строк кода с использованием PubSubPublishMessageOperator

check_that_still_latest >> PubSubPublishMessageOperator(

   task_id="send_pub_sub_message",

   project_id=conf.GCP_PROJECT_ID,

   topic=conf.TOPIC_TO_SHUTDOWN_AIRFLOW_INSTANCE,

   messages=[conf.AIRFLOW_SHUTDOWN_MESSAGE],

   gcp_conn_id=conf.GCP_CONN_ID,

   trigger_rule=TriggerRule.NONE_SKIPPED,

   execution_timeout=timedelta(minutes=5)

)
Интересно что на дворе уже 2024 год а некоторые тенденции так и остались ещё в тренде и по факту так ещё и не реализованы

Заявка на услуги DST

Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Адрес

Ижевск, ул. Воткинское шоссе 170 Е.
Региональный оператор Сколково. Технопарк Нобель

8 495 1985800
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон