首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签大数据处理

#大数据处理

Flink简介小结-史上最通俗易懂的Flink源代码深入分析教程

jack.yang

总之,通过详细介绍本章中提到的各个方面,我们可以更好地理解Flink的特点和优势,进一步认识Flink在大数据处理和分析中的重要性和价值。

16010

大数据导出时的性能问题

JDK7.0

在处理大数据导出时,直接一次性从数据库中读取所有数据并导出可能会导致内存溢出或性能问题。为了解决这些问题,常用的解决方案包括分批次处理、流式输出和使用临时文件等...

9500

Jsoup 爬虫:轻松搞定动态加载网页内容

小白学大数据

在深入探讨如何使用 Jsoup 获取动态加载内容之前,我们需要先了解动态加载网页的原理。传统的静态网页内容在服务器响应时已经完整生成,而动态加载的网页则通过 J...

17510

经历与追求:主数据治理咨询顾问眼中理想的主数据管理平台

得帆云低代码PaaS

我在2003年进入信息化咨询行业,最早做Oracle EBS(ERP)的咨询实施顾问,先后任职于汉得信息、凯捷咨询、IBM等公司。狭义的Oracle EBS主要...

12910

基于PHP扩展Phpy实现Apache ORC高效读写,搞定大数据处理

Tinywan

沃土股份 | 技术经理 (已认证)

Apache ORC 是一种专为 Hadoop 生态系统设计的列式存储文件格式,它具备高效的数据压缩和快速的查询性能。由于采用列式存储,ORC 格式在处理大规模...

7900

Python爬取某云热歌榜:解析动态加载的歌曲数据

小白学大数据

某云音乐的热歌榜数据是通过动态加载的方式呈现的,这意味着网页的HTML结构中并没有直接包含完整的歌曲信息,而是通过JavaScript动态请求后端接口获取数据并...

6200

数据治理:某环境公司主数据管理项目经验分享

数据狗忙忙忙

作为企业运营的基石,主数据承载着企业决策和业务流程优化的关键。某环境股份有限公司在应对项目、组织、客商及设备与物资等多领域主数据管理挑战的过程中,不断探索与创新...

11510

【大数据技术基础 | 实验十一】Hive实验:新建Hive表

Francek Chen

Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive...

14710

Spark Gluten 向量化执行框架

Yiwenwu

腾讯 | 后台开发工程师 (已认证)

向量化执行模型已在现代数据库引擎被广泛应用,例如ClickHouse、TiDB、StarRocks等。为进一步提升计算性能,充分利用CPU计算能力,大数据计算引...

46550

2024年,中国开源商业到底行不行?我的答案是,行!

郭大侠说开源

全文摘要:2024,开源的温度刚刚好;中国开源商业化蜕变;“要做主流中的非主流开源项目”;ToB行业不存在赛道级创新;要做时间的朋友

16610

未来数据处理领域的PK:大模型Transformer vs 大数据Transform

郭大侠说开源

随着大模型的快速发展,许多人开始设想未来是否不再需要传统的大数据处理方式,甚至怀疑ETL的存在价值。大模型能够从海量数据中自主学习规则、挖掘模式,其强大能力令人...

24710

用Scrapy精准爬取BOSS直聘特定行业职位

小白学大数据

BOSS直聘作为国内领先的招聘平台,拥有海量的职位信息,对于求职者、招聘者以及行业分析师来说,这些数据具有极高的价值。本文将详细介绍如何使用Scrapy框架精准...

14510

网页内容解析技巧:Typhoeus 与 Nokogiri 的结合使用

小白学大数据

Typhoeus 是一个基于 Hydra 的库,它提供了一个简单而强大的 API 来发送 HTTP 请求。Nokogiri 是一个高效的 HTML、XML 和 ...

12110

优化Go语言中的网络连接:设置代理超时参数

小白学大数据

在分布式系统和微服务架构中,网络请求的效率直接影响到整个系统的响应速度。合理的超时设置可以防止系统在等待网络响应时陷入无限期的阻塞,从而提高系统的吞吐量和用户体...

14410

SQL入门教程(2):怎么用SQL做基础信息检索?

效率时空

在上一篇文章中,我们介绍了 SQL(结构化查询语言)的基本概念,以及它在用户研究中的重要作用。今天,我们将深入了解 SQL 的基本语法,并通过实际应用场景帮助你...

12110

轻量级的大数据处理技术

朱迪

综合来看,应用端计算需要的是一种不依赖于数据库的、可被集成嵌入的、具备较强开放性能直接处理多源数据、能够解决数据范围问题、简单方便的轻量级大数据处理技术,但现在...

15110
领券
http://www.vxiaotou.com