• <tr id='18613'><strong id='3852c'></strong><small id='9bc47'></small><button id='e965c'></button><li id='09882'><noscript id='1a856'><big id='2c9e9'></big><dt id='ad80d'></dt></noscript></li></tr><ol id='95656'><option id='58271'><table id='e3536'><blockquote id='38948'><tbody id='e045d'></tbody></blockquote></table></option></ol><u id='09e24'></u><kbd id='ad259'><kbd id='c3fb0'></kbd></kbd>

    <code id='4b98e'><strong id='0a1ea'></strong></code>

    <fieldset id='edf83'></fieldset>
          <span id='d6489'></span>

              <ins id='82d76'></ins>
              <acronym id='0a201'><em id='23457'></em><td id='a0bc5'><div id='20f03'></div></td></acronym><address id='9aeca'><big id='5d8ba'><big id='598c6'></big><legend id='7ac09'></legend></big></address>

              <i id='78eb1'><div id='31683'><ins id='411c3'></ins></div></i>
              <i id='7221e'></i>
            1. <dl id='cc8bd'></dl>
              1. <blockquote id='29a5b'><q id='432ca'><noscript id='f3020'></noscript><dt id='05dd6'></dt></q></blockquote><noframes id='3a55f'><i id='fd97c'></i>
                首页 >产品中心>通用产品

                SDI智能数据获取系统

                一、 产品介绍

                产品提供丰富、灵活、高效、安全的信息采集应用,将分散的异构数据源如数据库(关系/非关系型数据库)、网络信息(WEB)资源、文件系统等数据进行抽取及清洗、转换、加工,形成统一的数据标准规范后进行数据加载,为信息搜索、信息整合利用、数据决策分析等应用提供高质量数据。

                 

                二、 产品背景

                随着信息技术的迅猛发展和普及应用,信息资源越来越呈现出不同表现形式和结构多样性,大量信息分布在相互独立的各个子系统和节点中,需要通过信息技术手段把各类不同标准、不同来源的异构数据转换为统一的信息和知识并加以利用,为行业化应用提供信息资源的整合服务。

                 

                三、 功能特性

                1. 统一的采集管理

                平台模块化架构,支持采集模块可插接扩展;

                多线程调度管控,按时按需自动启动采集;

                多任务协作并行爬取同一目标,提高数据采集效率;

                统一任务监控,实时监测数据采集的运行状态;

                异常数据报警与追溯机制,保证数据的完整性;

                采集任务可视化的配置、管理、监控与统计;

                统一认证与授权,为用户提供操作安全与数据安全保障;

                标准化接口,支持与第三方平台集成;

                2. 完备的采集方案

                (1)数据库数据采集

                支持各种类型数据库(关系型/非关系型)数据采集,包括但不限于Oracle、MySQL、SQL Server、DB2、Mongo DB、TRS、ArcGIS、人大金仓、达梦等

                支持数据表大对象字段、文件路径字段的内容属性与全文抽取

                支持字段拆分、多字段合并后采集

                支持数据过滤、清洗与类型转换

                (2)网络资源采集

                支持全站点归档模式与指定页面内容采集模式

                支持动态页面(Ajax)与自媒体数据采集

                支持自动模拟登录;

                支持多种防爬取策略:IP池轮询、代理服务器、可控采集频度等;

                支持多级关联页面的信息抽取与组织;

                (3)文件资源采集

                支持FTP、本地文件目录、网络磁盘等文件来源;

                支持Word、PPT、EXCEL、PDF、TXT、HTML等常见文本格式文件属性解析与全文提取;

                支持200多种常见文件格式文件元数据提取;

                (4)支持增量采集

                (5)支持大数据分布式采集

                (6)支持针对第三方系统接口的采集适配器可扩展

                例如:EMC Documentum、IBM FileNet、Oracle Opentxt以及OA、ERP、Email等企业级应用;

                (7)支持可配置输出方案

                采集内容可根据需要输出到各类型数据库或元数据仓储平台中。

                四、 应用案例

                1. 党政

                中共中央某办事机构-523项目

                国务院某办事机构-政务信息资源整合与利用项目

                国家发展和改革委员会-信息资源整合利用平台

                2. 企业

                国家电网公司运营监测(控)中心-互联网大数据采集处理项目

                北京航空航天大学-中航信情报分析系统

                中国电信-运维服务中心工单知识库搜索项目

                3. 军队

                某军事医学研究机构-军事医学战略论证与情报研究支持系统及综合资料库

                某军兵种科技信息网-综合集成知识服务平台

                4. 图情

                浙江图书馆-网事典藏项目

                国际关系学院-学科文献专题服务中心项目

                分享到: